完整的证明在附录 A.1 中提供。尽管该定理本身概念上简单,但它引发了一系列具有实际意义的强大引理:
引理2 设,因此。给定阈值 的核质量为
注释 该引理的一个关键含义是,给定 logits 的概率分布,核采样的 logit 阈值可以解析地导出。我们通过推导两个基本案例的闭合形式表达式来展示这一点。给定累积概率阈值:
这些表达式的详细推导见附录 A.2。这些解析表达式提供了关于 logit 分布与采样阈值之间关系的宝贵见解。
虽然语言模型中的实际 logit 分布可能更复杂,但这些基本案例作为重要的理论基准,并且可以指导设计更高效的采样算法。
如图 1 所示,绝大多数的 token 表现出遵循高斯分布的 logits。由于这些 logits 对应的概率通常可以忽略不计,并且在之前的工作中被认为是噪声,我们将这个区域指定为噪声区域。
这种特征与统计直觉很好地吻合,在统计直觉中,高斯分布通常表明系统中存在随机噪声。
当噪声区域和信息区域之间的边界变窄时,经过 softmax 变换后的噪声衍生概率倾向于干扰模型的生成过程,潜在地降低输出质量。
这种现象在高温采样场景中尤为明显,所有当前的非确定性采样算法在这种情况下表现不佳。
我们将这种退化归因于在高温下两个区域之间减小的间隙,使得噪声分布主导了概率景观。
我们识别出几个导致这种噪声的关键因素:
训练数据噪声 训练数据中的固有噪声和变化自然会通过模型的学习过程传播,最终表现为 logit 空间中高斯分布的一部分。
正则化效应 在训练过程中采用的各种正则化技术,虽然对于防止过拟合至关重要,但也有副作用,即给词汇表中语义无关的 token 分配较小但非零的概率。
沉默噪声 模型架构约束将有限值分配给无关的 token(理想情况下应该是“沉默”的,具有 logits),这导致了一种独特的噪声模式。这是 softmax 函数的一个内在缺陷。
尽管从根本上解决这些噪声源超出了本文的范围,但我们相信这些见解可能有助于未来工作中改进训练程序。
在本文中,我们将专注于如何在推理过程中消除这些噪声 token。
如图 1 所示,一小部分 token 占据了概率质量的大部分。这种集中表明大型语言模型对这些 token 具有特定的知识,因此我们将此指定为信息区域。
由于该区域中的 token 数量有限,很难对该区域的基本分布做出明确的声明。然而,关于采样方法的近期经验观察提供了对该区域特征的有趣见解。
值得注意的是,我们观察到 min- 采样方法在生成质量方面取得了显著改进。这种方法建立了一个基准概率阈值,并消除了所有低于 的概率值,其中 是最大概率。虽然 Nguyen 等人通过经验推导出这种方法,但我们做出了一个令人惊讶的理论发现:
定理3 对于遵循均匀分布的 logits,min- 采样等价于top- 采样。
证明:我们首先将 min- 放入logits空间。对于,阈值为
因为,,所以 top- 的阈值完全相同:
这个分析揭示了尽管 min- 声称具有适应性,但它本质上在 logits 空间中执行静态截断。此外,min- 采样的有效性表明信息区域大致遵循均匀分布。
区分信息区域和噪声区域的一种自然方法是将信息区域视为噪声分布的异常值。根据这一假设,可以应用传统的 μ + 3σ 规则来确定边界。然而,我们的经验观察表明,这种方法可能不是当前任务的最佳选择。
我们定义 为最大概率与分布均值之间的标准差数量,即,其中 是最大 logit,遵循均匀分布情况下的相同符号。
如图 2a 所示,最大概率与均值之间的距离始终超过 10σ,在生成过程中表现出显著波动。结合图 2b,出现了一个有趣的模式:较大的核大小与较低的 相关。
这一观察结果与传统的异常值检测方法(如 μ + 3σ 准则)相矛盾,后者理论上认为较高的 应包含更多的 token。这一发现强烈表明信息 token 不应被视为噪声 token 的异常值。事实上,较高的 表明模型对其输出具有强烈的信心,从而导致较小的核大小。
这使我们从根本上改变了视角:与其将少数从高斯分布中视为异常值,我们应该认识到大多数是从均匀分布中的异常值。这种反直觉的转变挑战了传统异常值检测的常规假设,其中异常通常是罕见事件。在我们的案例中,噪声区域中的 token 基本上是无关的候选者,应该被排除在外,尽管它们的数量占多数。
为了实现这一视角,我们引入了 top- 算法。我们的算法从最大值开始向下延伸,使用分布的标准差动态调整边界。具体来说,我们捕捉一个向下延伸 的最大值区域,其中 是通过经验确定的,以平衡保留信息 token 和排除均匀噪声。在实践中,我们发现 实现了令人满意的效果。
我们的方法引入了一个统计阈值来在采样前过滤候选 token。算法 1 概述了我们方法的主要步骤。
该算法计算效率高,因为它直接在 logits 上操作,而不需要额外的 softmax 变换或排序。核心运算(最大值和标准差)针对现代 GPU 实现进行了高度优化。执行时间通常保持在几十微秒内,其中大部分计算成本由内核启动开销占据。
尽管在 logits 空间中分布混合的确切机制尚不清楚,我们专注于分析两种边界情况:
这两种情况为我们分析方法在实际中的行为提供了理论界限。
在高斯情况下,,我们得到以下方程:
因此,
该公式的一个关键属性是,当 接近零时, 内的项接近正无穷大,导致 收敛到零。这有效地防止了来自噪声区域的token被包含进来,为采样过程中的潜在不稳定性提供了一种自然的保护。
在均匀分布的情况下,,我们有:
因此,
为了确定 的适当值,我们利用 logit 的总体标准差为 这一事实。考虑到均匀分布的方差为,我们有 以保持与观察到的标准差的一致性。这为我们提供了上限。
因此,
对于典型的参数值,如 和,我们得到下限约为 0.85,表明我们的 top- 算法有效地保留了信息丰富的token。
这种分析也为选择超参数 提供了有价值的指导:它不仅应该是正数,而且应保持在 以下,因为。超过这个上限可能会导致包括噪声 token,从而可能降低算法的性能。
我们采样方法的一个关键特性是其温度不变性。具体来说,候选 token 的集合在使用任何温度值时都保持不变。
定理4 对于任何温度,top- 的核心保持不变。
证明:考虑任意 token 和温度。设 为原始 logit。经过温度缩放后,对于所有 token,我们有。对于给定的 token:
token 被选中当且仅当。代入:
这个最终条件与 无关。因此,对于任何 token,它是否被选中取决于相同的条件,无论温度如何。
这种温度不变性特性将我们的方法与其他常见的采样方法区分开来。对于 top- 和 min- 采样,选择的 token 集随温度变化。随着温度升高,logit 分布趋向于高斯噪声部分,导致 top- 和 min- 在其采样池中包含更多噪声 token。虽然 top- 采样确实保持了温度不变性,但它使用固定的 值,这仅仅转移了问题:固定的 无法在不同上下文中动态地区分有效 token 和噪声 token。
细微的探索控制 使用 top-,探索被分解为两个不同的参数。参数 控制核心的大小,而温度仅调节如何在核心内进行探索。这种机制作为一种软屏蔽方法,有效地消除了潜在的不相关 token,同时仍允许一定程度的受控探索。这种解耦提供了对采样过程更细微的控制:参数 确定有效 token 和噪声 token 之间的边界,而温度参数则在验证的 token 空间内微调探索策略。
我们提出了 top-,证明了其在现有采样方法上具有理论和实证优势。
我们的分析揭示了关于大型语言模型中 logit 分布的基本洞察,挑战了推理任务中传统对贪婪解码的偏好。
该方法的不变性温度和高效计算使其特别适合于新兴的测试时缩放技术。
除了采样策略之外,我们关于 logit 空间中噪声区域和信息区域之间独特分离的发现,为模型架构和训练过程的改进提供了潜在的可能性。
未来的工作可能会探索如何在训练过程中利用这些统计特性来提高模型性能。