logits

深度学习中,"logits" 是一个常用的术语,通常用来描述一个模型的原始、未归一化的输出。

对于分类问题,比如说一个模型需要从 10 个不同的类别中选择一个,模型的最后一层通常会输出一个长度为 10 的向量,这个向量就是 logits。这个向量中的每个元素对应于模型认为输入属于某个特定类别的 "原始" 置信度。

然后,我们通常会对这些 logits 应用 Softmax函数,将其转换为概率分布。softmax 函数确保了输出的值都在 0 到 1 之间,并且所有的输出值之和为 1。这样,我们就可以将每个元素解释为模型认为输入属于某个特定类别的概率。

例如,对于一组 logits [-1, 0, 3],经过 softmax 函数处理后,我们得到 [0.018, 0.049, 0.933],这表示模型认为输入属于第一个类别的概率为 0.018,属于第二个类别的概率为 0.049,属于第三个类别的概率为 0.933。

NLP 中,特别是在使用像 GPT-2 这样的生成模型时,我们也经常使用 logits。在这种情况下,模型的每个输出 token 都有一个对应的 logits 向量,该向量的长度等于词汇表的大小,每个元素表示模型认为下一个 token 是词汇表中的某个特定词的 "原始" 置信度。然后,我们可以通过应用 softmax 函数,并进行采样或选择最大值的方式,来决定实际的输出 token。


本文作者:Maeiee

本文链接:logits

版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!


喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!