分享
LLM 涌现能力
输入“/”快速插入内容
LLM 涌现能力
用户7782
用户7782
2024年4月8日修改
一般而言,模型的规模越大,模型在下游任务上的能力越多、越强。随着最近的新的模型的提出,大规模的语言模型出现了很多超乎研究者意料的能力。
我们将这些现象称为涌现能力,即在小模型上没有出现,但是在大模型上出现的不可预测的能力。
An ability is emergent if it is not present in smaller models but is present in larger models.
1.
Scaling Law
论文
Scaling laws for neural language models
提出缩放法则,
•
模型的性能强烈依赖于模型的规模,具体包括:
参数数量
、
数据集大小
和
计算量
,最后的模型的效果(图中表现为loss值降低)会随着三者的指数增加而线性提高
scaling law 一个重要作用就是可以预测模型的性能。
Beyond scaling:
模型仍然有可能通过数据,算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上,LaMDA在137B,GPT-3在175B上出现emergent ability,而PaLM在62B就可以出现
2.
Emergent Ability
Emergent Abilities of Large Language Models
2.1
In Context Learning:基于普通提示的涌现能力
即最常见的prompt:给定一个提示,模型能在不更新的参数的情况下给出回复。
可以发现,当模型规模在一定范围内时(
大多FLOPs在10^22以内
),模型的能力并没有随着模型规模的提升而提高;当模型超过一个临界值时,效果会马上提升,而且这种提升和模型的结构并没有明显的关系。
2.2
Chain of Thought:基于增强提示的涌现能力
增强提示,区别于普通提示引入更多中间推理过程,如思维链CoT等。
什么是思维链?
•
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
•
大模型思维链(Chain-of-Thought)技术原理