LLM 涌现能力

用户7782

2024年4月8日修改

一般而言，模型的规模越大，模型在下游任务上的能力越多、越强。随着最近的新的模型的提出，大规模的语言模型出现了很多超乎研究者意料的能力。​

我们将这些现象称为涌现能力，即在小模型上没有出现，但是在大模型上出现的不可预测的能力。​

An ability is emergent if it is not present in smaller models but is present in larger models.​

1.
Scaling Law​

•
模型的性能强烈依赖于模型的规模，具体包括：参数数量、数据集大小和计算量，最后的模型的效果（图中表现为loss值降低）会随着三者的指数增加而线性提高​

scaling law 一个重要作用就是可以预测模型的性能。

Beyond scaling:

模型仍然有可能通过数据，算法的改进在更小规模出现emergence. 比如在BIG-Bench任务上，LaMDA在137B，GPT-3在175B上出现emergent ability，而PaLM在62B就可以出现​

2.
Emergent Ability​

2.1
In Context Learning：基于普通提示的涌现能力​

即最常见的prompt：给定一个提示，模型能在不更新的参数的情况下给出回复。​

可以发现，当模型规模在一定范围内时（大多FLOPs在10^22以内），模型的能力并没有随着模型规模的提升而提高；当模型超过一个临界值时，效果会马上提升，而且这种提升和模型的结构并没有明显的关系。​

2.2
Chain of Thought：基于增强提示的涌现能力​

增强提示，区别于普通提示引入更多中间推理过程，如思维链CoT等。​

什么是思维链？

•

•

LLM 涌现能力​