微软发表效能优於Google Gemini Nano 2的Phi-2语言模型

2023 年 12 月 13 日

微软

微软於周二（12/12）发表了Phi-2，这是一个小型语言模型（Small Language Model，SLM），仅具备27亿个参数，但它在许多测试上超越了具备70亿参数的Mistral、拥有130亿参数的Llama-2，也凌驾了Google刚发表的、基於32亿个参数的Gemini Nano 2。

微软是在今年6月发表了基於深度学习模型Transformer的Phi-1模型，这是为了撰写基本Python程式码而设计的小型语言模型，仅使用13亿个参数，当时微软强调用来训练Phi-1的素材全都是教科书品质，以期在更小的参数规模下达到更好的效能。9月登场的Phi-1.5则扩展至常识推理及语言理解，其效能可媲美5倍的模型。

最新的Phi-2则号称效能可媲美25倍的模型，微软认为它将是研究人员理想的游乐场，可用来探索机制可解释性，安全性的改善，或是针对各种任务进行微调实验。

Phi-2的训练素材同样基於「教科书等级」的概念，涵盖科学、日常活动与心理学等，再加上筛选过且具有教育价值的高品质网路内容，并将参数量从13亿扩大至27亿。

有别於Phi-1仅在8个A100 GPU上，以540亿个Token进行6天的训练，Phi-2则是在96个A100 GPU上，以1.4兆个Token进行了14天的训练。

微软以完成训练的Phi-2进行各种基准测试，并与其它模型进行比较，包括用来评估语言模型处理复杂及具挑战性任务的Big Bench Hard（BBH）、常识推理、语言理解、数学及撰写程式码等。发现Phi-2在上述类别的表现全都优於拥有130亿个参数的Llama-2，也优於具备70亿个参数的Mistral。

此外，微软也比较了Phi-2与Google专替行动装置设计的Gemini Nano 2，显示它在BBH、BoolQ、MBPP与MMLU等类别的评测表现胜过Gemini Nano 2。不过，根据Google Gemini的技术报告，除了上述4项之外，Gemini Nano 2的评测类别还包括TydiQA、NaturalQuestions与MATH，而微软并未公布相关比较。