微软发表效能优於Google Gemini Nano 2的Phi-2语言模型

微软

微软於周二(12/12)发表了Phi-2,这是一个小型语言模型(Small Language Model,SLM),仅具备27亿个参数,但它在许多测试上超越了具备70亿参数的Mistral、拥有130亿参数的Llama-2,也凌驾了Google刚发表的、基於32亿个参数的Gemini Nano 2。

微软是在今年6月发表了基於深度学习模型Transformer的Phi-1模型,这是为了撰写基本Python程式码而设计的小型语言模型,仅使用13亿个参数,当时微软强调用来训练Phi-1的素材全都是教科书品质,以期在更小的参数规模下达到更好的效能。9月登场的Phi-1.5则扩展至常识推理及语言理解,其效能可媲美5倍的模型。

最新的Phi-2则号称效能可媲美25倍的模型,微软认为它将是研究人员理想的游乐场,可用来探索机制可解释性,安全性的改善,或是针对各种任务进行微调实验。

Phi-2的训练素材同样基於「教科书等级」的概念,涵盖科学、日常活动与心理学等,再加上筛选过且具有教育价值的高品质网路内容,并将参数量从13亿扩大至27亿。

有别於Phi-1仅在8个A100 GPU上,以540亿个Token进行6天的训练,Phi-2则是在96个A100 GPU上,以1.4兆个Token进行了14天的训练。

微软以完成训练的Phi-2进行各种基准测试,并与其它模型进行比较,包括用来评估语言模型处理复杂及具挑战性任务的Big Bench Hard(BBH)、常识推理、语言理解、数学及撰写程式码等。发现Phi-2在上述类别的表现全都优於拥有130亿个参数的Llama-2,也优於具备70亿个参数的Mistral。

此外,微软也比较了Phi-2与Google专替行动装置设计的Gemini Nano 2,显示它在BBH、BoolQ、MBPP与MMLU等类别的评测表现胜过Gemini Nano 2。不过,根据Google Gemini的技术报告,除了上述4项之外,Gemini Nano 2的评测类别还包括TydiQA、NaturalQuestions与MATH,而微软并未公布相关比较。

strongvpn合法吗

相关推荐

Comments

0 0 投票数
Article Rating
订阅评论
提醒
guest
0 Comments
最旧
最新 最多投票
内联反馈
查看所有评论

热门文章

0
希望看到您的想法,请您发表评论x