微软推出其最小参数 AI 模型，性能逼近 GPT-3.5

4/28/2024

www.theverge.com

https://www.chatbro.cn/news/662dbca6bede1d93c6c447d7

微软在4月23日发布了其轻量级人工智能模型Phi-3 Mini的升级版本，这是计划中的三个小型模型系列的首个模型。Phi-3 Mini含有38亿个可测量参数，相较于GPT-4等大型语言模型，它在更小的数据集上进行了训练。目前，该模型已在Azure、Hugging Face和Ollama平台上提供。除了Phi-3 Mini，微软还计划推出Phi-3 Small（7B参数）和Phi-3 Medium（14B参数）两个版本。

微软曾在去年12月发布Phi-2，其性能与大型型号如Llama 2相当。公司声称，新版本的Phi-3在性能上超越了Phi-2，且响应速度接近于它规模大10倍的模型。

微软Azure人工智能平台的副总裁埃里克·博伊德（Eric Boyd）指出，Phi-3 Mini的性能可以与GPT-3.5等大型语言模型（LLM）相媲美，只是模型尺寸更为轻巧。相较于大型AI模型，小型AI模型的运行成本更低，且在个人设备（如手机和笔记本电脑）上的表现更佳。据《The Information》报道，微软正在组建一个专注于轻量级AI模型的团队，并已开发了专门解决数学问题的Orca-Math模型。

微软的竞争对手也在开发各自的小型模型，这些模型大多针对简单的任务，例如Google的Gemma 2B和7B，它们更适合用于简单的聊天机器人和语言处理任务。Anthropic公司的Claude 3 Haiku能够阅读包含图表的密集型研究论文并快速总结，而Meta公司最近发布的Llama 3 8B则适用于聊天机器人和编码辅助工作。

博伊德提到，开发团队通过一种“课程”方式对Phi-3进行训练，灵感来源于儿童如何通过睡前故事、简单词汇的书籍和讨论更大主题的句子结构来学习。由于市面上缺乏足够的儿童读物，团队制定了包含3000多个单词的清单，并利用大型语言模型创造了教授Phi的“儿童读物”。

Phi-3是在之前模型迭代所学知识的基础上建立的。Phi-1专注于编程，Phi-2开始学习推理，而Phi-3在编程和推理方面更加精进。尽管Phi-3系列模型能够掌握一些常识，但在更广泛的应用场景中，它们仍无法超越GPT-4或其他大型语言模型。

博伊德还指出，许多公司发现像Phi-3这样的小型模型更适合他们的定制应用程序需求，因为对于这些公司而言，其内部数据集规模较小，使用这些小型模型在性价比上更为合适。