微软推出其最小参数 AI 模型,性能逼近 GPT-3.5
微软在4月23日发布了其轻量级人工智能模型Phi-3 Mini的升级版本,这是计划中的三个小型模型系列的首个模型。Phi-3 Mini含有38亿个可测量参数,相较于GPT-4等大型语言模型,它在更小的数据集上进行了训练。目前,该模型已在Azure、Hugging Face和Ollama平台上提供。除了Phi-3 Mini,微软还计划推出Phi-3 Small(7B参数)和Phi-3 Medium(14B参数)两个版本。
微软曾在去年12月发布Phi-2,其性能与大型型号如Llama 2相当。公司声称,新版本的Phi-3在性能上超越了Phi-2,且响应速度接近于它规模大10倍的模型。
微软Azure人工智能平台的副总裁埃里克·博伊德(Eric Boyd)指出,Phi-3 Mini的性能可以与GPT-3.5等大型语言模型(LLM)相媲美,只是模型尺寸更为轻巧。相较于大型AI模型,小型AI模型的运行成本更低,且在个人设备(如手机和笔记本电脑)上的表现更佳。据《The Information》报道,微软正在组建一个专注于轻量级AI模型的团队,并已开发了专门解决数学问题的Orca-Math模型。
微软的竞争对手也在开发各自的小型模型,这些模型大多针对简单的任务,例如Google的Gemma 2B和7B,它们更适合用于简单的聊天机器人和语言处理任务。Anthropic公司的Claude 3 Haiku能够阅读包含图表的密集型研究论文并快速总结,而Meta公司最近发布的Llama 3 8B则适用于聊天机器人和编码辅助工作。
博伊德提到,开发团队通过一种“课程”方式对Phi-3进行训练,灵感来源于儿童如何通过睡前故事、简单词汇的书籍和讨论更大主题的句子结构来学习。由于市面上缺乏足够的儿童读物,团队制定了包含3000多个单词的清单,并利用大型语言模型创造了教授Phi的“儿童读物”。
Phi-3是在之前模型迭代所学知识的基础上建立的。Phi-1专注于编程,Phi-2开始学习推理,而Phi-3在编程和推理方面更加精进。尽管Phi-3系列模型能够掌握一些常识,但在更广泛的应用场景中,它们仍无法超越GPT-4或其他大型语言模型。
博伊德还指出,许多公司发现像Phi-3这样的小型模型更适合他们的定制应用程序需求,因为对于这些公司而言,其内部数据集规模较小,使用这些小型模型在性价比上更为合适。