在人工智能技术的浩瀚星空中,微软以其Phi系列小模型点亮了一颗璀璨的星辰,为资源受限的端侧设备带来了前所未有的智能化可能。面对大模型在计算资源上的巨大需求,微软另辟蹊径,专注于小模型的研究,旨在以较小的模型规模和较低的算力需求,满足端侧设备对智能应用的迫切需求。
Phi-1,作为这一系列模型的开山之作,以其1.3亿参数的小巧身躯,在Python编程任务上大放异彩。在Humaneval和MBPP基准测试中,Phi-1的表现令人瞩目,甚至与一些大型模型不相上下。这一成就,无疑为小模型的发展奠定了坚实的基础。
随后,Phi-1.5在Phi-1的基础上进行了全面优化,引入了更多高质量的训练数据,专注于提升模型的常识推理和通用知识能力。这一改进使得Phi-1.5在自然语言任务上的表现更加出色,甚至在某些复杂推理任务上超越了非前沿的大型语言模型。
Phi-2的推出,更是将小模型的性能推向了一个新的高度。凭借2.7亿的参数数量和创新的知识转移技术,Phi-2在多个复杂基准测试中,展现出了与比其规模大25倍的模型相匹敌的实力。Phi-2还在安全性和偏见方面进行了改进,确保了模型在生成内容时的无害性和公正性。
Phi-3系列则进一步丰富了小模型的种类和应用场景。Phi-3-mini、Phi-3-small和Phi-3-medium三款模型,分别满足了不同规模和性能需求。其中,Phi-3-mini以3.8B的参数量和3.3T的训练数据,在多个学术基准测试中表现优异,甚至能够部署在iPhone等移动设备上,实现实时推理。而Phi-3-vision作为Phi系列中的首个多模态模型,更是将文本和图像的结合推向了一个新的境界,为生成见解和回答问题提供了出色的语言和图像推理质量。
Figure 4. 手机上运行Phi-3-mini进行问答任务的截图
Phi-3.5系列作为最新一代的Phi系列小模型,更是将性能提升到了一个新的层次。Phi-3.5-mini专为遵守指令而设计,支持快速推理任务,并在多语言和多轮对话任务中表现出色。Phi-3.5-MoE则采用了混合专家架构,将多个不同类型的模型组合成一个,实现了复杂的多语言和多任务场景下的卓越性能。而Phi-3.5-vision则继续深化多模态能力,为用户提供了更加丰富和多样的交互体验。
Figure 8. Phi3_5-vision-instruct推理时的运行界面
以Phi-3.5-vision为例,我们可以在Azure Machine Learning平台上轻松实现基于GPU的推理部署。在A100 GPU的加持下,Phi-3.5-vision能够轻松处理复杂的图像和文本交互任务,为用户带来流畅而智能的体验。无论是描述图片中的细节,还是计算图片中的数学公式,Phi-3.5-vision都能给出准确而迅速的答案。
Figure 10. 用Phi3_5-vision-instruct对不同图片进行描述的多模态交互用例
微软Phi系列小模型的推出,不仅为端侧设备带来了智能化的新可能,更为人工智能技术的普及和发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展,相信Phi系列小模型将在未来发挥更加重要的作用,为人们的生活和工作带来更多便利和惊喜。