当前位置: windows系统城 >  微软资讯 >  微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

更新时间:2024-04-24 09:27:50作者:wxclgg
微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

在人工智能领域,大模型正在不断刷新着人们的认知。在近几年的发展中,千亿参数、万亿参数的模型层出不穷,似乎越大越好。然而,微软的研究人员却另辟蹊径,他们研发出了一种小巧的语言模型phi-3-mini,它仅拥有3.8亿参数,但却展现出了与大模型相媲美的性能。

技术参数

技术报告地址:https://arxiv.org/abs/2404.14219

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

简介

phi-3-mini是一种3.8亿参数的语言模型,经过3.3万亿tokens的训练,其性能可以与Mixtral 8x7B和GPT-3.5相媲美。这一成绩令人瞩目,因为phi-3-mini的体积小巧,足以部署在手机上。其创新之处在于训练数据,包括重度过滤的网页数据和合成数据,并针对稳健性、安全性和对话格式进行了进一步优化。此外,研究人员还提供了7B和14B参数模型的初步结果。

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

随着大模型规模的不断增长,人们发现通过训练更大的模型可以获得更好的性能。然而,这种规模增长是建立在训练数据固定的基础上的。在phi-3-mini之前,微软的研究人员已经通过基于大模型过滤和合成数据训练的小模型,取得了与大模型相媲美的效果。phi-3-mini的问世进一步证实了这一观点,它仅拥有3.8B参数,但其性能却可以与大型模型相媲美。

技术规格

phi-3-mini模型采用transformer解码器架构,并具备默认上下文长度为4K的特点。此外,通过LongRope技术,推出了长上下文版本phi-3-mini-128K,其上下文长度可扩展至128K。该模型采用与Llama-2类似的模块结构,并使用了相同的tokenizer,词汇量为320641。在模型参数方面,phi-3-mini具有3072隐藏维度,32个头和32层,并使用bfloat16格式训练了3.3T tokens。值得注意的是,phi-3-mini已经经过聊天微调,聊天模板为"/n Question <|end|>/n"。

phi-3-small是一个7B参数模型,采用标准的7B模型解码器结构,具备32层和4096隐藏层维度。为了减少KV cache占用,该模型使用了grouped-query attention,其中4个query共享1个key。此外,phi-3-small还采用了密集注意力层和块稀疏注意力层的交替使用,以进一步优化KV cache占用,同时保持长上下文检索性能。在训练数据方面,phi-3-small额外使用了10%的多语言数据,并采用了tiktoken tokenizer,词汇量为100352。

phi-3-medium是一个14B参数模型,与phi-3-mini使用相同的tokenizer和架构。在训练数据上,phi-3-medium在相同的训练数据上训练了更多的epoch(4.8T tokens)。在模型参数方面,phi-3-medium具有40个头和40层,嵌入维度为5120。然而,一些基准测试从7B到14B的提升不如从3.8B到7B的提升明显,可能需要进一步优化训练数据组合,以适应14B参数模型。

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

phi-3-mini的训练数据包括重度过滤的网页数据和合成数据。在训练阶段,phi-3-mini首先使用网页数据训练语言理解能力,然后使用网页和合成数据训练逻辑推理能力。这种训练策略使得phi-3-mini的数据更接近于数据最优状态。

效果介绍

学术基准测试结果部分详细报告了phi-3-mini在多个基准测试上的表现,并将其与其他模型进行了比较。结果显示,phi-3-mini在多项基准测试中均取得了优异的成绩,其性能与大模型相媲美。

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)


phi-3-mini遵循微软负责任AI原则,进行了安全优化。经过安全优化后,phi-3-mini的有害回应显著减少。

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

弱点:由于模型规模较小,phi-3-mini在事实知识存储方面存在限制。然而,这一弱点可以通过集成搜索引擎来解决。此外,目前phi-3-mini主要面向英文,未来将探索多语言能力。

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

我们可以看到,phi-3-mini这个小巧的语言模型展现出了惊人的性能。它不仅在学术基准测试中取得了优异的成绩,还可以安全地部署在手机上。这一成果无疑为人工智能领域带来了新的启示,也为我们提供了更多的想象空间。

应用测试

phi-3发布后,第一时间被大量的模型加速/服务工具所支持。以ollama为例:

phi3

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

因为我前期已经安装了ollama及open_webui环境,所以这次就直接用ollama+open_webui进行测试。具体安装过程可以参考:

https://www.toutiao.com/item/7358343321595281954/

测试所用模型为q4版,模型下载使用:


微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒


效果测试:

简单测试发现phi3对中文支持并不是很好:

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

但是算数学题让我感到非常惊艳:

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

微软发布Phi-3:手机运行、性能媲美ChatGPT,实测效果很棒

添加图片注释,不超过 140 字(可选)

这点可比llama3-8B 的效果好,甚至超过了一些商业大模型。


在未来的发展中,我们期待看到phi-3-mini在更多领域的应用,以及更多类似的小型高效模型的出现。

Copyright ©  2009-2024 windows系统城 www.wxclgg.com 版权声明 网站地图