微软发布Phi-3：手机运行、性能媲美ChatGPT，实测效果很棒

更新时间：2024-04-24 09:27:50作者：wxclgg

在人工智能领域，大模型正在不断刷新着人们的认知。在近几年的发展中，千亿参数、万亿参数的模型层出不穷，似乎越大越好。然而，微软的研究人员却另辟蹊径，他们研发出了一种小巧的语言模型phi-3-mini，它仅拥有3.8亿参数，但却展现出了与大模型相媲美的性能。

技术参数

技术报告地址：https://arxiv.org/abs/2404.14219

添加图片注释，不超过 140 字（可选）

简介

phi-3-mini是一种3.8亿参数的语言模型，经过3.3万亿tokens的训练，其性能可以与Mixtral 8x7B和GPT-3.5相媲美。这一成绩令人瞩目，因为phi-3-mini的体积小巧，足以部署在手机上。其创新之处在于训练数据，包括重度过滤的网页数据和合成数据，并针对稳健性、安全性和对话格式进行了进一步优化。此外，研究人员还提供了7B和14B参数模型的初步结果。

添加图片注释，不超过 140 字（可选）

随着大模型规模的不断增长，人们发现通过训练更大的模型可以获得更好的性能。然而，这种规模增长是建立在训练数据固定的基础上的。在phi-3-mini之前，微软的研究人员已经通过基于大模型过滤和合成数据训练的小模型，取得了与大模型相媲美的效果。phi-3-mini的问世进一步证实了这一观点，它仅拥有3.8B参数，但其性能却可以与大型模型相媲美。

技术规格

phi-3-mini模型采用transformer解码器架构，并具备默认上下文长度为4K的特点。此外，通过LongRope技术，推出了长上下文版本phi-3-mini-128K，其上下文长度可扩展至128K。该模型采用与Llama-2类似的模块结构，并使用了相同的tokenizer，词汇量为320641。在模型参数方面，phi-3-mini具有3072隐藏维度，32个头和32层，并使用bfloat16格式训练了3.3T tokens。值得注意的是，phi-3-mini已经经过聊天微调，聊天模板为"/n Question <|end|>/n"。

phi-3-small是一个7B参数模型，采用标准的7B模型解码器结构，具备32层和4096隐藏层维度。为了减少KV cache占用，该模型使用了grouped-query attention，其中4个query共享1个key。此外，phi-3-small还采用了密集注意力层和块稀疏注意力层的交替使用，以进一步优化KV cache占用，同时保持长上下文检索性能。在训练数据方面，phi-3-small额外使用了10%的多语言数据，并采用了tiktoken tokenizer，词汇量为100352。

phi-3-medium是一个14B参数模型，与phi-3-mini使用相同的tokenizer和架构。在训练数据上，phi-3-medium在相同的训练数据上训练了更多的epoch(4.8T tokens)。在模型参数方面，phi-3-medium具有40个头和40层，嵌入维度为5120。然而，一些基准测试从7B到14B的提升不如从3.8B到7B的提升明显，可能需要进一步优化训练数据组合，以适应14B参数模型。