10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清围观

　　丰色发自凹非寺

　　量子位公众号 QbitAI

　　“只需”10 万美元，训练 Llama-2 级别的大模型。

　　尺寸更小但性能不减的 MoE 模型来了：

　　它叫 JetMoE，来自 MIT、普林斯顿等研究机构。

　　性能妥妥超过同等规模的 Llama-2。

　　△贾扬清转发

　　要知道，后者可是数十亿美元级别的投入成本。

　　JetMoE 发布即完全开源，且学术界友好：仅使用公开数据集和开源代码，用消费级 GPU 就能进行微调。

　　不得说，大模型的打造成本，真的比人们想的要便宜更多了。

　　Ps. Stable Diffusion 前老板 Emad 也点了赞：

　　10 万美刀实现 Llama-2 性能

　　JetMoE 启发于 ModuleFormer 的稀疏激活架构。

　　（ModuleFormer，一种基于稀疏专家混合(SMoE)的模块化架构，可提高大模型效率和灵活性，去年 6 月提出）

　　它的注意力层中仍然使用了 MoE：

　　80 亿参数的 JetMoE 一共有 24 个区块，每块包含 2 个 MoE 层，分别是注意力头混合(MoA)和 MLP 专家混合(MoE）。

　　每个 MoA 和 MoE 层又有 8 个专家，每次输入 token 激活 2 个。

　　JetMoE-8B 使用公开数据集中的 1. 25T token 进行训练，学习率 5.0 x 10-4，全局 batch size 为 4M token。

　　具体训练方案遵循 MiniCPM（来自面壁智能，2B 模型就能赶超 Mistral-7B）的思路，共包含两阶段：

　　第一阶段使用线性预热的恒定学习率，用来自大规模开源预训练数据集的 1 万亿个 token 进行训练，这些数据集包括 RefinedWeb、Pile、Github data 等等。

　　第二阶段则使用指数学习率衰减，用 2500 亿个 token 训练来自第一阶段数据集和超高质量开源数据集的 token。

　　最终，团队使用 96×H100 的 GPU 集群，花费 2 周时间、约 8 万美元搞定 JetMoE-8B。

　　更多技术细节将在不久后发布的技术报告上揭露。

　　而在推理过程中，由于 JetMoE-8B 仅具有 22 亿个激活参数，因此计算成本大大降低——

　　同时，它还收获了不错的性能表现。

　　如下图所示：

　　JetMoE-8B 在 8 个评测基准上获得了 5 个 sota（包括大模型竞技场 Open LLM Leaderboard），超过 LLaMA-13B、LLaMA2-7B 和 DeepseekMoE-16B。

　　在 MT-Bench 基准上得分 6.681，也超过了 130 亿参数的 LLaMA2、Vicuna 等模型。

　　作者介绍

　　JetMoE 一共 4 位作者，分别是：

Yikang Shen

　　MIT-IBM Watson Lab 研究员，研究方向 NLP。

　　本硕毕业于北航，博士经历于 Yoshua Bengio 创办的 Mila 研究机构。

国振(Gavin Guo)

　　MIT 博士在读，研究方向为 3D 成像的数据高效机器学习。

　　UC 伯克利本科毕业，去年夏天作为学生研究员加入 MIT-IBM Watson Lab，导师为 Yikang Shen 等人。

蔡天乐

　　普林斯顿博士在读生，本科毕业于北大应用数学和计算机科学，目前也是 Together.ai 的兼职研究员，与 Tri Dao 合作。

Zengyi Qin

　　MIT 博士在读，同时在创业，MyShell的 AI 研发主管。

　　这家公司刚刚融资了 1100 万美元，投资者包括 Transformer 的作者。

　　传送门：

　　https://github.com/myshell-ai/JetMoE

　　参考链接：

　　https://twitter.com/jiayq/status/1775935845205463292

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

fstyjf游戏频道

Nice to meet you, too!

10万美元训出Llama-2级大模型！全华人打造新型MoE，贾扬清围观

admin 发表于2024-05-02 03:27:50 浏览13 评论0

少长咸集

群贤毕至