×

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

admin admin 发表于2024-05-05 07:52:53 浏览12 评论0

抢沙发发表评论

  鱼羊克雷西发自凹非寺

  量子位公众号 QbitAI

  马斯克说到做到:

  旗下大模型Grok 现已开源

  代码和模型权重已上线 GitHub。官方信息显示,此次开源的 Grok-1 是一个3140 亿参数的混合专家模型——

  就是说,这是当前开源模型中参数量最大的一个。

  消息一出,Grok-1 的 GitHub 仓库已揽获 4.5k 标星,并且还在库库猛涨。

  表情包们,第一时间被吃瓜群众们热传了起来。

  而 ChatGPT 本 Chat,也现身 Grok 评论区,开始了和马斯克新一天的斗嘴……

  那么,话不多说,来看看马斯克这波为怼 OpenAI,究竟拿出了什么真东西。

  Grok-1 说开源就开源

  此次开源,xAI 发布了 Grok-1 的基本模型权重和网络架构。

  具体来说是 2023 年 10 月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。

  结构上,Grok-1 采用了混合专家(MoE)架构,包含 8 个专家,总参数量为 314B(3140 亿),处理 Token 时,其中的两个专家会被激活,激活参数量为 86B。

  单看这激活的参数量,就已经超过了密集模型 Llama 2 的 70B,对于 MoE 架构来说,这样的参数量称之为庞然大物也毫不为过。

  不过,在 GitHub 页面中,官方也提示,由于模型规模较大(314B 参数),需要有足够 GPU 和内存的机器才能运行 Grok。

这里 MoE 层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。

  模型的权重文件则是以磁力链接的形式提供,文件大小接近 300GB。

  而且这个“足够的 GPU”,要求不是一般的高——YC 上有网友推测,如果是 8bit 量化的话,可能需要 8 块 H100。

  除了参数量前所未有,在工程架构上,Grok 也是另辟蹊径——

  没有采用常见的 Python、PyTorch 或 Tensorflow,而是选用了 Rust 编程语言以及深度学习框架新秀 JAX。

  而在官方通告之外,还有许多大佬通过扒代码等方式揭露了 Grok 的更多技术细节。

  比如来自斯坦福大学的 Andrew Kean Gao,就针对 Grok 的技术细节进行了详细解释。

  首先,Grok 采用了使用旋转的 embedding 方式,而不是固定位置 embedding,旋转位置的 embedding 大小为 6144,与输入 embedding 相同。

  当然,还有更多的参数信息:

窗口长度为 8192tokens,精度为 bf16 Tokenizer vocab 大小为 131072(2^17),与 GPT-4 接近; embedding 大小为 6144(48×128); Transformer 层数为 64,每层都有一个解码器层,包含多头注意力块和密集块; key value 大小为 128; 多头注意力块中,有 48 个头用于查询,8 个用于 KV,KV 大小为 128; 密集块(密集前馈块)扩展因子为8,隐藏层大小为 32768。

  除了 Gao,还有英伟达 AI 科学家 Ethan He(何宜晖)指出,在专家系统的处理方面,Grok 也与另一知名开源 MoE 模型 Mixtral 不同——

  Grok 对全部的 8 个专家都应用了 softmax 函数,然后从中选择 top2 专家,而 Mixtral 则是先选定专家再应用 softmax 函数。

  而至于有没有更多细节,可能要看官方会不会发布进一步的消息了。

  另外,值得一提的是,Grok-1 采用的是 Apache 2.0 license,也就是说,商用友好

  为怼 OpenAI 怒而 Open

  大家伙知道,马斯克因为 OpenAI 不 Open,已经向旧金山高等法院提起诉讼,正式把 OpenAI 给告了。

  不过当时马斯克自己搞的 Grok 也并没有开源,还只面向的付费用户开放,难免被质疑双标。

  大概是为了堵上这个 bug,马斯克在上周宣布:

本周,xAI 将开源 Grok。

  虽然时间点上似乎又是马斯克一贯的迟到风格,但 xAI 的这波 Open 如今看来确实不是口嗨,还是给了网友们一些小小的震撼。

  有 xAI 新晋员工感慨说:

这将是激动人心的一年,快系好安全带吧。

  有人已经期待起 Grok 作为一个开源模型,进一步搅动大模型竞争的这一池水。

  不过,也并不是每个人都买马斯克的账:

  不过说归说,多线并进的马斯克,最近大事不止开源 Grok 这一件。

  作为多公司、多业务的时间管理大师,马斯克旗下,特斯拉刚刚全线推出了端到端纯视觉的自动驾驶系统 FSD V12,所有北美车主用户,都 OTA 更新升级,可以实现所有道路场景的任意点到点 AI 驾驶。

  SpaceX 则完成了第三次星舰发射,虽然最后功败垂成,但又史无前例地迈进了一大步。

  推特则开源了推荐算法,然后迎来了一波自然流量新高峰。

  别人都是 you can you up, no can no bb…马斯克不一样,bb up 不选择,边喊边干,还都干成了。

  参考链接:

  [1]https://github.com/xai-org/grok-1

  [2]https://x.ai/blog/grok-os

群贤毕至

访客