0

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

2024.05.04 | admin | 5次围观

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

  近日,英伟达在 2024 GTC 大会上发布了多款芯片、软件产品,引得国内媒体一通儿追捧,什么“核弹”、“炸裂”,总之一个比一个惊悚。同样的追捧也出现在了对于 OpenAI 的身上,尤其是其 Sora 问世之时更是如此。孰不知,在我们追赶的过程中,极有可能陷入后发劣势的陷阱。

  AI 的“Wintel 效应”显现:英伟达给的,OpenAI 们就会拿走

  “安迪给的,比尔就会拿走(What Andy giveth, Bill taketh away)”。这句源于 1990 年代在计算机会议上的一句小笑话形象地诠释了“Wintel 效应”,即指新软件总将耗尽新硬件所提高的任何计算能力。正是借此,直到今天,Wintel 不仅依然牢牢控制着 PC 产业,且双方依然是全球科技产业中不可或缺的角色。

  那么进入现在的 AI,尤其是炙手可热的生成式 AI 时代,又当如何呢?

  众所周知,生成式 AI 模型的训练是一个计算极为密集的过程。这些模型包含数百万乃至数十亿个参数,需要在庞大的数据集上进行多轮迭代训练。在训练过程中,涉及大量矩阵运算和梯度计算等计算密集型操作。因此,为确保训练过程的顺利进行,必须依赖强大的计算资源来加速。

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

  不同模型训练一轮所需算力资料来源:《language Models are Few-Shot Learners》,中国银河证券研究院

  以最近大火的 Sora 为例,据银河证券研究院基于大语言模型推导算力需求方法,对 Sora 单次训练算力需求进行推演后推测,Sora 参数规模估算在 30B(待确认),如果按此参数测算,推演出 Sora 训练单次算力需求或可达到 8.4×10^23Flops,相当于 GPT-3 175B 的 2.7 倍。而且该研究院认为,目前 Sora 还在初级阶段,仍然存在如能以准确模拟物理运动规律及场景、混淆左右方向、混淆空间细节等,而伴随 Sora 不断迭代调优,训练数据集规模增大,未来算力需求将呈现指数级爆发式增长。

  国泰君安则认为,Sora 大模型延续了此前 GPT 模型“源数据-Transformer-Diffusion-涌现”的技术路径,这意味着其发展成熟同样需要“海量数据+大规模参数+大算力”作为基座,且由于视频训练所需数据量远大于文本训练的数据量,预计 Sora 大模型将进一步拉大算力缺口。

  问题来了,如此大的算力需求或者说缺口,谁来补?无疑业内首先想到的就是英伟达。

  说到英伟达,就不得不提及刚刚结束的,备受业内关注的英伟达 2024 GTC 大会。虽然相关的报道很多,但我们还是要借此看下英伟达在满足 AI 算力需求的技术和商业逻辑是什么。

  作为 GTC 大会的核心,英伟达发布了新一代计算架构 Blackwell,以及采用 Blackwell 架构的 GPUB200 及 GB200,在 FP4 精度下,Blackwell 架构的 AI 计算性能达到前代 Hopper 架构的 5 倍。Blackwell 系列 GPU 采用台积电 4NP 工艺,集成了 2080 亿颗晶体管,且升级了 Transformer 引擎、NVLink 等以提升算力。相对上一代 Hopper 架构,Blackwell 架构的集群化计算降低了能源消耗及所需的 GPU 数量,有望降低计算成本。

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

  例如在标准的 1750 亿参数 GPT-3 基准测试中,GB200 的性能是 H100 的 7 倍,提供的训练算力是 H100 的 4 倍。过去,在 90 天内训练一个 1.8 万亿参数的 MoE 架构 GPT 模型,需要 8000 个 Hopper 架构 GPU,15 兆瓦功率;如今,在 Blackwell 架构下进行训练,同样 90 天时间的情况下只需要 2000 个 GPU,以及1/4 的能源消耗,是不是很摩尔定律。

  这里请注意,英伟达算力创新和发展的逻辑是降本增效,而这个并非是指芯片成本本身,而是 AI 训练和推理的整体 TCO(其实英伟达 CEO 黄仁勋在接受媒体采访时提到了),而给外界的感觉越来越贵,是因为被 Open AI 不断更迭的大模型们“吃掉”了。

  需要说明的是,在演讲中,老黄还特别提到 2016 年赠送 OpenAI 的 DGX-1,那也是史上第一次 8 块 GPU 连在一起组成一个超级计算机,当时只有 0.17PFlops。从此之后便开启了训练最大模型所需算力每 6 个月翻一倍的增长之路,并一直延续到今天,甚至有过之而无不及。

  到这里,看出点儿门道没?至少在我们看来,也许早在 8 年前,不管是有意还是无意,英伟达和 OpenAI 就已达成了类似“Wintel 效应”式的默契。而我们到今天才看到这种效应浮出水面(因为英伟达和 OpenAI 彼此间的技术更迭速度太快、步子太大),由此看来,以后“吃掉”芯片算力的就是大模型了,而根据 MIT 的相关研究,大模型以后根本“吃不饱”,这意味着算力还需增加,而英伟达与 OpenAI 的“Wintel 效应”将继续正循环下去。

  追赶 GPT 国内掀百模大战,知其然不知所以然

  也许正是由于英伟达和 OpenAI 跑得太快,中国的 AI,尤其是生成式 AI 掀起了“比学赶帮超”的热潮,这点在大模型方面体现得尤为充分。

  自 OpenAI 的 GPT 问世,全球没有哪一个国家像我们,在极短的时间内出现了各行各业都推自己类 GPT 大模型、中模型、小模型以及各种所谓的行业模型,甚至有媒体用“百模大战”形容当下国内大模型数量之多,竞争之惨烈。

  实际的情况是,人工智能大模型研发的关键因素之一是算法,而算法的进步又依赖于持之以恒的前沿研究投入。在当下国内企业快节奏的竞争和盈利压力下,企业难以做到不计短期回报的投入。因而,在这些高风险的创新技术领域,国内企业更倾向于采取复制和追随策略,国内大模型大多基于国外公开论文和开源模型的基础上进行模仿和复制,结果总是“慢人一步”,最典型的表现就是 Sora 的出现,让我们又是一惊。

  除了“慢人一步”,我们认为最为致命的是,上述基于国外公开论文和开源模型的基础上进行模仿和复制造成的后果是我们国内企业对于大模型会陷入知其然不知所以然的尴尬。

  例如近日,南加州大学的研究团队通过一种攻击方法,成功破解了 OpenAI 最新版 ChatGPT 模型(gpt-3.5-turbo)的参数规模,结果发现其参数规模可能只有 70 亿,而非此前外界猜测和传闻的数百亿甚至上千亿。

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

  那么随之而来的是,最初的 200 亿参数数据是否来自误传?还是 OpenAI 之后又对模型进行了压缩?亦或是 OpenAI 一直在刻意隐藏 ChatGPT 的真实参数规模?无论真相如何,都表明 OpenAI 在模型优化或者算法方面拥有着强大的技术实力,它才是 GPT 的核心。

  反观国内的大模型,以现在排名靠前,用户最大的百度前文心一言为例,据新浪科技的报道,近日,多位文心一言 4.0 付费用户表示,“买了文心一言 4.0 会员,问了几组问题后发现质量不达预期,跟免费的版本没有太多区别,想要退费又联系不上客服,觉得有点亏。”在黑猫投诉“投诉入口”平台上,目前文心一言也是国内唯一一款收到多位用户投诉的对话式 AI 产品。而新浪科技实测发现,目前这些版本功能相对单一,除了满足基本的尝鲜要求外,确实难以与其他相似的免费工具拉开差距,甚至于在交互体验和内容即时性上,也开始落后于国内同行。

  又如创新工场董事长兼 CEO 李开复创办的 AI 大模型创业公司“零一万物”去年 11 月推出的 Yi-34B 和 Yi-6B 两个开源大模型“抄袭 LLaMA”事件,虽然其始终没有承认抄袭,但也承认做法不妥,承诺将修改争议张量名。

  号称国内领先和 AI 领军人物创办公司的大模型尚且如此,至于其他所谓大模型,相信人们都会有自己的判断。

  AI 算力芯片挑战英伟达,陷入纯算力 PK 误区

  如果上述是我们国内在生成式 AI“软”(大模型)方面与 GPT 的竞争是知其然不知所以然,那么在“硬”(AI 芯片)方面表现又如何呢?

  目前,具有国产 AI 加速芯片(等同于英伟达的 GPU)的企业包括阿里巴巴(含光系列)、百度(昆仑系列)、华为(昇腾系列)、寒武纪(思元系列)、海光信息(深算系列)、燧原科技、天数智芯、壁仞科技、摩尔线程等。此外,景嘉微、龙芯中科也在研发云端 AI 加速芯片。

  这里我们以媒体近期报道最多、最具代表性,同时也被认为最具挑战英伟达的华为昇腾和海光信息的深算为例来予以说明。

  先看华为昇腾系列,据相关媒体报道,经过测试,目前在大模型推理方面,国内 AI 芯片 910B 仅能达到 A100 的 60%-70% 左右,集群的模型训练难以为继;同时,910B 在算力功耗、发热等方面远高于英伟达 A100/H100 系列产品,且无法兼容 CUDA,很难完全满足长期智算中心的模型训练需求。对此,有大型国企客户评价,华为昇腾确实够用,但不好用。原因何在?

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

  其实不要说华为 910B,其在 2019 年 8 月发布的昇腾 910 在某些媒体曝光的纸面数据上,就与英伟达在 2020 年 5 月发布的 A100 性能相当,但是华为不具备深度学习框架生态掌控力,导致 Tensorflow/Pytorch 两大主流深度学习训练框架没有基于华为昇腾 910 做特定的优化,相反,PyTorch、TensorFlow 等主流的深度学习框架均提供了基于 CUDA 的英伟达 GPU 的运算支持,同时还有更高层、更抽象的调用方式,方便用户编程。所以算法结合上述两大训练框架在昇腾 910 上实际跑出来的性能其实不如英伟达 A100,而目前仅华为自研的深度学习框架 MindSpore 对昇腾 910 和昇腾 310 做了特别优化,但由于华为 MindSpore 大部分精力都是放在对昇腾芯片的算子支持和优化上,对英伟达 GPU 的支持还不够,只有同时使用华为的深度学习框架和昇腾芯片才能同时发挥出两者的最佳性能。

  而要想在深度学习训练框架要想打破 Tensorflow 和 Pytorch 的垄断必须要靠原始创新,但目前包括华为基于开源的 MindSpore 等在内的国产深度学习框架尚未很好解决上述两大训练框架的痛点。

  说到深度学习框架,回望 Caffe,其之所以能够在早期获得开发者欢迎是因为解决了深度学习框架从 0 到 1 的过程,Tensorflow 之所以可以取代 Caffe 是因为解决了其不够灵活、不能自动求导 、对非计算机视觉任务支持不好等问题,Pytorch 之所以明显抢夺 Tensorflow 的份额是因为 Pytorch 引入了动态图解决了 Tensorflow 是静态图设计调试困难的问题。

  相比之下,不仅是华为 MindSpore,目前国产的深度学习框架百度 Paddle Paddle、旷视 Megengine 等均还没有完美解决开发者在用 Tensorflow 和 Pytorch 所遇到的痛点。

  此外,将 AI 芯片作为训练和推理,构建集群的能力至关重要,而这又和互联技术密切相关。

  而提及互联技术,英伟达的 NVlink 通讯模组是目前市场上最先进的技术。尽管华为声称自己的卡间互联技术(模仿 NVlink 模式)也不错,但在进行 8 卡同时算力的训练模型训练时,与英伟达的技术相比仍存在差距。乐观地估计,要达到英伟达的技术水平,可能还需要两到三年的时间。不过,日前英伟达第五代 NVLink,可为每个 GPU 提供了 1.8TB/s双向吞吐量,确保多达 576 个 GPU 之间的无缝高速通信,适用于复杂大语言模型的发布,恐怕又会将华为甩开距离。

英伟达+OpenAI:“Wintel效应”显现,当心掉入后发劣势陷阱

  至于服务器与服务器之间的互联,目前大部分通用 AI 服务器之间的互联,英伟达推荐使用其 IB 交换机,因为这种交换模式在数据损失量方面表现最佳,技术成熟且经过 20 多年的市场验证,至今连模仿者都未能出现。

  需要补充说明的是,由于华为受到非市场因素的影响越来越大,即便未来性能与英伟达产品在实际使用中相近,但由于制造工序等问题,未来差距可能会扩大。有部分报道称,昇腾的成品率仅为 20% 左右。这无疑使得上述类似国企的用户们,在不好用的同时,还会抬高他们使用昇腾的成本。

  接下来,我们在看海光信息的深思 DCU。

  追根溯源,海光的 DCU 源自 AMD 的 MI100 芯片,这在其此前的招股说明书有描述。从源头可以看出,海光 DCU 是 AMD Mi100 的裁剪版,裁剪了 50% 的性能。最关键的痛点是,海光 DCU 从 Mi100 授权过来时,把 GPU 的互联接口(类似 NVlink)从 AMD 的 Infinity Fabric 缩减成了 xGMI 接口(显卡场景),导致最多只能两颗 GPU 直联。因此无法组成大规模阵列(Nvidia A100 可以 16GPU 集群,H100 256GPU 集群),基本上丧失了训练能力(浮点性能低和无法集群组网);至于推理能力,场景性价比很低,大概是 2022 年代主流专用推理芯片的 10%—15% 性能。

  另外,深思属于兼容“类 CUDA”生态,但由于 CUDA 的闭源特性和快速迭代,后来者很难通过指令翻译等方式完美兼容,即使部分兼容也会有较大的性能损失,导致在性价比上会持续落后英伟达。

  更不利的是,近日有消息称,英伟达可能禁止第三方硬件,也就是非英伟达的 GPU,通过使用模拟层运行 CUDA 软件,而之前英伟达只是在在线 EULA 用户协议中提出警告而已。虽然对此业内持有不同的看法,但不管最后是否会付诸于行动,都暴露出所谓兼容 CUDA 所蕴含的巨大和未知的风险。

  当然,随着深思的更新迭代,尤其是今年可能发布的深思三,希望上述短板可以有所改观。

  综上,我们认为,在生成式 AI 中“硬”的 AI 芯片方面,我们的真实实力远非某些媒体报道的那么乐观,而这又和我们相关企业缺乏原始创新、走模仿(技术)和兼容(生态)的路线密切相关。

  不可否认,在 AI,尤其是生成式 AI 方面,我们已经失去了先发优势,但更可怕的是,从目前的发展路径看,为了追赶英伟达和 OpenAI 这一新的“Wintel 效应”和借助被制裁而出现新的争夺国内 AI 芯片市场的所谓机会,我们有可能被人家带入后发劣势中,即借鉴和依赖往往无法标定泾渭分明的界限,在学习借鉴过程中形成“模式依赖”“路径依赖”“技术依赖”。只“借”不“鉴”、抑或是只借鉴不创新,知其然而不知其所以然,形成依赖性而不自知,甚至还沾沾自喜,进而使得我们在付出更大资源和社会成本、与人家科技创新和发展的逻辑是降本增效背道而驰的同时,导致差距会越来越大。

发表评论
标签列表