发布时间:2025-05-09 点此:551次
文|王沁 王奕昕
修改|李然
又是藤校生停学创业,开辟技能新路线,应战干流的故事。
两个从哈佛退学的00后本科生,开发了一款新的AI芯片,筹集了高达1.2亿美元。
图源:X(
两位停学生创建的公司名为Etched AI,开发的这款芯片名为「Sohu」(但不是“搜狐”),是专为Transoformer架构大模型研制的ASIC芯片。比较于占有AI芯片独占方位的、本来作为图形处理器的英伟达GPU,Sohu芯片只运转Transformer架构的模型,但运转速度比GPU快一个数量级。
图源:X(
当地时刻6月25日,Etched宣告完结 1.2 亿美元的 A 轮融资,由前期出资组织Primary Venture Partners 和 Positive Sum Ventures 一同领投。重量级天使出资人包含危险出资家 Peter Thiel、GitHub 首席履行官 Thomas Dohmke、自动驾驶公司 Cruise 的联合开创人 Kyle Vogt, 以及Quora的联合开创人Charlie Cheever。现在公司没有泄漏新一轮融资后的估值。现已有前期客户,向Etched AI预订了数千万美元的硬件订单。
Etched AI 坐落加利福尼亚,是一家“两人公司”,两位开创人都是2020年进入哈佛,在校时张狂兼职打工,后来休学创业,其间一位是21岁华裔小哥Chris Zhu,一位是Gavin Uberti。
英伟达的AI芯片帝国,不乏应战者:芯片草创公司Cerebras Systems的大体积单个芯片,以及 Tenstorrent公司的RISC-V技能芯片。现在英伟达又多了一个更年青、更雄心壮志的对手——Etched AI。
众所周知,AI芯片的巨子英伟达采纳的GPU本来是图形处理器,拿手并行处理多个简略的核算,后用于练习AI模型,因为练习AI需求一同对一切数据样本履行相同的操作。
但练习AI大模型需求更专用的芯片。Etched首席履行官Uberti 在揭露采访中说,“人工智能的开展现已到了这样一个阶段,功用优于通用 GPU 的专用芯片是不可避免的——全世界的技能决策者都知道这一点。”
「Sohu」芯片是一种 ASIC(专用集成电路),一种为特定运用量身定制的芯片。Sohu只运转Transformer架构的模型。Transformer 是由谷歌研究人员团队于 2017 年提出的,已成为占主导方位的生成式 AI 模型算法。
Etched 称Sohu芯片选用台积电 4 纳米制程制作,可以供给比 GPU 更好的推理功用,一同耗费更少的动力。
Etched声称,与H100比较,一台集成了8块Sohu芯片的服务器,能对抗160块H100芯片,这意味着Sohu芯片的速度比H100快20倍。与英伟达下一代 Blackwell (B200) GPU比较,Sohu芯片快 10 倍以上,并且更廉价。
针对Llama 70B 开源大模型,一台Sohu芯片每秒运转超越 50万个token,比 H100 芯片(2.3万token/秒)多 20 倍,比 B200 芯片(约 4.5万token/秒)多 10 倍。
针对 Llama 3 70B 的 FP8 精度基准测验显现:无稀少性、8 倍模型并行、2048 输入或 128 输出长度。
Sohu的推理速度是怎么做到这么快的?
接连批处理提示和补全:每个序列包含四个输入符号和四个输出符号;每种色彩代表一个不同的、独立的序列。图源:Etched官网
Sohu芯片选用了一种名为"接连批处理"(Continuous batching of prompts and completions)的立异技能。这种办法奇妙地将多个输入和输出序列组合在一同处理,充分利用了芯片的核算资源。
幻想一下,就像是在一个大厨房里,多个厨师一同运用相同的食材(模型权重)烹饪不同的菜肴(处理不同的输入序列)。
这种技能的优势在处理长输入短输出的场景中尤为显着,这刚好契合大多数AI运用的运用形式。经过这种办法,Sohu芯片可以在处理Llama-3-70B等大型模型时到达惊人的功率,远超传统GPU的体现。
简略来说,Sohu芯片就像是一个超级高效的并行处理器,可以一同处理许多的AI使命,而不会被内存读取速度拖后腿。这一突破性的技能有望大大进步AI运用的响应速度和处理才干,为用户带来更流通、更智能的体会。
此外,Sohu还能做到简化推理所用的硬件和软件。因为Sohu不运转非Transformer模型,Etched 团队可以去掉与Transformer无关的硬件,并减少传统上用于布置和运转非Transformer的软件开支。
比较之下,英伟达的GPU中,并不是一切晶体管都用于大模型的张量核算。例如,H100 有 800 亿个晶体管,但只要27 亿个专用于张量中心的晶体管,这意味着 H100 GPU 上只要 3.3% 的晶体管用于大模型的矩阵乘法。
Sohu芯片经过仅运转变压器,在芯片上装置更多的 FLOPS,而无需诉诸较低的精度或稀少性。
图源:X(
GPU 并没有在单芯功用上变得更好,仅仅变得更大了。在曩昔四年中,核算密度 (TFLOPS/mm^2) 仅进步了约 15%。
新一代GPU都是靠堆叠多张卡来进步算力——将两个芯片算作一张卡,以“翻倍”其功用。NVIDIA B200、AMD MI300X、Intel Gaudi 3、AWS Trainium2等都是如此。
跟着摩尔定律(CPU的集成电路上可包容的晶体管数目,约每隔两年便会增加一倍)放缓,进步芯片功用的仅有办法是采纳专业化的芯片,而非通用芯片。
图源:Etched官网
GPU触达天花板:英伟达、AMD、英特尔、亚马逊等公司都经过将两块芯片合为一体来成倍增强功用。2022年至2025年间,AI芯片技能并没有“变好”,而仅仅“变大”。这期间一切的芯片功用进步都是经过“变大”完成的,除了Etched。
Etched声称,现在AI 模型的练习本钱超越 10 亿美元,将用于 100 亿美元以上的推理。关于这么大的需求,用 5000 万至 1 亿美元的定制芯片来交换1%的功用改善,是合理的。
假如 AI 模型一夜之间速度进步 20 倍、本钱下降 20 倍,会产生什么?
当下,Gemini 要花超越 60 秒的时刻来答复有关视频的问题,用AI运转代码,需求数小时才干完结使命,本钱比雇佣人类码农更高。视频生成模型,一秒钟才干生成一帧画面。当 ChatGPT 注册用户到达 1000 万(这还仅仅全球用户的 0.15%)时,乃至 OpenAI 也呈现GPU算力荒。
即便以多卡互联的办法堆叠显卡,以每两年 2.5 倍的速度不断制作更大的 GPU,也需求十年的时刻才干完成即时的视频生成。
而当Sohu芯片能让大模型的推理速度进步20倍,视频模型生成画面能更即时、敏捷,
音讯一出,网友们大多表明欢迎,以为这家公司的呈现将加快AI立异:
这些推理 GPU 基准测验中的数字很低。下面是我的8xB200推理模型的理论值,适用于 NVLink,8位和70B Llama模型,后者更挨近300k token/秒。这意味着完美的完成(挨近OpenAl/Anthropic所具有的)。图源:X(@Tim_Dettmers)
这使得运用LLM的高档推理用例愈加可行。他们网站上有许多比如。这将加快立异,AI将为更好的AI的开展做出更大的奉献。未来正以极快的速度到来。图源:X(@leonovco)
Sohu用户"直接烧进硅里" vs "GPU白痴"诉苦在不丢失通用核算才干的情况下,无法在Transformer模型上到达40%以上的利用率。此图暗示了SoHu芯片在AI特定使命上的优势,以及传统GPU在处理新式AI模型时或许面对的功率瓶颈。图源:X(@qamcintyre)
Gavin Uberti和Chris Zhu休学创业,是在2022年10月,那时离Chat-GPT面世还有一个月,Transformer还远没有成为干流方位的架构——图画和视频生成模型运用的是U-Net,自动驾驶汽车模型运用CNN。但在那时,两位创业者现已把悉数赌注下在Transformer专用芯片上。
“咱们在人工智能范畴下了最大的赌注,”Etched联合开创人Gavin Uberti在一次揭露采访中表明, “假如Transformer消失了,咱们就会死。但假如Transformer能坚持下去,咱们便是有史以来最大的公司。”
“后来当 ChatGPT 推出时,英伟达股票卖爆了,特别是当其他发布的一切模型也都是Transformer架构时,咱们发现自己在正确的时刻处于正确的方位。”Gavin说。
“咱们对自己正在做的作业感到如此振奋,为什么咱们停学,咱们说服了这么多人脱离这些芯片项目——这是咱们要做的最重要的作业。”后来参与Etched的联合开创人Robert Wachen说。
让咱们看看几位如此年青的创业者的布景是怎样的:
Gavin Uberti 是Etched的联合开创人兼首席履行官,创业前就读于哈佛大学,攻读数学学士和核算机科学硕士学位。
图源:semi
Gavin本来方案脱离哈佛休学一年,但终究在 OctoML 找到了一份从事 ApacheTVM (深度学习编译器结构)开源编译器和matmul内核的作业。
在为 Arm Cortex M4 和 Cortex M7 内核开发微内核时,Gavin 注意到 Arm 的指令集没有 8 位 MAC SIMD 指令,只要 16 位(M4 和 M7 支撑许多其他 8 位 SIMD 操作,但 Helium 引入了 8 位 MAC SIMD 指令)。这意味着 8 位 MAC SIMD 操作实际上仅以一半的速度运转。这可以说是Gavin兴办Etched的一个关键因素。
“这个问题永久无法处理,每次上班,我都有必要处理这个忽略,这让我和 Chris 一同考虑,咱们有必要可以做得更好,”Gavin说。
他和Zhu决议兴办一家芯片公司,为 LLM 规划更高效的推理架构。尽管现在市场上还没有专门针对 LLM 的加快器,但 Nvidia 现已宣告了针对转换器的软件功用,其他加快器公司也宣告支撑言语和视觉转换器。Etched.ai 方案经过进一步专业化来与现有企业竞赛。
“你无法经过泛化取得咱们所取得的那种改善,”Gavin说。“你有必要在单一架构上下大赌注,不仅仅是人工智能,还要在更详细的东西上下赌注……咱们以为 Nvidia 终究会做到这一点。咱们以为这个时机太大了,不容忽视。”
图源:LinkedIn
在Etched,他正在为Transformer架构构建 ASIC(Application-Specific Integrated Circuit,专用集成电路,为特定用处而规划的定制化芯片,能在特定使命上完成最佳功用和功率),与通用 AI ASIC 比较,其吞吐量高出一个数量级。
图源:Bloomberg,采访视频链接:https://x.com/Etched/status/1805775989500428739
图源:X(@czhu1729)
Chris Zhu,Etched.ai 的联合开创人,现在正在开发下一代 LLM 加快器体系。
在创业前,他在校期间就不断参与科研,不断兼职实习。
他于2021年9月至2022年4月,在哈佛大学担任各类核算机科学课程的教育研究员,一同期还曾在亚马逊和 AvantStay 担任软件工程师实习,别离专心于后端物联网基础设施和 AWS 全球收入运营。
Chris的前期阅历还包含:在2021年2月至6月于哈佛本科本钱合伙公司担任实习分析师;2018年1月至2020年5月在麻省理工学院担任研究员;2019年6月至8月担任波士顿大学 PROMYS 的初级辅导员。
图源:X(@robertwachen)
Robert Wachen是Etched的联合开创人和COO,他有着非常丰富的创业阅历。
他的学术和创业阅历包含:哈佛大学咨询集团、哈佛肯尼迪学院行为洞悉小组代表、Prod联合开创人(2022年7月至今)、Mentor Labs联合开创人兼CEO(2022年1月至今)Generate Sales Online 开创人(2016年12月至今)、Birthday Cakes 4 Free Maryland 联合开创人兼总裁(2015年9月至今)、蒙哥马利县区域 SGA 财务主管以及蒙哥马利县公立学校“Early Edge”工作预备方案的学生代表。
英伟达现在是AI芯片的巨子。据TechCrunch估量,英伟达占有了人工智能芯片约 70% 至 95% 的市场份额。Etched AI的Transformer专用芯片是英伟达的一个年青竞赛者。
应战英伟达的年青竞赛对手还有许多。一个对手是Cerebras Systems公司,正在开发由整块晶圆做成的、单个体积最大的 AI 芯片,已累计融资7.2亿美元,背面有OpenAI的首席履行官Sam Altman出资。6月20日The Information称Cerebras现已隐秘请求上市。
另一个英伟达应战者是Tenstorrent,该公司正在运用一种名为 RISC-V 的盛行技能来开发AI 芯片。
英伟达鼎峙山头,新势力群雄环伺,两位00后哈佛停学生创建的Etched AI或许成为下一个英伟达应战者。