百亿美金问题：大模型创业PMF难寻，是Transformer的锅吗？

00:00

32:32

刚刚结束的极客公园年终大会上，美国工程院院士、智源研究院原理事长张宏江和谷歌DeepMind资深工程师卢一峰进行了一场对话。

谈及大模型幻觉问题的难解，张院士提出了一个被卢一峰称为“价值百亿美金（甚至更多）”的问题：Transformer是否当下唯一可靠的架构？大模型向未来发展的过程中，技术路径上还会不会有新的、根本上的变化？

在这场对谈发生前不久，卡内基梅隆大学（人称全球AI专业“天花板”）和普林斯顿大学的研究者发布了一种名为Mamba的新架构，解决Transformer核心注意力层无法扩展的致命bug，推理速度提升5倍。论文一出，国内媒体惊呼：难道Transformer架构垄断终于要被打破了？

无独有偶，半年多前，我们采访了一个正在研发非Transformer架构模型的国内团队，RWKV。团队坚持模型开源（RWKV已成为Linux基金会孵化项目，所有底层模型的知识产权将放在这家非营利机构），并成立了一家商业公司，做围绕该模型的微调量化及To C、To B商业化落地。

采访中，团队核心成员罗璇说，自己在与国内AI圈、投资圈朋友交流时，经常会争论几个“非共识”：Transformer是不是唯一选择？AIGC的未来就是云服务了吗？小公司能不能做大模型？

随着时间推移，罗璇曾经的某些“非共识”观点似乎正在成为共识。在大模型底层架构创新上，除了上文提到的Mamba，微软和清华团队也在7月推出了RetNet架构；端上大模型更是近期的话题高地。RWKV自身，则累积了近万的全球开发者，与高通、MKT、英伟达等大厂展开合作（据悉，阿里达摩院近期在开发基于RWKV架构的语音识别模型）。

当然，RWKV要验证其可广泛应用性，还有更长的路要走。但正如我们节目名称想传达的，先见必然未明，生生不息的创新才是最为可贵。于是，我们特别邀请罗璇年终返场，聊聊他对大模型创业的新体会。

【本期嘉宾】

罗璇元始智能（RWKV）联创兼CPO | 前阿里机器人产品总监

【时间轴】

02:49 “所有基于Transformer的基础设施和应用都值得用RWKV重做一遍”？

04:13 全球顶尖团队都在探索大模型底层架构创新

05:27 Transformer有多贵、效率瓶颈有多大？谁用过谁知道

07:36 RWKV比Transformer，具体效率提升几何？

09:24 身后站着近万全球开发者的“小团队”，成为高通端侧模型合作方

10:58 曾经被质疑“一个中国小团队做的方向是不是靠谱？”现在全球前沿研究所都在关注

13:09 Transformer的专利在商业公司（谷歌）手上，对其生态上的模型和应用公司都是风险

15:21 AI世界需要一个类似Linux的底座，开源生态上要长出繁荣的商业化

16:55 为什么国内鲜有公开讨论“Transformer架构是否足够好”？

19:35 端侧大模型离实际应用还有多远？

23:14 国内的AI发展其实就卡在“Transformer+GPU”上

24:58 Transformer天花板临近？PMF难寻

26:38 过去半年，看着自己的非共识逐渐变成共识

27:53 AI世界里数据既业务，应用类创业公司要自建数据飞轮

【很高兴认识你】

先见，必然未明。创新路上，我们一同求索。

当人们说“某人真有先见之明”时，它本身就已经是“后见之明”。任何创新，无论技术还是商业，都必须经过验证。验证的过程，往往是漫长、混乱、挣扎，充满失败的——甚至，验证的结果也可能是被证伪。

幸运的是，自人类在地球上扎根至今，创意不息，创新不止。这档播客希望发掘和记录生生不息的创新，探索创新背后的真价值，不人云亦云，不后见之明。

赛博认好友请搜微信ziyuanao。

以上内容来自专辑

主播信息

先见未明

先见，必然未明。创新路上，我们一同求索。 - 当人们说“某人真有先见之明”时，它本身就已经是“后见之明”。任何创新，无论技术还是商业，都必须经过验证。验证的过程，往往是漫长、混乱、挣扎，充满失败的——甚至，验证的结果也可能是被证伪。幸运的是，自人类在地球上扎根至今，创意不息，创新不止。先见未明希望与你一起，发掘和记录生生不息的科技创新，探索创新背后的真价值，不人云亦云，不后见之明。

3566

加关注

不知名热心王友财
一集下来，觉得大厂跟进，非共识变共识的观点提得好。
今天火锅粉吃多了
独立思考的观点提醒了行业陷阱，值得深思
徒念山边月
小米端侧优化棒，期待更流畅的智慧体验。
fy_王子
价格一路飙升，新架构澎湃希望，芯片界的春天还会来吗？
六椰子小羊
开源社区撰写论文的模式太新颖了，增加了互动和透明度，给代码带来了实实在在的保障。

百亿美金问题：大模型创业PMF难寻，是Transformer的锅吗？

先见未明

先见未明

警惕全球收割百亿美金的三M模型【创业密码】

警惕全球收割百亿美金的三M模型【白手起家创业】

【白手起家创业】警惕全球收割百亿美金的三M模型

万能商业模型：警惕全球收割百亿美金的三M模型

警惕全球收割百亿美金的【三M模型】