E145|对话Meta田渊栋：被Transformer改变的世界与人类AGI的野心

00:00

54:10

2017年，谷歌一篇划时代的论文《Attention is all you need》掀开这一轮人工智能的开幕式，这篇论文就是大名鼎鼎的Transformer。7年过去了，我们看到在这篇论文的基础上加入算力、算法开启了AI时代的第三次科技浪潮。

今天我们的嘉宾是来自Meta Fair的研究员田渊栋博士，他最近也发表了两片论文都在都与端侧小模型相关，一片论文是《 MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases》中开始卷 10 亿以下参数小模型，主打在移动设备上运行 LLM；另一片论文是《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》，由于离应用更近在解决更实际的问题，他的论文被业界很多人问到，而过去五年，他所有的研究都在回答一个问题：神经网络是如何工作的？

今天我们就一起来解读田渊栋最近的两篇论文，也一起聊聊最近大火的Sora、Transformer与AGI。

【老罗直播预告】

北京时间3月31号晚上七点，罗永浩会在直播间卖云产品。之前老罗也带火过很多概念，这次我们来看一看，老罗能不能引领一场企业级IT认知的运动，把云计算这个概念推向大众。他这次的选品涵盖阿里云众多的热门产品，价格也给出了史无前例的优惠，大家感兴趣去淘宝app搜索「罗永浩」，让我们一起围观连续创业者罗永浩卖云产品，以及他如何解决创业者的核心痛点的

【主播】

泓君，硅谷101创始人，播客主理人

【嘉宾】

田渊栋，Meta人工智能研究院（FAIR）研究员及高级经理

田渊栋博士，Meta AI人工智能研究院(FAIR)研究员及高级经理，2018年围棋开源项目（ELF OpenGo）研究及工程负责人和第一作者。曾获2021年国际机器学习大会（ICML）杰出论文奖提名（Outstanding Paper Honorable Mentions)及2013年国际计算机视觉大会（ICCV）马尔奖提名（Marr Prize Honorable Mentions）。研究方向为深度强化学习，表示学习和优化，历任机器学习国际会议ICML，NeurIPS，AAAI, AIStats领域主席。2013-2014年在Google无人驾驶团队任软件工程师。

【你将听到】

00:05 3月31号晚七点罗永浩直播间卖云

01:34 正片

【“斜杠”研究者】

02:55 从自动驾驶、围棋开源项目到神经网络研究

05:52 写科幻小说：不靠谱的想法放进小说，靠谱的想法用来做科研

07:24 理解神经网络如何工作or 研究大模型，2019年为何拒绝Ilya Sutskever加入OpenAI的邀请

08:44 最新两篇论文的诞生：曾被两次拒稿，三四年后才看到结果

【GaLore和MobileLLM】

11:04 GaLore的主要特点：实现在英伟达RTX 4090上进行模型的从头训练

12:56 算法上改进让4090重获新生，省内存的同时获得高性能

16:56 MobileLLM：降低神经网络参数仍然保持好的效果

【实现AGI的路径】

17:40 Scaling Law带来的增长会越来越小，我们并没有完全理解为什么Transfomer的效果更好

19:17 完全无人驾驶难点：人工干预的频率越低，有效训练数据就越少

23:41 Transfomer很难做游戏式的推理：通过理解神经网络的工作原理来改进现有算法

【深度理解Transformer】

24:52 谷歌内部发现算力价格比通信便宜，所以想到要设计一个模型让算力获得更大优势

26:21 Transformer vs CNN：没有预设立场，并行效果更好

26:44 Transformer的缺点：需要大量算力、速度较慢、延迟高

28:01 强化学习的根本性问题：Exploration（探索）和Exploitation（开采）

【Sora、合成数据与Anthropic】

30:03 Sora的最让人惊艳的地方是所生成的内容一致性非常好，在技术上有根本的创新

33:07 世界模型并不“高大上”，对未来有看法和预测都可以成为称为“世界模型”

40:46 用合成数据训练大模型是趋势，其与真实数据之间的边界会越来越模糊

43:00 合成数据相当于用算力来换数据，但缺乏人类参与的数据会导致学习瓶颈

44:30 Anthropic的长文理解和分析能力远强过GPT-4，但推理能力难以分高下

46:30 大模型缺乏竞争的话，也会出现“偷懒”的问题

48:06 一家独大 or 威慑平衡，Meta开源打破的行业格局

48:18 大模型侵蚀Google的核心业务，训练和推理很难发论文

50:20 从玄幻小说到科幻小说：记录人与人之间的关系和思维的火花

【后期】

AMEI

【BGM】

Interruption - Craft Case

Stillness Within - Roots and Recognition

【在这里找到我们】

公众号：硅谷101

收听渠道：苹果｜小宇宙｜喜马拉雅｜蜻蜓FM｜网易云音乐｜QQ音乐｜荔枝播客

海外用户：Apple Podcast｜Spotify｜TuneIn｜Youtube｜Amazon Music

联系我们：podcast@sv101.net

以上内容来自专辑

主播信息

泓君Jane

跨越中美的十年杂志媒体人，坐标旧金山的播客制作人，资深互联网科技行业观察者

5.77万

加关注

BabyApe
要努力形成在生活工作中使用AI的习惯
笨蛋小狗汪汪
老罗又开始新尝试了，云计算看来是企业转型的新出路
道器L
泓君真是慧眼独具啊，田渊栋、范麟熙很有希望成为下一代的李飞飞和吴恩达～
听友455434947
梯度low rank有点道理噢
杠杠开始
101女主是要改风格了吗找了个解释提督的男嘉来
BabyApe
发展速度迅速，要快速同步并思考
南啵儿
刚发现这个节目，非常好～～
听友317361108
gamer之神4090 居然是“性价比卡” 果然2b2c两个世界
_啸春_
sora怎么还没开放~
哎呀健康
大势所趋了

E145|对话Meta田渊栋：被Transformer改变的世界与人类AGI的野心

硅谷101 | 最前沿的科技趋势

泓君Jane

拥有改变世界的野心

傅国涌：与世界对话，与美对话

929宇宙与人【对话外星人】

ChatGPT有身体了！Figure 01机器人与人类全面对话

012 与人对话，必须谨慎