在过去两集节目中,关于OpenAI o1和AGI范式转移,我们先是推出了一集预言,之后推出了一集解析。在一个新范式来临的临界点上,我们希望听到更多来自业界不同视角的声音。哪怕这些声音是切片的、冲突的,我们都希望当做一种记忆和留存收集起来。
今天这期是王小川的返场。
王小川在创业开始就关注到强化学习并且很早开始公开谈论。他曾说,大模型代表快思考,它叫“学”;强化学习是慢思考,它叫“思”。“学”和“思”两个系统最终会走向融合。除了o1,王小川也聊了聊强化学习在一个特定场景——医疗——中的应用。
我们的播客节目在腾讯新闻首发,大家可以前往关注哦,这样可以第一时间获取节目信息和更多新闻资讯:)
01:30 大模型是“学而不思则罔”,强化学习是“思而不学则殆”
03:45 Sam Altman被宫斗下课与强化学习大神Noam Brown的动态
05:45 OpenAI o1是范式升级,摸到了一条从快思考走向慢思考的道路
(DIKW模型:Data – Information – Knowledge – Wisdom)
08:18 怎么看o1隐藏思维过程,有人破解o1思维链会被警告要封号?
09:04 从以语言为核心走向思维链,分两阶段运行增加泛化性
11:38 强化学习 vs 监督学习
16:39 除了数学和代码以外,医疗是可以用强化学习提升的领域
19:55 之前做强化学习实验没有CoT(思维链),今天更强调CoT了
22:16 复现o1 vs 复现GPT-4
26:30 未来几年将从强化学习范式走向写代码解决问题新范式
28:35 做“水涨船高的应用”,不只是“沿途下蛋的应用”
31:35 创业公司要走出大厂射程,在射程内你是没什么好活的
豁然开朗!原来搞强化学习是为了让AI真正学会思考,不只是背诵知识,这才是通向AGI的正确道路
慢思考如何实现?强化学习能让AI真正思考?
快思考和慢思考的融合很值得探讨,能举个具体例子吗
大模型配上强化学习,听着像要搞事情
AI发展速度惊人,即使技术实力强也可能被超越,学习和思考都得与时俱进
AI能否取代医生?能理解病人情感需求吗?
强化学习这么厉害,跟大模型结合前途无量,以后决策都靠AI了?
讲得有点复杂,大模型和强化学习是啥?
有点深奥,不过强化学习这话题挺新鲜
医疗AI厉害是厉害,诊断治疗方案挺准,但同理心和人文关怀这块,机器怎么搞?