编码人声：在 GPT-4o 释放完整能力前，听听实时多模态 AI 创业者的一手经验

00:00

54:41

5 月中旬 GPT-4o 的发布，让人与 AI 的交互，从对话框的文本交流加速推进到了音视频多模态的实时互动。

本期节目，我们邀请到实时互动 AI 创业者史业民。他结合了自己的一手研发经验，深度分析了 GPT-4o 在多模态、实时交互、情感语音的新能力和能力边界，分享了 GPT-4o 正在催生的潜在场景和新机会。史业民还从开发者视角，提出了面向开发者的 GPT-4o 和面向用户的 ChatGPT 能力可能存在区别的提醒，以及在开发多模态 AI 产品时需要注意到的技术细节。

从对话框到音视频，多模态的实时互动 AI 已成趋势。希望本期节目能对你有所启发。

以上内容来自专辑

主播信息

津津乐道播客

在一派纷繁芜杂里，我们为愉悦双耳而生。科技、教育、文化、美食、生活、技能、情绪……严肃认真却不刻板，拒绝空泛浮夸。与专业且有趣的人携手缔造清流，分享经历，传播体验，厘清世界与你的关系。

3.85万

加关注

死磕侠老五
感觉嘉宾的声音忽高忽低，有点像AI....

编码人声：在 GPT-4o 释放完整能力前，听听实时多模态 AI 创业者的一手经验

津津乐道

津津乐道播客

编码人声：OpenAI Realtime API 一手体验和 Voice AI

编码人声：面向AI的新编程范式

讯飞星火V2.0发布升级代码能力和多模态能力

编码人声：主编夜话，2023 技术圈儿大事件盘点丨编码人声特别节目

编码人声：我“Hack”了一款精酿啤酒

编码人声：在 GPT-4o 释放完整能力前，听听实时多模态 AI 创业者的一手经验

津津乐道

津津乐道播客

编码人声：OpenAI Realtime API 一手体验和 Voice AI

编码人声：面向AI的新编程范式

讯飞星火V2.0发布 升级代码能力和多模态能力

编码人声：主编夜话，2023 技术圈儿大事件盘点丨编码人声特别节目

编码人声：我“Hack”了一款精酿啤酒

讯飞星火V2.0发布升级代码能力和多模态能力