2月19日 OpenAI又爆了！Sora生成60s视频！这次爆掉了谁？

00:00

07:23

【王煜全要闻评论】粉丝群已经开通

欢迎加入前哨粉丝群，在这里你可以和科技投资人、创业者、各行业专业人士互动沟通，分享心得体会，也可以第一时间了解到前哨相关活动动态，结交志同道合的小伙伴。

入群方式：
微信扫码下方二维码即可入群

如果您想洽谈合作，请添加创新地图的微信：innovationmap ，并附上简介。

你好，我是王煜全，这里是王煜全要闻评论。

这几天OpenAI又刷爆朋友圈了。

2月16日，OpenAI发布了视频生成模型Sora，这个词在日语中代表“天空”，开发团队选择这个名字是想激发人们的创造力。那如何激发创造力呢？

可能有不少朋友看过Sora生成的视频了。比如，有一段视频是一位穿着时尚的女性走在东京街头，时长将近60秒，画面质感堪比广告片。而且，只需要输入一段文字提示词就可以达到这样的效果。

这就意味着，只要你的脑海中有创意，而且能够用语言描述出来，就能用Sora变成短视频，甚至长视频和电影，这无疑是激发创造力的有力工具。

Sora受到了众多好评。比如，英伟达人工智能研究院首席研究科学家Jim Fan就说，这是视频生成领域的GPT-3时刻。

不过评价的声音也分成两个极端：一个是以著名人工智能科学家杨立坤为代表，说Sora并不真正理解人类世界的规律；另一个以中国著名企业家周鸿祎为代表，说Sora能够理解人类世界，并说通用人工智能，也就是AGI的到来，也就是这一两年的事情了。

先说我们的结论：Sora再次印证了用同一个模型处理不同数据的可行性，就像人类大脑用同样的神经元处理视觉听觉等不同数据一样，这个进步是预料之中的。

这仍然不是通用人工智能，因为缺乏对不同系统的综合处理能力。甚至这也不是理性意义上的对人类世界的理解，因为视频的生成并不依赖于对世界的完整、清晰的语言描述，很多细节是自然生成的，而不是描述出来的。但这更像是具有一定智能的哺乳动物对世界的理解方式，虽然不能清晰表述，但他知道世界是这样运行的，而不能是那样运行的。

简单说，这是人工智能对世界理解的新的飞跃，也许在未来某一天，人工智能就会在总结规律的基础上诞生出和人类一样的理性。

不过，按人类智能的模式，人工智能需要先学会综合各个不同的系统，形成理解，最后才能形成理性，那时候我们才能宣传通用人工智能的到来，现在看还为时尚早。

虽然通用人工智能的到来一定不是这两年的事情，但人工智能的能力突破是显而易见的，在很多单项领域已经超越了人类。我们每个人已经到了必须行动起来，赶紧学会和人工智能共存、共事、乃至共生的时候了。

以视频生成为例，虽然Sora还有一定的缺陷，比如生成的蜡烛火苗不自然等等，但是，Sora验证了AI生成长视频的可能性，未来技术更新迭代之后，很可能会像GPT-4一样惊艳。

不过，在Sora火爆的同时，另外有一批公司就比较惨了，就是Runway、Pika等等AI生成视频公司。

他们都在去年火了一把。Runway发布gen 2之后，视频生成效果不错，公司估值也达到了15亿美元。Pika也是如此，他们在11月28日宣布推出了AI视频工具Pika 1.0，而且拿到了5500万美元的融资。

但是，当时我就说，像Pika这样的AI视频工具会被GPT平台整合甚至替代，OpenAI推出AI视频生成功能只是时间问题。

因为从本质上讲，人类观看的视频就是连续播放的图片，OpenAI已经推出了DALL·E这样的“文生图”工具，后续自然会发展到“文生视频”阶段，现在OpenAI果然推出了Sora。

我多次强调过，生成式AI发展有四个阶段，性能提升、节能增效、简单服务、复杂服务。如果只在GPT的能力范围内做“性能提升”，那么早晚会被平台淘汰。

实际上，OpenAI推出GPT-4之后，就淘汰了一批文生文工具，比如曾经的生成式AI独角兽Jasper早就开始裁员了。

而GPT整合AI绘图工具DALL·E之后，Midjourney等文生图工具的日子也不好过了，因为在图像质量相似的情况下，GPT有更好的语言理解能力。

那么，Sora和Runway、Pika相比有什么区别呢？会不会淘汰他们呢？

表面上看，最大的区别是视频时间长度和一致性的问题。Runway和Pika都是只能生成4秒钟的视频。如果你想要用它们来制作更长的视频，就要不断生成几秒钟的片段，然后拼接到一起。

问题是，片段和片段之间的人物很难保持一致，所以就会变成电影预告片一样零散的片段集合。

然而，Sora却可以生成将近1分钟的视频，主角和场景都能保持一致，就像真的用相机录制出来的一样。

说白了，未来只要用好Sora，人人都可以当视频导演，Sora很可能成为视频领域的生产力工具，这对以往的AI视频工具无疑是毁灭性打击。

当然，这并不意味着现在的影视导演们可以大大地节省预算了，因为我们前面说过，内容的生成并不是导演意图的完全反应，导演最多比较一下换换提示词的不同效果，光影构图的细节都是靠Sora自己实现的。也就是说，如果将来真用Sora生成了电影，人类也只是编剧，Sora才是导演。

但是，导演们会失业，不需要导演技能却有想象力的内容创作者们却会因此受益。整体而言，技术又一次加快了向社会的扩散。想象一下，未来只要你能写出小说，Sora就能帮你自动拍成电影的世界吧。

为什么能实现这样的突破，从底层技术上讲，Runway是基于扩散模型（Diffusion Model）的，而Sora是基于Diffusion Transformer的。

扩散模型的概念比较晦涩，咱们打个比方来说说。

想象你有一幅精美的画作，然后用一层又一层的薄纱覆盖在这幅画上，每一层纱都代表一层噪声。随着层数的增加，原始的画作变得越来越不清晰。

而扩散模型的训练过程中，模型不仅要学会怎样去掉每一层薄纱，也就是去除噪声，还要记住每一步去掉薄纱后画作应该是什么样子的。学会其中的规律之后，扩散模型就可以生成其他类似的图像了。

OpenAI在扩散模型之上，还加入了Transformer模型，也就是GPT-4的基础模型。

在训练GPT时，OpenAI把文本划分为Token，也就是一个单词或者单词的一部分。在文本生成的过程中，Transformer模型会基于上下文，来预测下一个Token是什么。

同样的道理，OpenAI把视频划分为Patch，暂且翻译为“时空碎片”，简单来说就是带有不同的持续时间、分辨率和纵横比的数据单元。划分出“时空碎片”之后就可以用Transformer来预测图像了。

这样的处理方式让模型更好地理解视频中的物体、场景和动作，从而在视频理解、预测未来帧、视频生成等方面表现出更高的性能。

这就是为什么Sora生成视频的时间更长，一致性更强，简单说就是上下文理解能力更强的视频生成模型。

虽然Runway的CEO瓦伦祖拉在推特上说了一句“Game On”竞争开始了。但其实对他们来说游戏已经结束了。

不过，生成式AI的进化还没有结束。我在科技特训营课程中提出，计算机让文字能够以数字化的方式沉淀，但对现实三维物理世界数据的收集，才刚刚开始。

视频本质上还只是二维数据，未来生成式AI还会理解和学习大量数字化的三维知识，甚至会生成3D数据。

OpenAI已经推出了Shap-E工具，用文本来生成3D模型。未来随着视频和3D模型的成熟，所谓的“世界模型”即将到来，我们不仅能够用AI写文章，做视频，还能够创造新的3D世界，这是不是非常值得期待？

但是，这样美好的未来之中，真正的机会又是什么呢？就像我预测OpenAI会推出视频模型一样，我也在科技特训营中做过AI机会的分析和讲解，欢迎感兴趣的朋友扫描下方课程海报中的二维码，报名听课。

而且，就像我上面提到的，我们每个人、每个企业都到了赶紧引入AI以提升竞争力、发现新机遇的时候了，今年晚些时候我们会组织AI应用实战营，欢迎大家参加。

以上是今天的内容，更多详细的产业分析和底层逻辑，我会在科技特训营里分享。欢迎关注全球风口微信号，报名加入！

王煜全要闻评论，我们明天见！

【回放地址】

长按扫描二维码加入科技特训营，可观看所有直播和回放。

以上内容来自专辑

2月20日 GPT之父芯片大计曝光！7万亿美元造芯片！靠谱吗？
385604:31
2月19日 OpenAI又爆了！Sora生成60s视频！这次爆掉了谁？
500807:23
2月7日 AI海王？俄罗斯小伙儿用AI和5000位女性聊天，成功找到未婚妻！
467004:06
2月6日国产GPTs要来了！字节的AI“扣子”上线！小白也能玩儿！
420004:46
2月5日 9股小股东，掀翻马斯克550亿美元薪酬方案！谁的问题？
401205:53
2月2日基因疗法突破！11岁耳聋男孩30天改变人生！可问题是…
421304:44
2月1日马斯克的Neuralink完成首例人体试验！但他们的脑机接口离大家还很远！
396105:21
1月31日 GPT解锁新玩法！@300万个AI给你打工！每月20美元！
391304:54
1月30日上线5天捞金13亿！没听过《幻兽帕鲁》就OUT了！却被批用了AI！
372905:08
1月29日特斯拉暴跌5740亿元！马斯克说中国车企太厉害！
368404:48

主播信息

王煜全创新地图

海银资本创始合伙人、全球知名企业增长咨询公司Frost&Sullivan中国区首席顾问，科技创新布道者、产业协调人。

3.08万

加关注

莫尔强
这个团队里肯定有日本人，或者通晓日语的人。除了“天空”，sora这个词そら，还可以是佛教四大皆空的“空”；可以是把自己放“空”以接纳无限未知；可以是入定“禅”；可以是因自己无知，而对有知的热情探寻。在英语甚至汉语中，似乎很难找到一个类似的表达能与sora对应。OpenAI给自家这小宝宝起名sora，绝了！
莫尔强
向用ai科技影视化《红楼梦》的理想又脚踏实地地前进了硬核的一步。
长河一滴水
精彩

2月19日 OpenAI又爆了！Sora生成60s视频！这次爆掉了谁？

王煜全 | 科技要闻评论

王煜全创新地图

输入文字生成视频！OpenAI宣布测试文本生成视频模型

OpenAI的视频生成模型Sora到底有多强大？

美国OpenAI发布首个视频生成模型

OpenAI正式发布，文字直接生成视频

OpenAI又发布其生成视频模型Sora的4个革新市场的能力！