【王煜全 要闻评论】粉丝群已经开通
欢迎加入前哨粉丝群,在这里你可以和科技投资人、创业者、各行业专业人士互动沟通,分享心得体会,也可以第一时间了解到前哨相关活动动态,结交志同道合的小伙伴。
入群方式:
微信扫码下方二维码即可入群
如果您想洽谈合作,请添加创新地图的微信:innovationmap ,并附上简介。
你好,我是王煜全,这里是王煜全要闻评论。
这几天OpenAI又刷爆朋友圈了。
2月16日,OpenAI发布了视频生成模型Sora,这个词在日语中代表“天空”,开发团队选择这个名字是想激发人们的创造力。那如何激发创造力呢?
可能有不少朋友看过Sora生成的视频了。比如,有一段视频是一位穿着时尚的女性走在东京街头,时长将近60秒,画面质感堪比广告片。而且,只需要输入一段文字提示词就可以达到这样的效果。
这就意味着,只要你的脑海中有创意,而且能够用语言描述出来,就能用Sora变成短视频,甚至长视频和电影,这无疑是激发创造力的有力工具。
Sora受到了众多好评。比如,英伟达人工智能研究院首席研究科学家Jim Fan就说,这是视频生成领域的GPT-3时刻。
不过评价的声音也分成两个极端:一个是以著名人工智能科学家杨立坤为代表,说Sora并不真正理解人类世界的规律;另一个以中国著名企业家周鸿祎为代表,说Sora能够理解人类世界,并说通用人工智能,也就是AGI的到来,也就是这一两年的事情了。
先说我们的结论:Sora再次印证了用同一个模型处理不同数据的可行性,就像人类大脑用同样的神经元处理视觉听觉等不同数据一样,这个进步是预料之中的。
这仍然不是通用人工智能,因为缺乏对不同系统的综合处理能力。甚至这也不是理性意义上的对人类世界的理解,因为视频的生成并不依赖于对世界的完整、清晰的语言描述,很多细节是自然生成的,而不是描述出来的。但这更像是具有一定智能的哺乳动物对世界的理解方式,虽然不能清晰表述,但他知道世界是这样运行的,而不能是那样运行的。
简单说,这是人工智能对世界理解的新的飞跃,也许在未来某一天,人工智能就会在总结规律的基础上诞生出和人类一样的理性。
不过,按人类智能的模式,人工智能需要先学会综合各个不同的系统,形成理解,最后才能形成理性,那时候我们才能宣传通用人工智能的到来,现在看还为时尚早。
虽然通用人工智能的到来一定不是这两年的事情,但人工智能的能力突破是显而易见的,在很多单项领域已经超越了人类。我们每个人已经到了必须行动起来,赶紧学会和人工智能共存、共事、乃至共生的时候了。
以视频生成为例,虽然Sora还有一定的缺陷,比如生成的蜡烛火苗不自然等等,但是,Sora验证了AI生成长视频的可能性,未来技术更新迭代之后,很可能会像GPT-4一样惊艳。
不过,在Sora火爆的同时,另外有一批公司就比较惨了,就是Runway、Pika等等AI生成视频公司。
他们都在去年火了一把。Runway发布gen 2之后,视频生成效果不错,公司估值也达到了15亿美元。Pika也是如此,他们在11月28日宣布推出了AI视频工具Pika 1.0,而且拿到了5500万美元的融资。
但是,当时我就说,像Pika这样的AI视频工具会被GPT平台整合甚至替代,OpenAI推出AI视频生成功能只是时间问题。
因为从本质上讲,人类观看的视频就是连续播放的图片,OpenAI已经推出了DALL·E这样的“文生图”工具,后续自然会发展到“文生视频”阶段,现在OpenAI果然推出了Sora。
我多次强调过,生成式AI发展有四个阶段,性能提升、节能增效、简单服务、复杂服务。如果只在GPT的能力范围内做“性能提升”,那么早晚会被平台淘汰。
实际上,OpenAI推出GPT-4之后,就淘汰了一批文生文工具,比如曾经的生成式AI独角兽Jasper早就开始裁员了。
而GPT整合AI绘图工具DALL·E之后,Midjourney等文生图工具的日子也不好过了,因为在图像质量相似的情况下,GPT有更好的语言理解能力。
那么,Sora和Runway、Pika相比有什么区别呢?会不会淘汰他们呢?
表面上看,最大的区别是视频时间长度和一致性的问题。Runway和Pika都是只能生成4秒钟的视频。如果你想要用它们来制作更长的视频,就要不断生成几秒钟的片段,然后拼接到一起。
问题是,片段和片段之间的人物很难保持一致,所以就会变成电影预告片一样零散的片段集合。
然而,Sora却可以生成将近1分钟的视频,主角和场景都能保持一致,就像真的用相机录制出来的一样。
说白了,未来只要用好Sora,人人都可以当视频导演,Sora很可能成为视频领域的生产力工具,这对以往的AI视频工具无疑是毁灭性打击。
当然,这并不意味着现在的影视导演们可以大大地节省预算了,因为我们前面说过,内容的生成并不是导演意图的完全反应,导演最多比较一下换换提示词的不同效果,光影构图的细节都是靠Sora自己实现的。也就是说,如果将来真用Sora生成了电影,人类也只是编剧,Sora才是导演。
但是,导演们会失业,不需要导演技能却有想象力的内容创作者们却会因此受益。整体而言,技术又一次加快了向社会的扩散。想象一下,未来只要你能写出小说,Sora就能帮你自动拍成电影的世界吧。
为什么能实现这样的突破,从底层技术上讲,Runway是基于扩散模型(Diffusion Model)的,而Sora是基于Diffusion Transformer的。
扩散模型的概念比较晦涩,咱们打个比方来说说。
想象你有一幅精美的画作,然后用一层又一层的薄纱覆盖在这幅画上,每一层纱都代表一层噪声。随着层数的增加,原始的画作变得越来越不清晰。
而扩散模型的训练过程中,模型不仅要学会怎样去掉每一层薄纱,也就是去除噪声,还要记住每一步去掉薄纱后画作应该是什么样子的。学会其中的规律之后,扩散模型就可以生成其他类似的图像了。
OpenAI在扩散模型之上,还加入了Transformer模型,也就是GPT-4的基础模型。
在训练GPT时,OpenAI把文本划分为Token,也就是一个单词或者单词的一部分。在文本生成的过程中,Transformer模型会基于上下文,来预测下一个Token是什么。
同样的道理,OpenAI把视频划分为Patch,暂且翻译为“时空碎片”,简单来说就是带有不同的持续时间、分辨率和纵横比的数据单元。划分出“时空碎片”之后就可以用Transformer来预测图像了。
这样的处理方式让模型更好地理解视频中的物体、场景和动作,从而在视频理解、预测未来帧、视频生成等方面表现出更高的性能。
这就是为什么Sora生成视频的时间更长,一致性更强,简单说就是上下文理解能力更强的视频生成模型。
虽然Runway的CEO瓦伦祖拉在推特上说了一句“Game On”竞争开始了。但其实对他们来说游戏已经结束了。
不过,生成式AI的进化还没有结束。我在科技特训营课程中提出,计算机让文字能够以数字化的方式沉淀,但对现实三维物理世界数据的收集,才刚刚开始。
视频本质上还只是二维数据,未来生成式AI还会理解和学习大量数字化的三维知识,甚至会生成3D数据。
OpenAI已经推出了Shap-E工具,用文本来生成3D模型。未来随着视频和3D模型的成熟,所谓的“世界模型”即将到来,我们不仅能够用AI写文章,做视频,还能够创造新的3D世界,这是不是非常值得期待?
但是,这样美好的未来之中,真正的机会又是什么呢?就像我预测OpenAI会推出视频模型一样,我也在科技特训营中做过AI机会的分析和讲解,欢迎感兴趣的朋友扫描下方课程海报中的二维码,报名听课。
而且,就像我上面提到的,我们每个人、每个企业都到了赶紧引入AI以提升竞争力、发现新机遇的时候了,今年晚些时候我们会组织AI应用实战营,欢迎大家参加。
以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!
王煜全要闻评论,我们明天见!
【回放地址】
长按扫描二维码加入科技特训营,可观看所有直播和回放。
向用ai科技影视化《红楼梦》的理想又脚踏实地地前进了硬核的一步。
精彩
这个团队里肯定有日本人,或者通晓日语的人。除了“天空”,sora这个词そら,还可以是佛教四大皆空的“空”;可以是把自己放“空”以接纳无限未知;可以是入定“禅”;可以是因自己无知,而对有知的热情探寻。在英语甚至汉语中,似乎很难找到一个类似的表达能与sora对应。OpenAI给自家这小宝宝起名sora,绝了!