2月中旬,OpenAI正式对外发布人工智能文生视频大模型Sora。只需输入文字,便可生成一段长达60秒的高清视频。这意味着,继文本、图像之后OpenAI将其先进的AI技术拓展到了视频领域。作为OpenAI的开年之作,这款王炸级的文生视频大模型再次让世界感受到了人工智能的强大。
Sora的诞生,立即在国内外引起高度关注和热议,也在资本市场引发相关炒作。360创始人周鸿祎曾一连发了十多条视频谈论这一文生视频大模型,并对其给与了极高的评价,他在社交平台表示:Sora的诞生意味着AGI实现可能从10年缩短至一两年。
不可否认的是,技术的变革更像一把双刃剑,Sora的出现,让人们逐渐认识到人工智能在生活各场景运用中的无限可能,但也引发了类似岗位取代、失业等职场担忧。
Sora对未来影响几何?中国企业应该怎样参与到这场AI浪潮中?整个行业还需要作哪些准备和技术优化?2月28日,封面新闻记者专访了360创始人周鸿祎,他表示,GPT实现大模型的第一个突破,即解决了机器和人之间的对话问题,而Sora实现了第二个突破,补足了人工智能在AGI上的不足,实现机器与世界的交互。
Sora实现机器与世界的交互
Sora作为一个基于深度学习的视频生成模型,使用大量的视频数据进行训练,其强大之处在于生成的视频可以包含精细的画面场景、生动的角色表情以及复杂的镜头运动。业内预测,Sora将被最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域运用多模态大模型能力,辅助人类生成视频,不仅能大幅提高生产效率,还可以提供全新的视觉冲击,帮助企业真正实现降本增效、提升用户体验。
在周鸿祎看来,Sora横空出世,不仅意味AIGC和多模态的突破,更意味着AGI的突破。对比Pika和Runway两个文生视频的竞品,周鸿祎进一步解释到,二者是把视频看成一帧一帧图的渲染,还在像素层面工作,因此也缺乏对常识的理解。我们常见的计算机CG特效,是在模拟造物主,进行人工建模,用很多公式驱动指导图像互动,这需要大量的人力和算力支持。
“而Sora背后的技术路线与众不同,它的原理像人脑,不需要建模,依靠常识驱动,在观察中掌握物理规律,这意味着不需要很大算力便可实现“逼真”的视频。”周鸿祎说。
企业应当抓住机遇All in AI
纵观整个行业,在感叹Sora强大能力的同时,也引发了对其内容风险,以及相关职业是否将被取代的担忧。面对种种顾虑,OpenAI称在真正面向公众推出产品时,将确保生成视频包含来源元数据,并推出检测视频真伪的工具,以及对模型进行对抗性测试来评估危害或风险,拒绝包含极端暴力、性内容、仇恨图像、他人IP等文本输入提示等。
针对这一说法,周鸿祎也提出了自己的观点,在他看来,GPT实现大模型的第一个突破,即解决了机器和人之间的对话问题,而Sora实现了第二个突破,就说补足了人工智能在AGI上的不足,实现机器与世界的交互。“Sora将会成为内容行业的生产力工具,当然最终一部电影、一个视频好不好,还是需要创造力来判断,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。但每位从业者都需要学会使用Sora,整个行业要拥抱AI,否则会被能够使用Sora的同行淘汰。”
人工智能将引领一场新工业革命,深刻影响各行各业。在这场AI浪潮中,企业应如何应对?周鸿祎认为,企业应当抓住机遇All in AI,这其中包括三大心法:一是建立AI信仰,相信大模型是真智能,相信大模型是一场工业革命,相信所有业务都会被重塑,相信不拥抱AI的公司、员工会淘汰,相信人工智能正朝着AGI快速前进;二是All in AI,需要思考企业对上对下员工、高管是否都了解和学习、使用大模型,内部业务流程如果用AI改造和优化,哪些环节可以被改造和优化?对外产品、服务哪些功能可以被AI赋能?三是含AI量,企业需要提前思考员工和产品的含AI量,以及企业对AI的利用程度。
人工智能发展的五阶段和三个方向
对于文生视频大模型Sora,业界部分声音是利用前卫的数字技术加以融合运用,没必要“妖魔化”其功能影响,更多应以前瞻性思维理性认识,原因在于Sora等大模型无法摆脱来自人文的“地心引力”,未来的突破性发展终究会受到算力、算法、伦理法规的制约。
那么,企业在数字化转型的过程中又应如何将数字化建设与AI融合利用,是大多数企业需要考虑的问题?周鸿祎从Sora都能力中总结出AI发展的五阶段,第一阶段是,人工智障,能感知但不理解,难沟通;第二阶段,人工智能入门,实现人与机器交互,理解语言、思维、逻辑,机器拥有了“大脑”;第三阶段,通用人工智能,实现机器与世界交互,拥有“耳朵和眼睛”,通过观察了解世界运行规律;第四阶段,强人工智能,附体汽车和机器人,拥有“手和脚”,感知物理世界的重力和阻力,和人对世界的认知一样;第五阶段,超级人工智能,可发现总结规律和定律,达到爱因斯坦水平,拥有“悟性”和“灵性”。
此外,周鸿祎表示,大模型改变的不只是自然语言处理,未来有三个重点发展方向:机器人、自动驾驶和科学研究。机器人方面,最近的一个突破就是具身智能,有大模型做基础,机器人能理解80%的指令,人形机器人产业就可能出现一个大的突破。自动驾驶方面,把大模型和自动驾驶连在一起,就会对世界有更多的判断和理解,感知加上对世界的理解,就能识别出图像背后的含义。比如前面是婴儿车还是纸箱子?如果是纸箱子,车可以开过去,而如果是婴儿车或石头,车就要避开。最后科学研究方面,大模型对于世界知识的掌握,可能会对基础科学研究产生意想不到的推动。
还没有评论,快来发表第一个评论!