自文本生成、文生图等多模态大模型后,厂商们纷纷开始涌向视频生成大模型。
9月19日,在杭州云栖大会上,通义万相宣布全面升级,并发布全新视频生成模型。据了解,迭代后,该大模型可一键生成影视级高清视频,并已开放免费体验。
据介绍,通义万相首批上线了文生视频、图生视频功能:在文生视频功能中,用户输入任意文字提示词,即可生成一段高清视频,支持中英文多语言输入,并可以通过灵感扩写功能智能丰富视频内容表现力,支持16:9、9:16等多种比例生成;在图生视频功能中,支持用户将任意图片转化为动态视频,按照上传的图像比例或预设比例进行生成,同时可以通过提示词来控制视频运动。
记者首先向该大模型输入“千里江山图古画,木舟在江上穿梭,江两岸高山连绵”的文案,要求制作一段视频。大概10分钟左右,大模型完成了视频制作。
视频加载中...
国漫3D风格的视频中,船只在峡谷中穿梭,远方群山环绕,云遮雾绕。
随后,记者又上传了一张“飞碟从街道上空飞过”的图片,要求大模型将该图片生成为视频。很快,通义万相就根据相关图片生成了一段视频。
视频中,大模型为飞碟配上了非常赛博的背景音,而且由近及远,给人一种真实的感觉。
视频加载中...
记者体验发现,大模型生成的视频最长5秒左右,每秒30帧,分辨率为720P,还能生成与画面匹配的音效。
和过去AI根据文本描述进行要素的堆砌不同,AI生成视频大模型发展到现在已经越来越呈现出具有合理运动和模拟物理世界特性的视频。
事实上,在Sora横空出世,很多国内厂商都把AI生成视频作为追逐的焦点。不久前,快手上线了自研的视频生成大模型“可灵”,智谱AI也紧随其后推出AI生成视频模型智谱清言。此外,百度、腾讯、字节都在积极布局,争做“中国版Sora”。
要成为“中国版Sora”,关键是解决画面表现力和大幅度运动等视频生成技术难题。通义万相相关负责人透露,视频生成大模型技术的提升,主要在于针对运动生成和物理模拟等难点优化算法,实现大幅度主体运动和运镜控制,并有效模拟真实世界物理特性。同时,设计了高压缩比、高质量视频VAE框架,有效降低视频信息冗余,并保持高质量视频重构能力。
虽然和能生成60秒视频的Sora相比,国产视频生成大模型所制作的视频在时长上仍然有提升空间,不过在电商、广告、影视等领域,现阶段的时长已基本满足使用。业内人士表示,视频生成大模型免费开放给用户使用,能够为创作者提供更多灵感来源,生成的影视级高清视频,已在一定程度上可应用于影视创作、动画设计、广告设计等领域。
还没有评论,快来发表第一个评论!