仿生人会梦见电子羊吗?这是“科幻鬼才”Philip K. Dick的科幻名作,也是人类对人工智能的追问与想象。
10月18日至22日,第81届2023世界科幻大会将在成都举办。大会前夕,红星新闻、每日经济新闻联合启动“幻响未来,全球追光”大型融媒体采访报道,追寻科幻转换为现实背后人类不同文明所共同拥有的科技与梦想之光。
商汤科技作为中国人工智能软件公司,也将参加本次世界科幻大会。商汤科技研发的商汤如影应用平台,以数字人视频生成技术为核心,拥有多种AI生成能力,包括文本生成、语音生成、动作生成、图片生成、NeRF等。红星新闻记者日前专访了商汤科技数字空间事业群数字文娱事业部总经理栾青,就人工智能的现在与未来进行探讨。
如果上升到哲学观点
很难说机器人会不会产生自我意识
红星新闻记者:AI数字人会梦见电子羊吗?
栾青:这个问题蛮科幻。从我的理解,目前的大模型或模拟人脑的系列人工智能技术,被普遍认为还没产生自我意识,是数据的汇总和演绎,而不是自我意识的某种形态。
如果上升到哲学观点,自我意识是什么?其实是脑结构对信息处理后的演绎。从这个角度,很难解释说机器人会不会产生自我意识。人工智能的物理结构在模拟大脑,未来富余的电信号也可以去运转,不能说这种情况未来不会发生。但现在来说,人工智能是为人的目的而存在。
红星新闻记者:数字人/虚拟人/仿生人,这些叫法背后的专业技术是什么?
栾青:数字人技术包含好几个方面,一方面是人机交互,就是数字人用人的方式去说话、动作、表情,模拟人和人之间交互的感知和体验。这里面包含了两块主要技术,一是人形视频的生产,二是用AI去生成人声。
除了人机交互,另一个技术是模拟大脑,是未来越来越被关注的。数字人除了拟人化,大脑非常厉害,计算能力比普通人脑更强。可以自然体会人的感情,还能处理和计算信息,给出最佳回复,甚至提供情绪价值。
红星新闻记者:商汤科技将数字人分成L1至L5五个等级,将L4和L5等级的数字人统称为“AI数字人”。目前商汤的数字人能完成最复杂的互动是什么?背后的技术难点在于?
栾青:目前数字人最常用的,一个是人机交互的界面模块,用来生成视频、直播,以人性化的方式去展示信息和内容。
随着大模型的突破,现在到了“辅助驾驶”阶段。因为大模型生成的内容还需要人去审阅、调整,就不是“自动驾驶”,还是“辅助驾驶”。这在L3和L4之间,能生成完整内容,但还需要修正。现在常用的短视频和直播领域,就在L3和L4之间,是最大规模的应用。
另一个客服类场景应用更偏L4阶段,达到信息级别的交互。比如说现在打开工商银行APP,切换为数字人模式,所有业务可以直接在APP里去和数字人客服交互。这个场景的体验是L4级,但智能性还有一定差距,所以数字人下一步想达到真正的L4,甚至往L5发展,还需要技术的突破。
包括现在大模型比以前厉害很多,不像以前是傻的,现在很聪明。但是情感类的互动,提供情绪价值还是蹩脚,没有自然到怎么沟通都分辨不出来。
这种技术的突破有三点要做,一是数字人需要跟行业更深入结合。在行业领域里的知识、习惯、技术信息,还需要专业性大模型帮助理解。
数据打通之外,第二步是接口打通。比如,操作理解了要做这件事,系统能不能真正去做到?办一张信用卡,如果没有连接银行办信用卡的接口,就拿不到实体信用卡,这就需要接口打通。
这两点做到了,还有需要考虑的地方。比如数字人现在可以做医疗建议,但不能真正开药。从逻辑上,从权责上,不能做。数字人目前在某些行业里,只能给建议,不能实操。
现在行业达到了千亿级参数,等到GPT 4的时候,可能到万亿级参数,数字人可以更全面地在情绪价值方面更自然地互动。目前还不清楚这个阶段需要通过什么方式达成,是修改网络结构,还是增加算力和网络节点数,这是现在还在不断研究的核心突破点。
红星新闻记者:千亿级、万亿级参数,是指数据的密度吗?
栾青:是模型里的节点数,可以认为是模拟大脑的神经元,人脑应该在万亿级。所以按理论来讲,目前的GPT 4已经达到了人脑的参数级别。但从智能角度来讲,和人脑还有差距。
大模型突破后
十几秒素材就可以制作一个数字人
红星新闻记者:商汤介绍,AI数字人主要应用于虚拟偶像、虚拟客服和超级助手三个方向,现在依然如此吗?
栾青:这三大应用场景是前几年数字人最多的应用,其实今天,数字人最大的应用是短视频和直播内容生成。
现在很多短视频,大家并不知道是数字人制作的。比如女主播在直播间里,展示汉堡王的招牌套餐;招聘电工的短视频等等。还有一些专业人士,律师、医生、老师都有使用数字人来生成一些内容。
红星新闻记者:数字人应用更广泛,是因为技术出现了哪些升级?
栾青:大模型出现后,最核心的价值在于可以批量化,制作变得非常简单。
4、5年前,制作一个数字人所需数据量比较大,一般要十几个小时的视频素材,同时需要满足多角度和动作的要求,制作完成后会发现效果僵硬。当时有许多电视台在日常新闻报道中,使用数字人主播,尤其是突发型事件报道,很有价值。不过因为制作难度和成本的限制,无法在普通大众营销场景下推广,难以形成规模效应。
现在大模型突破后,数字人的制作变得容易许多,十几秒的素材就可以制作一个数字人。这两年,技术在不断提升,去年、前年还要三五分钟,今年一两分钟、甚至几十秒都可以。
红星新闻记者:商汤为各行各业提供的数字人,客户希望还能在哪些方面进步?
栾青:诉求很多,一方面是更丰富的表现,一方面是在更轻便的设备上跑起来。
表现包括可不可以自由做动作?能不能跳舞?没有录入的动作能不能更丰富?能不能直接AI生成数字人,不用找人录,就没有版权问题。
最近也常说可不可以让数字人在任何设备上跑起来?现在很多还是在好一点的硬件设备跑,或者在云端跑,客户觉得太贵了,可不可以在他自己的手机上跑?
背后的技术支持包括芯片适配,性能优化。技术推向产品化的过程,就是不断适用于更多场景,更复杂的条件。说到底还是考验AI视频生成的复杂度问题,这也是我认为人工智能下一个要过的坎。
红星新闻记者:畅想未来,5年内我们可以期待数字人进化成什么模样?
栾青:现在经常有电影导演跟我说,什么时候数字人能实现剧本出来就生成影片?
现在一些所谓的数字人出演,还只是“换脸”,就是人类演完,把脸画绿幕抠掉。这样其实并没有节省成本,是噱头。我觉得行业真正应该做的,是让一些内容彻底AI化,缩短制作时间,降低试错成本。
目前电影级的数字人还面临很大的挑战,我们也在和一些明星做初步尝试,发现在短视频、短剧领域有希望,但真正的高质量屏幕还没有突破。目前在为动画电影做努力,通过人工智能技术,将真人内容转化成具体风格的动画,我觉得短时间内这是最有希望的。
还没有评论,快来发表第一个评论!