6月14日,智源研究院主办的“AI内行顶级盛会”——北京智源大会在中关村展示中心开幕。智源研究院院长王仲远汇报了智源研究院在语言、多模态、具身、生物计算大模型的前沿探索。在接受媒体采访时,王仲远表示,过去一年,国产大模型取得了长足进步。达到非常好用的水平,依然是国产大模型未来要努力的方向。
智源推出大模型全家桶
当天,智源推出大模型全家桶及全栈开源技术基座新版图。
在语言大模型方面,针对大模型训练算力消耗高的问题,智源研究院和中国电信人工智能研究院基于模型生长和损失预测等关键技术,联合研发并推出全球首个低碳单体稠密万亿语言模型Tele-FLM-1T。该模型与百亿级的52B版本、千亿级的102B版本共同构成Tele-FLM系列模型。
Tele-FLM系列模型实现了低碳生长,仅以业界普通训练方案9%的算力资源,基于112台A800服务器,用4个月完成3个模型总计2.3Ttokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。
针对大模型幻觉等问题,智源研究院自主研发了通用语义向量模型BGE系列,基于检索增强RAG技术,实现数据之间精准的语义匹配,支持大模型调用外部知识。目前,BGE模型系列下载总量位列国产AI模型首位。
在多模态大模型方面,行业现有的多模态大模型多为对于不同任务而训练的专用模型,例如Stable Diffusion之于文生图,Sora之于文生视频,GPT-4V之于图生文。每类模型都有对应的架构和方法,例如对于视频生成,行业普遍参照Sora选择了DiT架构。但是现有模型的能力多为单一分散的能力组合,而不是原生的统一能力,例如目前Sora还做不到图像和视频的理解。
为了实现多模态、统一、端到端的下一代大模型,智源研究院推出了Emu3原生多模态世界模型。Emu3采用智源自研的多模态自回归技术路径,在图像、视频、文字上联合训练,使模型具备原生多模态能力,实现了图像、视频、文字的统一输入和输出。Emu3从模型训练开始就是为统一的多模态生成和理解而设计的,目前具备生成高质量图片和视频、续写视频、理解物理世界等多模态能力。简单来说,Emu3既统一了视频、图像、文字,也统一了生成和理解。Emu3在持续训练中,经过安全评估之后将逐步开源。
为帮助全球开发者一站式启动大模型开发和研究工作,智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0。FlagOpen 2.0可支持多种芯片和多种深度学习框架。
未来两三年,将有大量人工智能应用产生
谈及国产大模型所处的位置,王仲远受访时认为,国产大模型还处在追赶阶段,未来的里程碑将是追赶上GPT-4。“大模型之所以能对产业界产生重大影响,是因为它通用的理解推理能力和通用智能和潜力,追赶上GPT-4 是一个重要的关口。”
他说,过去一年,国产大模型取得了长足进步。“去年,国产大模型还在追逐 GPT -3.5,今年我们可以非常自豪地说,国产大模型平均水平应该已经超过了GPT -3.5,正在无限逼近 GPT-4。在中文语境之下,国产大模型某些能力超过了GPT-4,但GPT-4也正在不断迭代。”
在他看来,国产大模型赶超GPT-4后,意味着中国最擅长的场景优势、数据优势将发挥出来,大模型将真正变成赋能千行百业的新质生产力。“过去一年,大模型在科技圈依然非常火热,但普通用户感受并不明显,很重要的原因是国产大模型的能力还不够,另外,国内大模型的To B生态底子较薄。现在我们欣喜地看到国产大模型已经达到了可用的水平。达到非常好用的水平,依然是国产大模型未来要努力的方向。”
何时才能出现爆款应用?他预测,随着国产大模型已经达到支撑应用的阶段,未来两三年可以看到大量应用的产生,包括B端应用和C端应用。
“2023年之前,人工智能只能针对特定场景、特定任务去训练特定模型,达到特定的效果,被称为弱人工智能时代。2023年之后,人工智能将逐步进入通用人工智能时代,其最大的特点就是泛化性、通用性、跨领域的特性,几乎可以影响所有行业。”他说,目前大模型作为提高文案处理效率的工具,起到的作用是非常明显的。同时在文生图、文生视频方面虽然处于早期的阶段,但已经能够产出很多有创意的素材。随着技术优化、成本降低,大模型能真正解决用户需求的痛点,人工智能C端的爆款应用将会出现。
还没有评论,快来发表第一个评论!