11月6日,李开复带队创办的AI 2.0公司零一万物,正式发布首款预训练大模型 Yi-34B,并在阿里云魔搭社区开源首发。
据了解,“Yi”系列大模型的命名来自“一”的拼音,“Yi”中的“Y”上下颠倒,巧妙形同汉字的 “人”,结合AI里的 i,代表 Human + AI。零一万物相信 AI 赋能推动人类社会前行,AI 应本着以人为本的精神,为人类创造巨大的价值。
根据Hugging Face英文开源社区平台和C-Eval中文评测的最新榜单,Yi-34B预训练模型以黑马姿态取得了多项 SOTA 国际最佳性能指标认可,这也是迄今为止唯一成功登顶Hugging Face全球开源模型排行榜的国产模型。
零一万物创始人及CEO李开复博士表示:“零一万物坚定进军全球第一梯队目标,从招的第一个人,写的第一行代码,设计的第一个模型开始,就一直抱着成为‘World's No.1’的初衷和决心。我们组成了一支有潜力对标 OpenAI、Google等一线大厂的团队,经历了近半年的厚积薄发,以稳定的节奏和全球齐平的研究工程能力,交出了第一张极具全球竞争力的耀眼成绩单。Yi-34B可以说不负众望,一鸣惊人。”
支持200K上下文窗口 40万字文本处理
零一万物方面对贝壳财经记者表示,Yi-34B模型将发布可支持200K超长上下文窗口版本,可以处理约40万汉字超长文本输入。相比之下,GPT-4上下文窗口只有32K,文字处理量约2.5万字。
在语言模型中,上下文窗口是大模型综合运算能力的金指标之一,对于理解和生成与特定上下文相关的文本至关重要,拥有更长窗口的语言模型可以处理更丰富的知识库信息,生成更连贯、准确的文本。
此外,在文档摘要、基于文档的问答等下游任务中,长上下文的能力发挥着关键作用,行业应用场景广阔。在法律、财务、传媒、档案整理等诸多垂直场景里,更准确、更连贯、速度更快的长文本窗口功能,可以成为人们更可靠的AI助理,让生产力迅猛提升。然而,受限于计算复杂度、数据完备度等问题,上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战,因此大多数发布的大型语言模型仅支持几千tokens的上下文长度。
为了解决这个限制,零一万物技术团队实施了一系列优化,包括:计算通信重叠、序列并行、通信压缩等。通过这些能力增强,实现了在大规模模型训练中近100倍的能力提升,也为Yi系列模型上下文规模下一次跃升储备了充足“电力”。
已在魔搭社区开源首发 实测实现40%训练成本下降
值得注意的是,零一万物旗下的大模型已经在阿里云魔搭社区首发,此次开源的Yi系列模型包含34B和6B两个版本。
零一万物方面称,Yi-34B的200K上下文窗口直接开源,不仅能提供更丰富的语义信息,理解超过1000页的PDF文档,让很多依赖于向量数据库构建外部知识库的场景,都可以用上下文窗口来进行替代。Yi-34B的开源属性也给想要在更长上下文窗口进行微调的开发者提供了更多的可能性。
此外,李开复曾经表示,“做过大模型Infra的人比做算法的人才更稀缺”。在打造“World's No.1"梯队时,超强的Infra 能力是大模型研发的核心护城河之一。如果说训练大模型是登山,Infra的能力定义了大模型训练算法和模型的能力边界,也就是“登山高度”的天花板。在芯片、GPU等算力资源紧缺的当下,安全和稳定成为大模型训练的生命线。
零一万物方面表示,凭借强大的AI Infra支撑,零一万物团队能实现超越行业水平的训练效果,Yi-34B模型训练成本实测下降40%,实际训练完成达标时间与预测的时间误差不到一小时,进一步模拟上到千亿规模训练成本可下降多达50%。截至目前,零一万物Infra能力实现故障预测准确率超过90%,故障提前发现率达到99.9%,不需要人工参与的故障自愈率超过95%,有力保障了模型训练的顺畅进行。
在Yi开源模型的全球首发日,李开复也宣布,在完成 Yi-34B 预训练的同时,已经旋即启动下一个千亿参数模型的训练。“零一万物的数据处理管线、算法研究、实验平台、GPU 资源和AI Infra都已经准备好,我们的动作会越来越快”。
还没有评论,快来发表第一个评论!