热点解析27 | 为什么长文本是AI“登月”的第一步？

00:00

05:17

200万字，意味着什么？《埃隆·马斯克传》30万字，《红楼梦》70万字，《后宫甄嬛传》100万字。如果按照20分钟看1万字的阅读速度来计算，1小时阅读3万字，那么200万字大概要读66.67个小时。而这样马拉松式的阅读，大概率是囫囵吞枣。

3月18日，国内AI创业公司月之暗面AI Infra负责人许欣然，在Kimi官方发布直播中提到了一万小时定律，即要想成为一个领域的专家，我们至少需要学习一万小时。而现在只需要10分钟，Kimi就能接近任何一个新领域的初级专家水平。在直播中，许欣然还现场输入了约100万字的《倚天屠龙记》复印件、100万字的《甄嬛传》剧本，不到10分钟，Kimi就成了“倚学家”“甄学家”。

当月之暗面（Moonshot AI）宣布在大模型长上下文窗口技术上取得新的突破，Kimi智能助手已支持200万字超长无损上下文，并于即日起开启产品“内测”时。国内其他AI公司纷纷跟进，卷起了文本长度。22日，阿里通义千问向所有人免费开放1000万字的长文档处理功能；23日，360智脑宣布内测可处理500万字功能。

也就是说，现在，10分钟左右Kimi、通义千问、360智脑等产品就可以读完《埃隆·马斯克传》《红楼梦》《后宫甄嬛传》三本书，且能结合上下文理解其中的内容。

据了解，作为大模型产品，Kimi除了文档解读，还有联网功能。这意味着，Kimi不但可以使用既定资料分析，还可以根据问题搜索全网信息作为数据分析依据。目前，ChatGPT 3.5、Claude 2.0不支持这项功能。

实际上，长文本早已是AGI（通用人工智能）的必争之地：2023年11月，OpenAI发布了GPT4 Turbo，最高支持128k上下文长度的输入；14天后，Antrophric紧急发布Claude 2.1，宣布上下文能力的突破，从100k提升到了200k；2024年2月，Gemini 1.5宣布长文本窗口支持100w长度，为75万文字。

长文本对大模型而言为何重要？“为什么长文本是‘登月’第一步？它很本质。它是新的计算机内存。”月之暗面创始人、CEO杨植麟曾在腾讯科技的采访中表示，长文本（Long Context）是大语言模型（LLM）的基础能力。此前，杨植麟用了形象的比喻来描述长文本，“支持更长的上下文”意味着大模型拥有更大的“内存”。

2023年10月，Kimi上线，当时可以支持无损上下文长度最多为20万汉字。5个月内，升级至200万字，月之暗面直接将长文本能力提高至10倍。按照AI领域的计算标准，200万汉字的长度大约为400万token。而当时长文本水平在第一梯队的谷歌Gemini 1.5、Claude 3支持100万token，Kimi 200万汉字上下文长度超越了海外顶尖大模型水平。

与衡量手机、电脑性能时的“跑分”类似，大模型也有专属的“跑分”标准，被称之为token。它是一个大模型输入、输出的基本单位。以OpenAI的相关准则来看，1k的token等于750个英文单词、500个中文汉字。token越大，文本处理能力越强。据了解，当前ChatGPT 4的token是32k，Claude 3的token是100w ，Kimi的token是400w。

也就是说，可处理的文本越长，可提取内容时的素材越多，帮助用户处理信息时则越准确。

据统计，长文档处理长度之最是来自阿里云的通义千问，上下文长文本处理能力最强的是来自月之暗面的Kimi，谷歌的Gemini、Kimi均支持联网功能，不过Ultra大会员需付费，价格是每月19.99美元。

值得注意的是，目前国内的主流长文本处理产品通义千问、Kimi等均为免费申请内测即可使用，随着用户用量的增加，意味着大模型的“训练”数据也在增加，AGI长文本处理赛道正在开卷。

以上内容来源于《中国企业家》杂志。

更多关于AI领域的发展和变革，请订阅并收听《AI实践真知课》，我们将第一时间为你们带来最新鲜、最前沿的AI趋势解读。

以上内容来自专辑

热点解析28 | ChatGPT迎来重大更新，OpenAI又要放大招了？
785007:15
热点解析27 | 为什么长文本是AI“登月”的第一步？
273505:17
热点解析26 | 苹果开源大模型，或用于下一代iPhone上？
375705:46
热点解析25 | 刘强东AI数字人开启直播，真人主播要被替代了吗？
553306:52
热点解析24 | 特斯拉将发布无人驾驶出租车，你敢坐吗？
373604:39
热点解析23 | 5秒生成爆款音乐，人人都是作曲家的时代来了？
321103:54
热点解析22 | 清明将至，“AI复活”亲人可行吗？
381404:44
热点解析21 | 黄仁勋给AI按下了“快100万倍”的加速键？
396705:01
热点解析20 | 世界首个“ChatGPT机器人”诞生，马斯克要“坐不住”了？
527804:48
热点解析19 | 最强大模型易主，GPT-4地位不保了？
579204:18

主播信息

中国企业家

多年来持续关注企业家阶层的生意与生活。打造最快捷高效的商业资讯交互平台，实现您的商业梦想与精神追求。

2.80万

加关注

轩轩_63u
t33我！039332221吐吐

热点解析27 | 为什么长文本是AI“登月”的第一步？

AI实践真知课｜山姆·奥特曼亲授｜引领全球进化，人工智能生命的重建

中国企业家

画说热点/登月

为什么日本是这样呢？

457本是女娇娥

计划不变：下一步，登月！

索命棺第310章本是什么鬼

热点解析27 | 为什么长文本是AI“登月”的第一步？

AI实践真知课｜山姆·奥特曼亲授｜引领全球进化，人工智能生命的重建

中国企业家

画说热点/登月

为什么日本是这样呢？

457本是女娇娥

计划不变：下一步，登月！

索命棺 第310章 本是什么鬼

索命棺第310章本是什么鬼