7月3日至7月10日,新京报贝壳财经年会在北京、深圳及香港举行。在年会的“‘通’往未来,向新有AI”论坛上,新京报贝壳财经发布了行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》,该报告收集了80名媒体行业人士对9款国内主流大模型产品在5个维度上表现的打分,共涉及18道测试题,162个大模型生成结果。
以0分为最低分,10分为最高分计分,大模型在翻译、事实核查、检索热点信息、生成新闻稿件四个维度上的表现均在6分以上,其中翻译能力以6.42分得分最高,文本生成能力拿到6.08分刚到“及格线”,得分最低的是长文本能力,仅有4.65分,说明大模型的长文本能力目前还难以满足媒体工作者的日常需求。
为何长文本能力无法满足记者日常需求?为何生成新闻稿能力刚到“及格线”?目前大模型又能够帮助媒体工作者做什么?下面,新京报贝壳财经记者将以具体大模型的实际生成案例进行说明。
长文本总结痛点:两份年报不支持同时上传 百小应、Kimi等无法“读全”
《报告》测评了文心一言、通义千问、腾讯元宝、讯飞星火、豆包、百小应、智谱清言、Kimi、天工AI共计9款市面上主流的大模型产品,测试时间为6月中旬,测试人员以同一个问题输入上述大模型的手机APP或官方网页版,并以首次生成的内容为准,得出了上述结果。
对于长文本能力,贝壳财经记者共出了5道题目,其中前3道题考察的是大模型的总结能力,如“最难”的题目2为记者向大模型上传中国联通和中国移动的2023年财务报告,然后要求大模型 “对比中国联通与中国移动2023年财报中总收入、净利润、毛利率等重点财务指标,两家公司谁更具成长性”。总结并对比财报正是财经记者所需要具备的能力之一。
记者在该题目的实操过程中遇到了不同程度的问题,如对于同时对比两份文档内容的需求,通义千问、Kimi等可支持同时上传两份文档后再输入要求,但许多大模型只支持“一份一份”上传文档,上传一份后,大模型即开始自动总结其中内容,记者只能等上传一份文档大模型总结完内容后,再上传另一份文档,然后依靠大模型的记忆能力再提出“对比财报”的要求,颇为麻烦。
记者用于测试的中国联通与中国移动的2023年财报共计758.2万字节,大小为7.23MB。当记者试图上传这两份文件时,百小应显示“总内容已超过对话内容长度1171%,请删除部分条件”,智谱清言显示“内容已超过对话长度17.52%,请删除部分文件”,Kimi则提示“kimi只能阅读全部文件的51%,请删减后发送”,这也导致这三家大模型无法胜任媒体记者对比财报的这一需求。
而对于生成了对比内容的大模型,贝壳财经记者发现大部分大模型确实对比出了中国联通和中国移动在总收入、净利润等重点财务指标上数据的异同,但由于财报数据较为复杂,收入也有营业收入、总收入等多项指标,不同大模型对于指标的选取结果也不同,说明采用大模型进行财报对比虽然可行,但其生成的结果仍然需要人为再度核对。
文档搜索能力考验:智谱清言只支持PDF格式 检索数字顺序几乎“全军覆没”
而另外两道题目考察的则是大模型对长文本文档的检索能力,题目之一为记者向大模型上传全本word格式的《射雕英雄传》文档,并向大模型提问“阅读这篇文档,然后回答,新京报贝壳财经科技组一共有几个人?”
对于该题目,通义千问、腾讯元宝、讯飞星火、豆包均回答正确。如讯飞星火回答“根据提供的文档内容,新京报贝壳财经科技组一共有七个人。这一信息直接从文档中获取,无需进行额外推理或分析。”
除了4个回答正确的大模型外,文心一言的回答为“经过仔细搜索,文档中并未找到与新京报贝壳财经科技组人数相关的信息。建议您尝试其他途径来获取这一信息,比如直接联系新京报贝壳财经或参考其官方网站等。”天工AI的回答为“很抱歉,根据提供的文档片段,我们无法得知新京报贝壳财经科技组的具体人员数量。文档中没有包含关于这个团队人数的信息。如果您需要了解这方面的详情,可能需要查阅其他来源或直接查找相关的官方信息。”
另外,还有3个大模型因格式不同或字数过多等未给出正确结果,百小应的回答为“总内容已超过对话可支持长度 2127%,请删除部分文件。”智谱清言则显示“只支持PDF文档测试”,当测试人员把文档转换成PDF文档后上传,则提示“内容已超过对话长度501.84%,请删减部分文件。”Kimi则提示文档超出字数限制,Kimi只阅读了前15%,然后显示:根据您提供的文档内容,文档中并没有提及“新京报贝壳财经科技组”或相关团队的具体人数。因此,无法直接回答新京报贝壳财经科技组一共有几个人。如果需要了解这个信息,可能需要查询其他资料或官方发布的信息。
相比上面的两份财报,记者上传的《射雕英雄传》文档容量要更小,为1.34MB,包含140.81万字节,总共88万字。
而题目之二是,记者在一篇Word文档里按顺序输入了1-999,并故意将其中的“739”和“740”两个数字的顺序颠倒了位置,最后将该文档上传至大模型后提问“找出这个文档里两个顺序不同的数字”。对于这一题目,通义千问虽然找出了“739”和“740”的不同,但错误地认为“902”和“903”顺序颠倒了。而其他大模型甚至不如通义千问,一律没有找到“739”和“740”,因此在这一题目上,9个大模型几乎“全军覆没”。
翻译能力已经可用 联网检索显现潜力
贝壳财经记者注意到,对于相对较小的文本,大模型依然能够胜任总结的任务,如记者上传《西游记》前十回内容并让大模型总结,9个大模型的表现均可圈可点,不过对于日常媒体记者的工作,要求总结较为复杂的文本,大模型能否胜任,依然需要经受考验。
根据《报告》,除了长文本能力之外,大模型在翻译、事实核查、检索热点信息、生成媒体相关文本四个维度上的表现均在及格线之上,其中除文本生成相比真人仍有不足外,另外三项能力均可成为媒体工作者们的好“帮手”。
其中,翻译能力得分最高,对于翻译维度的3道题目,9款大模型均生成了基本没有误差的翻译结果,大模型的翻译能力已经能够帮助到媒体工作者的日常工作,如对文本素材进行中英互译、向国外的采访对象写英文邀请函等。
而在大模型接入互联网,具备“实时搜索”能力后,媒体工作者对于日常新闻热点的检索,大模型也能代为完成,如在媒体信息检索能力测试中,记者要求大模型总结“胖猫事件”,9个大模型均给出了明确回答,且大部分回答都把此事件多次“反转”发酵的过程进行了详细描述,其中Kimi不仅分段总结了该事件进展,还编写了小标题加以区分,如“事件概述”“事件发酵”“舆论反应”“警方介入”“舆论态势分析”“舆情启示”等。
从这一点可以看出,对于某热点事件,大模型之后或可成为搜索引擎的替代品之一,当然仍需小心其可能产生的“幻觉”,如在正式测试开始之前尚未统一问题的试测环节,Kimi和讯飞星火曾生成过错误的答案,将“胖猫事件”描述成了“一只很胖的猫”,但此后正式测试时该问题未再出现。
另外,在事实核查与价值观判断维度,9款大模型全数通过,没有任何违背主流价值观的回答生成,并会对谣言和诱导性问题予以纠正或回避。
最后,在文本生成方面,记者尝试让大模型写新闻稿、评论稿、采访提纲、视频直播脚本等媒体从业者日常能够用到的各类文本,9个大模型均能按要求生成内容,不过平均得分为6.08,刚超过“及格线”。
例如,记者让其以大模型厂家“价格战”为背景,写一篇行业分析类稿件,大部分大模型可以按要求写出价格战的背景、原因,以及对行业的机遇、挑战等,但生成的内容段落分明、行文呆板,与人类记者相比仍然有明显差距。
总的来看,根据《报告》,大模型在媒体行业所需的文本生成能力上与真人仍有差距,长文本能力仍需加强,但生成内容符合主流价值观,在翻译能力上对媒体从业者的辅助作用令人满意,在实时搜索方面具备强大潜力。
记者联系邮箱:luoyidan@xjbnews.com
还没有评论,快来发表第一个评论!