7月23日 这都不会!9.11比9.9大?大模型居然犯错!还敢用吗?

7月23日 这都不会!9.11比9.9大?大模型居然犯错!还敢用吗?

00:00
05:04

【王煜全 要闻评论】粉丝群已经开通

欢迎加入前哨粉丝群,在这里你可以和科技投资人、创业者、各行业专业人士互动沟通,分享心得体会,也可以第一时间了解到前哨相关活动动态,结交志同道合的小伙伴。


入群方式:
微信扫码下方二维码即可入群


如果您想洽谈合作,请添加创新地图的微信:innovationmap ,并附上简介。


你好,我是王煜全,这里是王煜全要闻评论。


人工智能大模型,作为本轮科技革命的通用技术,被认为是这个时代的蒸汽机。但是,最近一道小学难度的数学题,却让各路大模型纷纷“栽了跟头”。


“9.11和9.9,哪个数字更大?”, GPT-4o、谷歌的Gemini、Claude 3.5居然全都给出了错误的答案,认为9.11更大。国内的一些大模型,如Kimi,哪怕给它多次的机会,仍然毫不犹豫地犯错。但是,文心一言、字节豆包、腾讯元宝、通义千问等国内模型却成功答对。


图片


这一常识性错误,最早是硅谷独角兽Scale AI的高级提示工程师Riley Goodside,在日常使用GPT-4o时偶然发现的。据推测,由于大模型以token方式解析文本,会将9.11拆分为“9”、“小数点”和“11”,11大于9,所以导致了错误。也有人说,书籍目录、软件版本号的数字排序习惯,也可能在训练数据中悄悄地影响了AI的判断,因为9.11版肯定比9.9版更新。


有人还分享了,当数字换为13.11与13.8时,GPT-4o同样坚持前者更大。有趣的是,这对数字源于综艺节目《歌手》,孙楠与香缇莫的得票率分别为13.8%和13.11%,因此孙楠获胜。但是居然有网友不服,认为13.11大于13.8,进而将13.8和13.11的大小比较推上了热搜。


图片

这不禁让人怀疑,难道是AI被网友们误导了吗?毕竟大模型主要依赖互联网文本数据进行训练,充斥着各种错误,而且解决数学问题的资料本就相对匮乏,数学能力也就较弱。


所以,AI显然不是无所不能。现阶段的AI虽有智能,但缺乏理性。大模型的“智能”,本质上是对海量语料库进行模式识别,预测下一个词或token。它擅长的是文本生成和知识问答,但并不真正理解数学和物理背后的原理,也就无法进行精确的数学运算和逻辑推理。今年高考期间,大模型在数学科目上的集体“不及格”,也印证了这一点。


但是,在未来,逻辑推理能力无疑将是AI应用的重要基石。目前,大模型主要用于资料分析、内容生成等工作。但是,血压值的细微差别能左右治疗方案,金融投资也是基于精确且复杂的财务分析。因此在医疗、金融等领域,AI当前的推理能力,恐怕难以赢得人们的完全信任。


图片


不过,这也不是很难解决的问题。


比如通过引入RAG技术(Retrieval-Augmented Generation),整合外部知识库,就可以提升大模型在特定任务中的表现,生成更加精准、详尽的答案,减少生成错误或“幻觉”现象的发生。


此外,还可以构建AI Agent智能体。明确应用场景,基于AI的局限,设计合理的工作流程,引导AI调用外部工具来完成任务。比如让AI智能体调用Python等外部工具来解决数学问题,而大模型则负责解释问题、验证结果,或者提供解题思路,二者相辅相成,共同完成任务。


AI小课的主讲人Tina老师,在为孩子定制暑假英语学习计划时,为了增加趣味性,她尝试用ChatGPT随机排列词汇的学习顺序以增加趣味性,就发现ChatGPT在进行数字排列时频频出错,计划表中不停出现重复的页码。于是她让ChatGPT编写了一段简单的Python代码,来生成随机页码,再结合ChatGPT,几秒钟内就生成了一个完美的随机学习计划,问题迎刃而解。


我们强调,大模型不应被神化、也不应被矮化,了解AI的能力边界,也就是它擅长什么、不擅长什么,至关重要。


在未来很长一段时间内,AI更多是用于职业增强,而不是职业替代。合理安排人与AI的协作模式,是提升整体工作效率的关键。人类依靠鉴别力和鉴赏力,负责监督AI的工作,确保输出结果的准确性和可靠性;而AI则作为人类的得力助手,完成各种繁重且重复的任务。


面对这样的未来,提高人的机器智商非常关键。在这插播一个小广告,如果你想尽快的与AI协作,推荐去听一听Tina的AI小课,手把手教你掌握先进的AI工具。


AI会出错,不等于能力不行,事实恰恰相反,在多数特定领域内,大模型都能给出令人信服的最优答案,甚至在训练量足够之后,会超越人类专家的水平。


每个领域都有其独特的知识体系和规则,现阶段这几家知名的大模型基于人类互联网全网的公开知识做的训练,在公开知识不充分的特定领域就会出现偏差和错误。但是,只要在某一领域经过长期的专有数据的投喂和训练,大模型往往都能够给出比人类专家更精准、更高效的解决方案,我们称其为“领域智能”,这也就为AI在专业领域的落地应用提供了基础。


我经常强调,AI是这个时代的坦克,我们要做的是打出闪电战,所以必须理解AI的能力边界,特别是要能预判能力边界的变化趋势。


科技特训营已系统剖析过这一问题,并总结出了一套行之有效的方法论。如果你感兴趣,欢迎加入科技特训营,前来学习探讨,先人一步、看清未来。


以上就是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享,欢迎关注全球风口微信号,报名加入。

最后做个小广告,创新地图北京办公室正在招聘产业分析师,如果你感兴趣欢迎点击全球风口文章(招聘|欢迎加入创新地图),联系我们,如果你觉得有朋友合适,也可以将招聘文章转发给他,多谢!


王煜全要闻评论,我们明天见。


图片

回放地址


长按扫描二维码加入科技特训营,可观看所有直播和回放。


图片

以上内容来自专辑
用户评论
  • 熱気球_an

    我们不是都学过小学数学的吗?