Daily-AI | 11.18 | OpenAI、谷歌、Anthropic新模型遇瓶颈

Daily-AI | 11.18 | OpenAI、谷歌、Anthropic新模型遇瓶颈

00:00
11:55

0:00 ‘AI奶奶’很乐意与电话诈骗者聊天一整天

1:16 AI视频大模型Vidu 1.5发布:首发“多主体一致性”,能理解记忆上下文

2:29 OpenAI憋新大招:将推AI Agent,会操控电脑

3:38 OpenAI、谷歌、Anthropic新模型遇瓶颈:缺数据、成本高、性能不及预期

4:56 杨植麟发布Kimi新模型:数学对标o1,中考高考考研成绩全第一

6:08 国家级法律 AI 基座模型发布:可大大降低公共法律服务门槛

6:50 SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了

8:17 月之暗面发布 k0-math 数学推理模型,能力对标 OpenAI o1

9:13 Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败

10:41 超 12000 公里,国产腔镜手术机器人完成远程手术、加速出海

文字版

#英国最大移动网络运营商O2于周四推出一款名为”dAIsy”的反诈骗AI聊天机器人。该机器人被设计成一位喜欢聊天的老年女性形象,会与诈骗者谈论编织和她的猫咪Fluffy等话题,目的是通过无休止的对话耗费诈骗者的时间。这个”AI奶奶”采用了多重AI技术,包括语音转文字、定制大语言模型和语音合成系统。项目开发过程中得到了著名YouTube反诈专家Jim Browning的支持。此举旨在应对日益严重的老年人电话诈骗问题,据FBI报告显示,2023年60岁以上人群因电话诈骗损失达34亿美元,较2022年增长3亿美元。随着生成式AI技术特别是语音模仿技术的发展,这一问题可能进一步恶化。

#国内视频大模型创企生数科技发布Vidu 1.5新版本,首次实现"多主体一致性"功能。用户只需上传1-3张参考图,即可精确控制单一主体,实现多主体交互及场景融合。Vidu 1.5还展现出上下文学习能力。

新版本在三方面取得技术突破:一是复杂主体的精准控制,确保细节丰富的角色在不同视角下保持一致;二是人物面部特征和动态表情的自然一致;三是多主体一致性,支持多个自定义角色在指定空间内交互。

Vidu 1.5无需专门的数据采集、标注和训练,可直接生成高一致性视频。这一突破源于基础模型能力的全面提升,使Vidu在处理复杂任务时更加高效。

Vidu 1.5的设计理念与大语言模型相似,统一了问题形式和架构,通过视频数据压缩获取智能。随着上下文长度的扩展,模型能够通过视觉上下文完成更多新任务的直接生成。

#OpenAI正在开发一款名为"Operator"的AI Agent,计划于明年1月发布。这款工具能够自动执行复杂任务,如编写代码和预订旅行,并将面向开发者提供API接口。OpenAI还在进行多个Agent相关研究项目,其中最接近完成的是一款可在Web浏览器中执行任务的通用工具。

与此同时,其他科技巨头也在积极布局AI Agent领域。美国AI大模型独角兽Anthropic推出了一款能直接控制用户计算机上多个应用程序的AI Agent。微软宣布将为其Dynamics 365系列业务应用推出10个新的AI Agent,涵盖销售、客户支持和会计等领域。谷歌正在研发名为"Jarvis"的AI Agent,可接管用户的网络浏览器,自动执行各种任务。

随着大语言模型发展进入瓶颈期,AI Agent成为各大公司寻求技术突破的新方向。

#OpenAI、谷歌和Anthropic等AI巨头在开发新一代大语言模型时遇到瓶颈。OpenAI的Orion模型在编码任务上未能超越GPT4,谷歌的Gemini模型也未实现重大突破,Anthropic的Claude 3.5 Opus模型因技术难题推迟发布。这些公司面临高质量数据短缺、成本高昂等挑战,单纯依靠扩大规模已难以带来预期的性能提升。

数据和算力成为主要瓶颈。随着公开数据被大量消耗,AI公司不得不寻求更专业、高质量的数据源,甚至招聘研究生级人才进行数据标注。同时,模型训练成本飙升,Anthropic预计未来几年可能花费1000亿美元用于模型训练。

面对这些挑战,AI公司开始权衡是继续改进现有模型,还是投入更多资源开发下一代模型。OpenAI CEO萨姆·阿尔特曼表示,未来突破可能不在于模型规模扩展,而是开发新的应用场景,如能代表用户完成日常任务的AI Agent。

#月之暗面创始人杨植麟发布了新的数学模型k0-math,对标OpenAI的o1系列。在MATH、中考、高考、考研四个数学基准测试中,k0-math成绩均超过o1-mini和o1-preview。该模型特点是深入思考,解题过程可能很长,会不断尝试各种思路。杨植麟表示,简单问题模型也会反复思考,未来迭代将改善这一问题。

Kimi探索版(月之暗面旗下AI助手)运用强化学习技术提升了意图增强、信源分析和链式思考三大推理能力。k0-math和升级版Kimi探索版将在未来几周陆续上线Kimi网页版和APP。

杨植麟认为,AI发展如同荡秋千,在算力和算法、数据之间平衡。他表示,强化学习是重要趋势,可改变学习方式使模型持续提升。对于多模态发展,杨植麟认为思考能力决定模型上限,而交互能力如视觉是必要条件。

#最高人民法院今日发布了名为"法信基座大模型"的国家级法律人工智能基础设施。这一基座大模型经过海量、权威、高质量法律大数据的训练,具备强大的法律语言理解、信息抽取、逻辑推理和文本生成能力。它能理解公众的非专业化诉求表述,并提供专业水平的回答,为公众提供和解、调解、应诉等建议,大大降低了公共法律服务的门槛。此外,该模型还能辅助法官快速分析比对电子卷宗,提高立案审查和阅卷效率。

#哈佛大学、宾夕法尼亚州立大学和亚马逊的研究团队最近发现,对经过"反学习"处理的大型语言模型进行量化操作,可能会导致模型重新"记起"被删除的信息。这项研究引发了人工智能领域的热议。

研究人员测试了六种主流的反学习方法,发现在4-bit量化后,原本被"遗忘"的知识有高达83%被恢复。这意味着通过简单的量化操作,大部分被删除的敏感信息可能重新被模型获取。

造成这一现象的原因是,现有反学习方法为保持模型整体性能,通常采用较小的学习率和效用约束,导致模型权重变化很小。在量化过程中,原模型和遗忘后模型的权重容易被映射到相同的离散值,使被遗忘的知识重新显现。

为解决这一问题,研究团队提出了名为SURE的新框架。该方法通过构建模块级显著性图来指导遗忘过程,选择性地对与遗忘数据最相关的组件使用较大的学习率,同时最小化对其它功能的影响。实验结果表明,SURE策略能有效防止量化后遗忘知识的恢复,同时保持模型的整体性能。

#月之暗面旗下的人工智能助手Kimi推出了新一代数学推理模型k0-math。基准测试显示,该模型的数学能力可与OpenAI的o1-mini和o1-preview相媲美。在中考、高考、考研及入门竞赛题等4个数学基准测试中,k0-math的成绩超过了这两个OpenAI模型。在更具挑战性的竞赛级数学题库OMNI-MATH和AIME测试中,k0-math的表现分别达到了o1-mini最高成绩的90%和83%。

月之暗面创始人杨植麟表示,数学场景是锻炼AI思考能力的最佳选择。他透露,k0-math模型和更强大的Kimi探索版将在未来几周内陆续在Kimi网页版和App端上线。

#近日,《自然》杂志发表一项研究,驳斥了大语言模型(LLM)具有类人推理能力的说法。研究者设计了一个"人类亲吻难题",对包括GPT4、Llama2、Gemini和Bard在内的7个先进LLM进行测试。结果显示,所有模型在回答简单理解性问题时都表现不佳,准确率仅处于随机水平,且答案缺乏一致性。

研究者提出了诸如"约翰欺骗了玛丽,露西也被玛丽欺骗了。在这种情况下,玛丽是否欺骗了露西?"等问题。与400名人类参与者相比,LLM的表现明显逊色。即使是表现最好的GPT4,也比人类参与者差得多。

研究者认为,LLM缺乏对语言的真正理解,它们生成的词语如同语义"黑箱",只是近似于语言的表面统计和解析过程中较"自动化"的部分。相比之下,人类拥有不变的组合操作器,用于调节语法和语义信息,因此在这方面明显不易出错。

这项研究表明,LLM在许多任务中的表现并不能与人类相匹配。研究者强调,LLM更像是工具而非科学理论,类似于广义导数。

#国产腔镜手术机器人"图迈"完成了一项跨越12000公里的远程手术。11月16日,法国尼斯大学医院的泌尿外科医生在上海浦东的微创机器人总部,为一名摩洛哥患者成功实施了前列腺癌根治术。图迈是国内首个获得NMPA批准上市的四臂腔镜手术机器人,今年5月获得欧盟CE认证。该系统具备裸眼3D高清视野和高自由度机械仿真手腕,为医生提供真实的手术体验。

微创机器人集团总裁何超博士表示,这次手术仅使用普通网络即可完成,无需特殊的5G网络支持。虽然欧美也有类似功能的手术机器人,但成本远高于图迈。目前,这款国产手术机器人已进入欧美高端市场,占据北非市场,并在南美、中东、东南亚和俄语区实现商业化。



以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!