0:00 一张显卡“看懂”一部电影:智源联合高校开源 Video-XL,打破长视频理解极限
1:37 Perplexity AI 搜索引擎每周处理 1 亿次查询,消息称微软 / X / OpenAI 有意收购
2:28 Claude团队喜提清华物理学霸姚顺宇!两个Yao Shunyu都投身大模型了
3:36 xAI为Grok增加图像理解能力
5:01 OpenAI-o1思考替代法火了!焦剑涛高徒一作提出思考偏好优化,不限于推理任务
6:22 30000+医生使用的AI工具,翻车了
7:41 Meta发布了一个‘开放’版本的Google播客生成器
8:34 因使用生成式 AI 制作恶意软件,日本一 25 岁男子首次被判有罪
文字版
#智源研究院联合多所高校推出了超长视频理解大模型Video-XL,该模型突破了现有AI系统在处理长视频时的性能瓶颈。Video-XL仅需一块80G显存的显卡就能处理长达数小时的视频内容,并在视频内容检索任务中达到接近95%的准确率。
这一突破得益于Video-XL创新性地利用语言模型对视觉序列进行压缩处理。与同类产品相比,Video-XL保留了短视频理解能力,并在多个主流长视频理解测试中名列前茅,能够准确理解电影情节发展、检测视频异常内容,以及识别广告植入等。
在与OpenAI旗下GPT4V等大模型的对比测试中,即便只有7B参数规模,Video-XL在某些任务上取得了超越性能。目前该模型已经开源,这将有助于推动全球视频理解技术的发展。
智源研究院是中国领先的人工智能研究机构,专注于AI基础研究和应用创新,而GPT4V是OpenAI开发的多模态大语言模型,能够理解和处理图像、视频等多种形式的信息。
#AI搜索引擎新秀Perplexity最新数据显示,其每周查询量已突破1亿次,月度查询量达到4亿次,较今年7月的2.5亿次实现显著增长。Perplexity成立于2022年,专注于基于自然语言处理技术的对话式搜索服务,无需依赖传统的广告驱动模式。
近期,Perplexity宣布正在拓展电商功能,计划为其付费订阅服务“Perplexity Pro”用户提供一键下单服务。同时,社交平台X(原推特)、协作工具Notion、人工智能公司OpenAI等均开出了1.5亿至2亿美元的收购要约,科技巨头微软也表达了收购意向。
#清华物理系特奖得主姚顺宇正式加入Anthropic公司的Claude团队。姚顺宇在本科期间在凝聚态物理领域取得了突破性进展,首次提出非厄米系统的拓扑能带理论,并在顶级期刊《Physical Review Letters》上发表多篇论文。之后,他在斯坦福大学攻读博士,并在加州伯克利进行博士后研究。
另一位同名的姚顺雨(拼音相同但写法不同)今年也加入了OpenAI。这位姚顺雨来自清华姚班,是“思维树”等AI研究成果的作者。
Anthropic是开发Claude大语言模型的AI公司,其创始人Dario Amodei表示,公司特别青睐物理背景的人才,因为“物理学家学习新知识的速度很快”。目前该公司约有30-40名物理学家。诺贝尔物理奖评委会也在今年特别提到,物理学为机器学习发展提供了工具,而机器学习也反过来促进了物理研究的进步。
#Elon Musk拥有的xAI公司为其Grok AI模型新增了图像理解功能,使得X社交平台的付费用户可以上传图片并向AI聊天机器人提出相关问题。xAI员工和Grok官方账号在X上宣布了这一更新。Musk在另一篇帖子中提到,Grok甚至可以通过新的图像理解功能解释笑话的含义,并指出该功能尚处于早期阶段,将逐步改进。此前,xAI已于八月发布了Grok-2模型,并为X的付费用户提供了聊天机器人形式的服务,该聊天机器人还通过Black Forest Labs的FLUX.1模型获得了图像生成能力。xAI表示,将推出多模态理解作为Grok在X平台和开发者API中的体验一部分。Musk还透露,Grok未来可能理解文档,并称“我们几个月内将完成其他人几年的工作”。X平台一直在尝试为AI聊天机器人和付费用户层级增加更多功能,以提高吸引力。本月早些时候,X推出了名为Radar的新工具,供Premium+订阅者观察实时趋势并提供对话洞察。
#加州大学伯克利分校的博士生吴天昊团队提出了一种名为“思考偏好优化”的新方法,使大语言模型能够像人类一样进行深度思考后再给出答案。这一方法被视为OpenAI的思考法替代方案。
该方法通过两种思考提示模板,引导模型在回答问题前先进行内部思考。系统会让模型生成多个包含思考过程和答案的版本,再通过评判模型对答案打分,最终只向用户展示最优答案,隐藏思考过程。整个训练过程无需额外的人工标注数据。
研究团队基于Llama 3 8B Instruct模型进行测试,采用该方法后的模型在AlpacaEval等权威评测基准上性能提升了约4%。这种思考方法适用于推理和数学等传统需要思考的任务,同时在营销、健康等日常问答场景中也表现出色。
该研究得到了《Python机器学习》作者Sebastian Raschka等业内专家的推荐。吴天昊的导师为2011年清华特奖得主焦剑涛教授,主要研究如何通过强化学习提升大语言模型的推理能力。
#OpenAI旗下的开源AI语音转文字工具Whisper被曝出存在严重缺陷。根据美联社的报道,该工具在转录和翻译时频繁捏造内容,包括种族评论、暴力言论,甚至虚构医生与患者之间的对话。
研究显示,在每10个音频转录中,有8个出现了“幻觉”问题。在分析的13000多个清晰音频样本中,有187个案例涉及内容捏造,其中近40%被认为具有潜在危害性。
Whisper已被全球数千家公司广泛采用,最近在HuggingFace平台的下载量超过420万次。在医疗领域,超过30000名临床医生和40个医疗系统正在使用基于Whisper的转录工具,约700万次就诊记录采用了该技术。
尽管OpenAI已警告不要在“决策环境”中使用Whisper,但该工具在医疗等高风险领域的应用依然普遍。专家指出,患者与医生的对话具有私密性,错误转录可能导致严重后果。OpenAI表示正在研究如何减少幻觉问题,并计划在模型更新中纳入相关反馈。
#Meta公司近日发布了一个名为NotebookLlama的新项目,该项目模仿了Google的NotebookLM功能,使用Meta自家的Llama模型来处理文本文件,并生成类似播客摘要的内容。NotebookLlama首先将文件(如新闻文章或博客帖子的PDF)转录成文本,然后增加戏剧化效果和中断,再通过开放的文本转语音模型生成播客。尽管NotebookLlama的语音质量目前不如NotebookLM自然,带有明显机械感,但Meta的研究人员表示,通过使用更强大的模型,其语音质量有望得到提升。此外,AI生成的播客内容存在“幻觉问题”,即内容中可能包含虚构信息,这是所有AI领域共同面临的挑战。
#日本东京地方法院近日判决一起利用生成式AI制作恶意软件的案件。一名25岁的林姓男子因使用非官方版ChatGPT制作勒索病毒软件,被判处三年有期徒刑,缓期执行四年。
据法庭透露,该男子于去年3月在川崎市住所内,通过生成式AI获取病毒源代码,制作了一款能够加密文件并索要比特币的勒索软件。尽管他并无IT专业背景,但仅花费一个月时间便完成了病毒程序的开发。在庭审中,他承认若没有AI的帮助,自己根本无法完成这样的编程工作。
三井物产Secure Directions公司的高级恶意软件分析师吉川孝志指出,尽管生成式AI设有安全限制,但网络上已经出现了多种规避这些限制的方法。这起案件显示,即便是技术门外汉,也可能通过AI工具获取并制作恶意程序。
还没有评论,快来发表第一个评论!