8月15日 人工数据6美元,合成数据6美分!但用它训练的AI却可能退化!

8月15日 人工数据6美元,合成数据6美分!但用它训练的AI却可能退化!

00:00
04:54

【王煜全 要闻评论】粉丝群已经开通


欢迎加入前哨粉丝群,在这里你可以和科技投资人、创业者、各行业专业人士互动沟通,分享心得体会,也可以第一时间了解到前哨相关活动动态,结交志同道合的小伙伴。


入群方式:
微信扫码下方二维码即可入群


如果您想洽谈合作,请添加创新地图的微信:innovationmap ,并附上简介。


你好,我是王煜全,这里是王煜全要闻评论。


随着AI的迅猛发展,时不时会有人站出来说人类的种种缺陷会制约AI发展,刘慈欣说算力会不足,马斯克说电力会短缺,还有人说大模型让数据中心更费水了,现在又有人开始说人类数据不够了。


最近,《金融时报》的一篇报道称,微软、OpenAI和Cohere等公司正准备用合成数据来训练AI,也就是用AI生成的数据反过来训练AI,这样做有什么好处呢?


图片


首先是弥补训练数据不足。以前,OpenAI等公司都是从互联网上抓取现成的信息来训练大模型,包括新闻、博客、Twitter推文、Reddit帖子等等。


但是,如今来自互联网的通用数据已经不足以提升大模型的性能了,也就是说,人类创造的数据已经满足不了AI的胃口了。


但是最前沿的AI模型已经能够在写作、编程等领域接近人类水平,还能通过美国律师考试等基准测试,这意味着AI生成的数据质量提高了,开始有利用价值了。


比如,估值20亿美元的大模型初创公司Cohere就在使用合成数据。为了训练高等数学模型,Cohere让AI扮演两种角色,一个是数学导师,另一个是学生,他们两个讨论三角形相关的数学问题,由一个人类员工监督对话过程,纠正其中的错误,最终将AI生成的结果做成合成数据。


这还只是合成数据的好处之一,更重要的是,合成数据比人工数据更便宜。合成数据服务商Al.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。


互联网平台已经意识到了数据的价值,纷纷抬高了数据抓取的收费,今年3月,推特宣布推出新的API(应用程序接口)定价策略,企业用户最低价为每月4.2万美元,约合人民币30万元,却只能获得5000万条推文,约等于推特全部推文的0.3%。


这还只是普通数据,一些专业领域的数据,需要科学家、医生、工程师等专业人士或者机构来提供,也就更加昂贵。


看起来,合成数据对AI公司来说确实是一种经济实惠的解决方案,所以大受欢迎,OpenAI的CEO Sam Altman说,未来所有数据都将成为合成数据;Cohere的CEO Aidan Gomez认为,合成数据有可能加速超级智能的发展。


实际上,合成数据并不是新生事物,在生成式AI爆火之前就已经广泛应用于自动驾驶领域。2016年,Waymo从现实世界收集了300万英里的驾驶数据,之后生成了25亿英里的模拟驾驶数据,来训练自动驾驶系统,这大大提高了自动驾驶的训练效率。


但是,当合成数据应用于生成式AI时,却会出现一些不容忽视的问题。


图片


斯坦福大学和莱斯大学的科学家发现,将AI生成的内容输入AI模型,似乎会导致AI能力退化,他们的结论是,如果没有人类原创的“新鲜的真实数据”,只用AI生成内容进行训练,就会导致输出质量和多样性逐渐下降,他们把这种现象称为Model Autophagy Disorder,翻译过来是模型自噬障碍,简称MAD,也就是“疯狂”的英文单词。


他们起这个名字更多的是一种隐喻,如果只是简单粗暴的用合成数据训练AI,就可能把AI训练成疯子。


但是,这并不意味着合成数据就没有价值了,只是需要技术调优,利用生成式对抗网络等技术,提升数据质量。不过,这还只是一部分的解决方案,未来,人类的真实数据仍有巨大的挖潜空间。


我在科技特训营中提出,人工智能的训练数据将从文本,扩展为图片、视频等2D数据,甚至3D数据,虽然现在的技术能力还不足以把这些数据都利用起来,却是未来的必然趋势。除了这些泛化的数据,一些专业领域的数据也很有利用价值。所以,并不是人类创造的“新鲜”数据见顶,而是AI公司可以免费抓取的互联网数据见顶了。


换句话说,就是数据领域的低垂果实基本被摘完了,平台接口费用的上升,以及专业数据的成本问题,导致AI公司倾向于利用更便宜的合成数据。


对于大模型基础平台公司来说,数据的数量可能比质量重要,因为他们训练的是全知全能的“通用型”AI。


但是,对AI创业者来说,我们一直强调要从应用需求切入,利用专家级数据,不断打磨AI的专业素质与能力,复制顶级专家经验,打造出高端化、个性化、持续化、普惠化的AI服务,所以,最关键不是盲目跟风使用合成数据,而是学会数据掘金,挖掘高质量数据,发挥数据的最大价值。


图片


以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!


另外,2024年CES展在明年的1月9日~12日举行,我们还会组织“CES前哨创新考察”活动,我和万维钢老师、一苒老师带队,为大家带来最前沿的科技产业洞察 ,欢迎感兴趣的朋友扫描下方二维码报名。


明年1月的拉斯维加斯,咱们一起同行!


王煜全要闻评论,我们明天见!


                                                     【CES前哨创新考察

                                                长按图片识别二维码报名加入。

图片




以上内容来自专辑
用户评论
  • 思考者Slider

    合成数据,暂必须经过人工审核才行,否则质量灾难!

  • 夕死可也

    这不是扯蛋吗?合成不会有新的信息,全是线性相关的

  • 和光同尘2015

    问个问题 AI 是种族主义还是道可道?