2月22日 微软搞了个UFO!却是用在Windows上的…

2月22日 微软搞了个UFO!却是用在Windows上的…

00:00
05:32

【王煜全 要闻评论】粉丝群已经开通


欢迎加入前哨粉丝群,在这里你可以和科技投资人、创业者、各行业专业人士互动沟通,分享心得体会,也可以第一时间了解到前哨相关活动动态,结交志同道合的小伙伴。


入群方式:
微信扫码下方二维码即可入群


如果您想洽谈合作,请添加创新地图的微信:innovationmap ,并附上简介。


要闻背景简述


2月8日,微软研究团队发布了一篇论文《UFO: A UI-Focused Agent for Windows OS Interaction》,他们为Windows系统开发了第一个智能体UFO(UI-Focused Object)。


基于GPT-4V模型,UFO智能体可以在Outlook、PowerPoint、文件资源管理器和 Adobe Acrobat Reader等多个应用程序中无缝切换,执行复杂任务,比如自动批量删除PPT中的批注等等。


值得注意的是,UFO是个双Agent框架。


用户可以用自然语言提出任务要求,应用智能体(AppAgent)会对需求进行分析,并制定一个全局实现计划,负责选择应用程序;然后再将任务传递给执行智能体(ActAgent),负责在所选应用中反复执行任务。全程无需人工干预,全自动执行。


最近人工智能领域热点不断,但是有一个小新闻可能会被大家忽略,我认为这个小新闻才是真正的未来的发展方向。


是什么呢?就是微软研究团队发了一篇论文,发明了一个新名词叫UFO(UI-Focused Object)。注意不是那个不明飞行物,而是指的人工智能体。


图片


它和以前我们说的智能体AI Agent的区别在哪呢?就是用两个不同的智能体去分别执行任务,从而完成一个统一的任务执行工作。


当我们在调动智能体时,还是像现在的人工智能最时髦的方式,用语音语义直接互动的方式,不需要去学编程,直接用语言去命令。


但是,当你提出命令以后,你可能以为就是人工智能系统或者是电脑去执行命令,其实它背后是两个智能体,一个智能体叫应用智能体(AppAgent),它负责帮你选应用。


比如说你的命令是“我要买张机票”。它会帮你选哪个机票的应用最好,到底是Booking.com还是Expedia更好。


第二个是进入到应用里的执行智能体(ActAgent)。比如选中了Booking.com,那就要到里面去具体执行买机票的任务,甚至要对比价钱,最后完成购买机票的操作,也就是负责操作部分的智能体。


为什么要把这两个分开?很显然两个智能体的专长不同。


所以你会发现,我们很快会进入一个时代,就是表面看是人工智能为你服务,你以为是一个无所不能的人工智能系统,像现在比较热的一个说法叫做通用人工智能,但是我们也强调了通用人工智能十年内不要想来不了。


不过,每个专用的人工智能是越来越专业了,这种时候你如何得到最好的服务?就是把任务拆解开,让每个任务都由那个最擅长干这个任务的智能体来完成,然后综合起来,你就得到了最好的智能服务。


图片

这就是我们强调的人的机器智商。也就是说,以前开发软件靠什么?靠你对软件的整体的设计构思,叫architect设计师。


那未来开发软件靠的是什么?靠任务分解,同时调用最好的智能体来完成各个任务,使得多个智能体综合起来能够完成完整的任务。


未来,学会调度和安排才是真正的好的软件设计师,要知道什么样的智能体擅长干什么活。


综合起来,我们叫做人机结合的异构计算,就是人和机器配合能够使得一个复杂任务都能够被综合执行。


这背后意味着什么?意味着其实给你服务的都是多个智能体,而且各个智能体是要有专业分工的。


有人会说这些智能体从哪来呢?我们知道现在OpenAI推出了GPT Store,就是它有了 GPT商店。GPT Store里面陈列的货品叫GPTs,是一个一个不同的GPT。


注意,你可能以为就像原来的APP Store一样,单独调用各个APP。但是GPT Store很有可能未来是ToB的,是对商家的。为什么呢?因为每个GPT其实是一个专业智能体。


而那个ToC的面向消费者的应用,需要从GPT Store里挑各种AI专家,用一个整合的面貌来为用户提供服务。


所以GPT Store很有可能和APP store是完全不一样的路数。


比如,我们自己比较擅长的是科技产业分析,所以我们也做了一个GPT放到了GPT Store里面,叫做“AI王煜全”。


有些人说我就想做产业分析,所以来听听王煜全的分析。但问题是,我们的科技产业分析可能是一个综合分析里的一部分。


图片


比如说你想了解一个科技企业股票的走势。当然和科技企业的科技含量有关,和它在科技产业里的地位有关,但是也和股市的变化有关,和资本的变化有关,甚至和政治的变化有关,它会受综合因素影响。


但是,如果有人能够善于把所有这些因素分解,科技听王煜全的,政治可能听施展老师的,金融可能听某某经济学家的等等,综合起来可能就能得到更接近真实地分析。


所以未来世界它的精彩在于什么?我们讲人工智能来了以后,它有一个真正本质东西,我们叫做服务规模化。


以前的专家服务都是物以稀为贵的,因为越老资格越有经验的专家,数量是越稀少的,也没法给大多数人提供服务,没法规模化复制。现在,人工智能会使得最优秀的专家都能够规模化复制了。


当然你可以直接问某个专家,但是更重要的是什么?我们都知道在自然界里处理问题的时候往往需要多专家综合。以前一个专家你都请不到,请多个专家帮你解决问题,那想都不要想。


但是未来很可能每个人的顾问、参谋都是一堆AI专家,每个AI专家在自己领域里都是顶尖高手,综合起来为你服务。


所以别小看微软的这篇论文,表面说的是一个很小的事,而且也不是那么专业的事,只不过是选应用和在应用里去执行程序而已。


但是,它其实预示了一个大未来,我们每个人都会进入一个会得到各个领域的专家给我们提供综合服务的“服务规模化时代”。


那对于你来说,如果你有一个如何调动专家为别人提供综合服务的想法,也许就可以开始准备行动了。


以上是今天的内容,更多详细的产业分析和底层逻辑,我会在科技特训营里分享。欢迎关注全球风口微信号,报名加入!


王煜全要闻评论,我们明天见!


图片

回放地址


长按扫描二维码加入科技特训营,可观看所有直播和回放。


图片

以上内容来自专辑
用户评论
  • 莫尔强

    谷歌的可怕在于,它能影响我看什么;微软的可怕在于,它能影响我想什么。ai时代,如果人的认知能力低于ai,那就只能跟范伟一样被ai忽悠着卖拐。