当打工人遇见人工智能能实现“准点下班”自由吗?在获得AI大模型能力赋能后,多款语音转写工具给出了肯定的答案。
3月19日,阿里大模型产品“通义听悟”宣布面向AI技术迭代多项新功能,上线音视频问答助手“小悟”。据介绍,此次迭代后,通义听悟已实现单记录、跨记录、多语言自由问,并支持对单个最长6小时、一次性上百条音视频的内容理解问答。
工作会议、业务洽谈、部门讨论等工作场景中,音视频是最常见的生产资料。由于涉及多模态理解、自然语言处理、搜索等多项复杂技术,对打工人来说,承载了密集信息内容的音视频也是查找、回顾、提炼的难点。对此,已有科大讯飞、搜狗、阿里云等科技企业针对这一场景开发智慧语音工具。
如今,在AI技术的赋能下,智慧语音工具已经实现在学习超长音视频后让用户随心提问,甚至帮助用户总结任意知识点。
“对于工作学习AI助手而言,应该让高知识附加值的音视频被轻松阅读、整理和分享。”阿里通义听悟产品负责人杨帆介绍,接入通义千问大模型后,“小悟”可以通过多语言Query处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,实现超长音视频的内容自由问答,还可以在学习音视频后,帮助用户整理金句、梳理结论、写会议纪要等。
同一赛道上,讯飞听见推出了“AI助手”功能,支持智能算法自动分析录音内容,并能帮助用户要点基本都提炼出来了。搜狗输入法也上线了AI录音助手功能,让用户可以由AI实现一对一的“代写”服务。
各头部企业在智能语音转写赛道上加速迭代,追求的是广阔的前景。艾瑞咨询数据显示,国内智能语音市场在过去几年中增长迅速,从2019年市场消费规模约77亿元,至2022年增至159亿元,并有望在2023年增至215亿元。在使用场景差异不大的情况下,加入AI技术就能增加更多的附加值,也就有望获得更大的市场。
从语音识别技术到AI大模型技术,语音转写行业的天花板正在不断被突破。对此,中国社会科学院信息化研究中心主任姜奇平分析称,如今的平台型技术已不是为AI而AI,未来会为各种应用场景搭建技术平台,着眼于应用来开发人工智能。
还没有评论,快来发表第一个评论!