新经济观察 | 让你早两小时下班的秘密藏在被AI赋能的语音转写赛道里

00:00

03:21

当打工人遇见人工智能能实现“准点下班”自由吗？在获得AI大模型能力赋能后，多款语音转写工具给出了肯定的答案。

3月19日，阿里大模型产品“通义听悟”宣布面向AI技术迭代多项新功能，上线音视频问答助手“小悟”。据介绍，此次迭代后，通义听悟已实现单记录、跨记录、多语言自由问，并支持对单个最长6小时、一次性上百条音视频的内容理解问答。

工作会议、业务洽谈、部门讨论等工作场景中，音视频是最常见的生产资料。由于涉及多模态理解、自然语言处理、搜索等多项复杂技术，对打工人来说，承载了密集信息内容的音视频也是查找、回顾、提炼的难点。对此，已有科大讯飞、搜狗、阿里云等科技企业针对这一场景开发智慧语音工具。

如今，在AI技术的赋能下，智慧语音工具已经实现在学习超长音视频后让用户随心提问，甚至帮助用户总结任意知识点。

“对于工作学习AI助手而言，应该让高知识附加值的音视频被轻松阅读、整理和分享。”阿里通义听悟产品负责人杨帆介绍，接入通义千问大模型后，“小悟”可以通过多语言Query处理、长篇章文本理解、指令演化框架优化及检索增强生成算法，实现超长音视频的内容自由问答，还可以在学习音视频后，帮助用户整理金句、梳理结论、写会议纪要等。

同一赛道上，讯飞听见推出了“AI助手”功能，支持智能算法自动分析录音内容，并能帮助用户要点基本都提炼出来了。搜狗输入法也上线了AI录音助手功能，让用户可以由AI实现一对一的“代写”服务。

各头部企业在智能语音转写赛道上加速迭代，追求的是广阔的前景。艾瑞咨询数据显示，国内智能语音市场在过去几年中增长迅速，从2019年市场消费规模约77亿元，至2022年增至159亿元，并有望在2023年增至215亿元。在使用场景差异不大的情况下，加入AI技术就能增加更多的附加值，也就有望获得更大的市场。

从语音识别技术到AI大模型技术，语音转写行业的天花板正在不断被突破。对此，中国社会科学院信息化研究中心主任姜奇平分析称，如今的平台型技术已不是为AI而AI，未来会为各种应用场景搭建技术平台，着眼于应用来开发人工智能。

以上内容来自专辑

主播信息

封面新闻

封面新闻，亿万年轻人的生活方式。

142.95万

加关注

还没有评论，快来发表第一个评论！

新经济观察 | 让你早两小时下班的秘密藏在被AI赋能的语音转写赛道里

封面新闻|鲜快报

封面新闻

217 藏在年轮里的秘密 -3（下）【藏在年轮里的秘密】

216 藏在年轮里的秘密 -3（上）【藏在年轮里的秘密】

《小糊涂神藏在学校里的秘密》秘密日记第04集我小时候比你强多了

高交会观察：科技企业抢跑低空经济“新赛道”

怎么ai爆文转写年入100万

新经济观察 | 让你早两小时下班的秘密 藏在被AI赋能的语音转写赛道里

封面新闻|鲜快报

封面新闻

217 藏在年轮里的秘密 -3（下）【藏在年轮里的秘密】

216 藏在年轮里的秘密 -3（上）【藏在年轮里的秘密】

《小糊涂神藏在学校里的秘密》秘密日记 第04集 我小时候比你强多了

高交会观察：科技企业抢跑低空经济“新赛道”

怎么ai爆文转写年入100万

新经济观察 | 让你早两小时下班的秘密藏在被AI赋能的语音转写赛道里

《小糊涂神藏在学校里的秘密》秘密日记第04集我小时候比你强多了