“做通义听悟的初心不是做宣传做引流,或者造一波声势,而是希望借助技术能力能让AI产生真实的价值,通过更多的AI助手,真正帮助工作生活等日常的方方面面。”阿里云CTO周靖人在近日的阿里云峰会上对搜狐科技等媒体表示。


(资料图片)

周靖人认为,大模型将带来新的机会,各种APP、业务场景及业务系统都可以基于大模型重新做,而通义听悟就是一款大模型应用,可以真正把大模型的能力变成工作学习的AI助手

至于为什么要选择音视频赛道做这款产品,通义听悟技术负责人鄢志杰解释称,通义听悟的前身是听悟,此前主要做语音记录等,只是一款工具。“当我们第一次看到大模型能够提取摘要能力的时候,觉得这就是game-changer,它在客观指标和主观体验上都带来明显的提升。”

因此鄢志杰认为,当大模型的能力跟工具相结合以后,很有可能它已经不再是工具,而是变成了智能助手,不仅是帮助用户,还可能提供建议来激发、启发用户。

据介绍,通义听悟是一款聚焦在音视频领域的产品,能够帮助用户高效完成对音视频内容的转写、翻译、检索、摘要和整理,适用于开会、上课、访谈、培训、面试、直播、看视频、听播客等场景,已自6月1日起开启公测

搜狐科技实测显示,通义听悟的音频转写速度比市面上部分产品较快,对于转写记录能自动生成关键词、摘要、章节速览和发言人总结,但生成内容也会有错别字、不准确等瑕疵,英文提炼能力也相对较弱。此外,该产品还与阿里云盘打通,生成PPT、chorme插件等功能也将在后续上线。

在商业化方面,听悟除个人版本外,还将推出企业版。“企业版是为企业的场景所定制,每个企业有不同的需求,也有数据安全、数据隐私等要求,这方面会有完整的企业级产品系列。”周靖人表示。

他还介绍称,目前听悟企业版已在阿里集团内部使用,钉钉的“钉闪记”背后也集成了听悟,后续也将在夸克APP、阿里云盘等端口提供服务。对于企业用户担心的潜在的数据安全和隐私的问题,周靖人表示,大模型技术并不代表损失隐私,更多是提高了开发的效率。

“在智能化时代,所有的企业都站在同一起跑线,谁能更有效利用好模型,就能更好跟自己的业务场景有机结合,这样的企业就会脱颖而出,更加敏捷、更加地快速探索出一条业务发展创新的道路,从而在新的时代占据有利位置。”周靖人表示。

随着大模型的蓬勃兴起,阿里云提出了模型即服务(MaaS)的云服务模式,但这也导致和SaaS之间的界限越来越模糊。

对此,周靖人表示,通义听悟即属于MaaS,但欢迎它被各种各样的业务系统集成,集成进更多智能化服务中,最终打造基于业务场景的SaaS服务。

他判断,模型即服务将变成行业标准。“通过一系列基础模型,把创新的能力用在上层的二次开发,甚至根据技术模型以及业务场景来做一系列的创新。”

周靖人还透露,阿里云在持续进行大模型的研发投入的同时,也会做基于大模型一系列产品的创新。除了听悟,接下来还会推出其它更多的产品。

“我们希望务实地把技术真正做到普惠,通过技术创新不断降低模型训练和模型服务的成本,能够让大家快速使用起来,更多在云上进行创新,只有这样能够让大模型真正意义上大规模地去服务全社会。”周靖人表示。

推荐内容