全球快讯:阿里云会议神器通义听悟如何炼成?达摩院自研AI模型立功
2023-06-01 18:00:25 快科技

快科技6月1日消息,今天,阿里云正式公布了人工智能加持下的会议记录AI助手通义听悟。

通义听悟的诞生,离不开阿里的通义千问大模型,但同时,阿里达摩院推出的自研语音识别基础模型Paraformer,以及说话人识别基础模型CAM++,也至关重要。

据悉,Paraformer是目前业界首个应用落地的非自回归端到端语音识别模型,在推理效率上,最高可较传统模型提升10倍之高,且准确度方面在多个权威数据集上位列榜首。


(相关资料图)

在通义听悟中,该模型的主要功劳,就是让AI能够“听清楚”会议中人们都说了什么。

根据此前达摩院Paraformer开发团队发布的论文提供的信息,该模型采用单轮非自回归模型,解决了自回归端到端模型Transformer存在的计算并行度低,无法高效结合GPU进行推理的问题。

同时,Paraformer通过创新的预测器设计,实现对目标文字个数及对应声学隐变量的高准确度预测,并引入机器翻译领域的浏览语言模型思路,显著增强了模型对上下文语义的建模。

如果说Paraformer模型解决的是通义听悟“听清楚”的问题,那么CAM++说话人识别基础模型,就解决了通义听悟分辨“谁在说话”的问题。

在1953年,Colin Cherry提出了语音领域著名的“鸡尾酒会问题”,该问题用于讨论在酒会等嘈杂环境下,准确区分出不同说话人信号的问题。

显然,通义听悟面对的会议、课堂等主要应用场景,就是典型的“鸡尾酒会问题”场景。

为了解决这一问题,达摩院在CAM++说话人识别基础模型中,采用了基于密集型连接的时延网络(D-TDNN),每一层的输入均由前面所有层的输出拼接而成。

这种层级特征复用和时延网络的一维卷积,可以显著提高网络的计算效率。

据悉,CAM++在行业主流的中英文测试集VoxCeleb和CN-Celeb上,均刷新了最优准确率,并且在计算效率和推理速度上有着明显优势。

不难看出,通义听悟之所以能够成为新一代的“音视频会议神器”,除了通义千问大模型作为负责思考理解“大脑”外,充当“耳朵”的Paraformer与CAM++,也至关重要。

可以说,在阿里达摩院于人工智能领域的大量研究与技术积累下,通义听悟的诞生并非空中楼阁,而是基础扎实,相当“水到渠成”的一件事。

同理,在此之后,我们也可以期待更多与之类似的,基于达摩院自研AI技术诞生的人工智能应用工具。

热门推荐

文章排行

  1. 2023-06-01全球快讯:阿里云会议神器通义听悟如何炼成?达摩院自研AI模型立功
  2. 2023-06-01环球热文:方大新材:5月30日接受机构调研,投资者参与
  3. 2023-06-01第七届平遥电影展10.11开幕 优秀影片获百万奖励
  4. 2023-06-01菜百股份(605599)6月1日主力资金净卖出250.57万元-消息
  5. 2023-06-01临潼法院:"校园诉源治理工作站"成功化解首例校园纠纷-世界观热点
  6. 2023-06-01“从下单到拿药就20多分钟。”叮当快药24小时即时到家服务受欢迎 环球今头条
  7. 2023-06-01天天热资讯!“六一”儿童节,勇气大放送
  8. 2023-06-01涨停雷达:供热个股异动 金房能源触及涨停 当前信息
  9. 2023-06-0106月01日扬子石化PTA为5600元|世界关注
  10. 2023-06-01天天即时:医疗事故死亡鉴定多久出来
  11. 2023-06-01三层实木复合地板价格 三层实木复合地板 世界速看
  12. 2023-06-01机构重仓股杀跌!底部在哪?何时反转?
  13. 2023-06-01世界观察:新希望:5月31日融券卖出金额41.92万元,占当日流出金额的0.48%
  14. 2023-06-01环球时讯:1995年五行都是属什么的(1995年五行属什么)
  15. 2023-06-015月31日基金净值:景顺长城新兴成长混合A最新净值2.055,跌1.96%
  16. 2023-06-01京东618超300个城市分钟级送货 长沙女子仅9分钟签收茅台冰淇淋_焦点资讯
  17. 2023-06-01环球简讯:状告国安的外援身份遭曝光!本赛季仅踢6轮中超,李明白花2300万
  18. 2023-06-01win8和win10系统哪个玩游戏好详情 世界热推荐
  19. 2023-06-01喝牛奶拉肚子怎么解决_为什么喝牛奶会拉肚子 环球今日报
  20. 2023-06-01自然然的意思是什么(自自然然是成语吗)_环球热点