阿里云大模型上新!ai神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕
来源:富途牛牛 发布时间:2023-06-01 14:41:44

又一个接入大模型能力的组会神器,开启免费公测啦!


(相关资料图)

背后大模型,是阿里的通义千问。至于为什么说是组会神器嘛——

注意看,这是我的b站导师李沐老师,他正在带同学们精读一篇大模型论文。

不巧就在这时,老板催我抓紧搬砖。我只好默默摘下耳机,点开名为“通义听悟”的插件,然后切换页面。

你猜怎么着?虽然我人不在“组会”现场,但听悟已经帮我完整记录下了组会内容。

甚至还帮我一键总结出了关键词、全文摘要和学习要点。

简单来说,这个刚刚接入大模型能力的“通义听悟”,是一个大模型版的聚焦音视频内容的工作学习ai助手。

跟以往的录音转写工具不同,它不只是能把录音、视频转成文字这么简单。能一键总结全文不说,总结不同发言人观点也能做到:

甚至还能当实时字幕翻译来用:

看上去,不仅开组会好使,对于经常要处理一大堆录音、熬夜跟各种国外发布会的量子位来说,也实属日常工作新神器。

我们赶紧第一时间深入测试了一波。

阿里云大模型上新!ai神器「通义听悟」公测中:长视频一秒总结,还能自动做笔记、翻字幕-kf凯发

音频内容的整理和分析,最基础也是最重要的,就是转写的准确性。

round 1,我们先上传一个时长在10分钟左右的中文视频,看看听悟与同类工具相比,在准确性方面表现如何。

基本上,ai处理这种中等长度音视频的速度很快,大概不到2分钟就能转写完成。

先来看看听悟的表现:

在这个200字左右的段落中,听悟只出现了两处错误:强 → 墙,都好处 → 恰到好处。像原子核、电荷、斥力这些物理名词,听悟都能弄明白。

我们用同一段视频在飞书妙记上也进行了测试。基本问题也不大,但相比听悟,飞书多了两处错误,把其中一处“原子”写成了“园子”,把“斥力”听成了“势力”。

有意思的是,听悟犯的错,飞书也一比一复刻了。看来这口锅还得量子位某说话吞字的up主来背(手动狗头)。

讯飞听见,倒是分辨出了前两位选手没有识别出来的“恰到好处”。但讯飞听见基本上把“墙”全部都转写成了“强”,还出现了“强的糖粒”这种神奇的搭配。另外,三位选手中,只有讯飞听见把“电磁力”听成了“电子力”。

总体来说,中文的识别对这些ai工具来说难度不大。那么在英文材料面前,它们又会表现如何?

我们上传了一段马斯克的最新访谈,内容是他与openai过去的恩怨纠葛。

还是先来看听悟给出的结果。在马斯克的这一段回答中,听悟没有分辨出拉里·佩奇的名字,除此之外基本都能识别正确。

值得一提的是,听悟能够直接将英文转写结果翻译成中文,并将双语对照显示,翻译质量也相当不错。

飞书妙记则成功听出了拉里·佩奇的名字,不过和听悟一样,由于马斯克整体语速较快并且有一些口语化的表达,存在一些小错误,比如把“stay at his house”写成了“say this house”。

讯飞听见这边,人名、连读细节处理得都不错,不过同样存在被马斯克的口语化表达误导的情况,比如把“long into the evening”当成了“longing to the evening”。

如此看来,在基础能力语音识别方面,ai工具们都已经达到了很高的准确率,在极高的效率面前,一些小问题已经瑕不掩瑜。

那么,我们将难度再升一级,round 2,来测试测试它们对1小时左右长视频的总结能力。

测试视频是一段40分钟的圆桌讨论,主题是中国aigc新机遇。参与圆桌讨论的共有5人。

听悟这边,从转写完成到ai提取关键词、给出全文摘要,一共花了不到5分钟的时间。

结果是酱婶的:

不仅给出了关键词,圆桌讨论的内容也总结得很到位,并且还给视频划分了关键点。

对比人类编辑摘录的话题要点,我嗅到了一丝危机……

值得一提的是,针对不同嘉宾的发言,听悟都能给出对应的发言总结。

同样的题目抛给飞书妙记。目前,在内容总结方面,飞书妙记还只能给出关键词。

会议纪要需要手动在转写文字上标注。

讯飞听见基于星火认知大模型,也有能够分析文件内容的产品正在内测,不过需要填写申请,排队等待。

在基础的讯飞听见中,目前没有类似的总结功能。

看来这一轮测试:

不过要说在本次实测中,通义听悟最令人感觉惊喜的,其实是一个“小”设计:

chrome插件功能。

无论是看英文视频,看直播,还是上课开会,点开听悟插件,就能实现音视频的实时转录和翻译。

就像开头所展示的那样,拿来当实时字幕用,延迟低,翻译快,还有双语对照功能,同时,录音和转写文字都能一键保存下来,方便后续使用。

妈妈再也不用担心我啃不下来英文视频资料了。

另外,我还有个大胆的想法……

开组会的时候打开听悟,开会儿小差再也不用怕被导师突然抽查了。

目前,听悟已经和阿里云盘打通,存放在云盘中的音视频内容可以一键转写,在线播放云盘视频时还能自动显示字幕。并且在企业版本中,ai整理后的音视频文件将来还可以在内部快速分享。

听悟官方还透露,接下来,听悟还会持续上新大模型能力,比如直接抽取视频内的ppt截图、针对音视频内容可以直接向ai提问……

其实,在公测之前,通义听悟就已经在阿里内部精心打磨过了。

去年年底,也有网友拿到了听悟内测体验卡,当时版本中,已经有离线语音/视频转写和实时转写的功能。

这次公测,听悟主要是接入了通义千问大模型的摘要及对话能力。具体而言,是以通义千问大模型为基座,融合了研发团队在推理、对齐和对话问答等方面的研究成果。

首先,如何准确抽取关键信息,是这类神器提升工作效率的关键。这就需要借助大模型的推理能力。

阿里ai团队在2022年提出了基于大语言模型的知识探测与推理利用框架proton(probing turning from large language models)。相关论文发表在kdd2022和sigir2023等国际顶会上。

该框架的核心思路在于,探测大模型的内部知识,以思维链为载体进行知识流动和利用。

在通用常识推理commonsenseqa2.0、物理常识推理piqa、数值常识推理numbersense三大榜单上,proton曾先后取得第一。

在tabfact(事实验证)榜单上,proton凭借知识分解和可信思维链技术,首次实现了超越人类的效果。

其次,为了确保摘要内容和格式符合用户预期,在对齐方面,听悟还用上了elhf,即基于人类反馈的高效对齐方法。

该方法仅需少量高质量人工反馈样本,就能实现对齐。在模型效果主观评测中,elhf能使模型胜率提高20%。

在此之外,听悟背后的研发团队,还发布了首个中文超大规模文档对话数据集doc2bot。该团队提升模型问答能力的re3g方法,已经入选icassp 2023:该方法通过retrieve(检索)、rerank(重排序)、refine(精调)和generate(生成)四个阶段,能提升模型对用户问题的理解、知识检索和回复生成能力,在doc2dial和multi doc2dial两大文档对话榜单中取得第一。

除了大模型能力,听悟还是阿里语音技术的集大成者。

其背后的语音识别模型paraformer,来自阿里达摩院,首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题:

不仅在推理效率上较传统模型提升10倍,刚推出时还“屠榜”多个权威数据集,刷新语音识别准确率sota。在专业第三方全网公共云中文语音识别评测speechio tiobe白盒测试中,目前,paraformer-large仍是准确率最高的中文语音识别模型。

paraformer是单轮非自回归模型,由编码器、预测器、采样器、解码器和损失函数这五个部分组成。

通过对预测器的创新设计,paraformer实现了对目标文字个数及对应声学隐变量的精准预测。

另外,研究人员还引入了机器翻译领域中浏览语言模型(glm)的思路,设计了基于glm的采样器,增强了模型对上下文语义的建模。

同时,paraformer还使用了数万小时、覆盖丰富场景的超大规模工业数据集进行训练,进一步提升了识别准确率。

而准确的多人讨论发言人区分,则得益于达摩院的cam 说话人识别基础模型。该模型采用基于密集型连接的时延网络d-tdnn,每一层的输入均由前面所有层的输出拼接而成,这种层级特征复用和时延网络的一维卷积,可以显著提高网络的计算效率。

在行业主流的中英文测试集voxceleb和cn-celeb上,cam 均刷新了最优准确率。

据中国科学技术信息研究所报告,据不完全统计,目前国内已经发布了79个大模型。

这种大模型开卷的趋势下,ai应用进化的速度再次进入到一个冲刺阶段。

站在用户的角度来说,喜闻乐见的局面正逐步形成:

大模型的“统筹”之下,各种ai技术开始在应用侧百花齐放,使得工具越来越高效,越来越智能。

从一个斜杠就能帮你自动写完工作计划的智能文档,到快速帮你总结要素的音视频记录和分析工具,生成式大模型这朵agi的火花,正在让越来越多的人感受到ai的魔力。

与此同时,对于科技企业来说,新的挑战和新的机会,无疑也已经出现。

挑战是,所有产品都将被大模型的风暴席卷,技术创新已经成为了无可回避的关键问题。

机会是,对于新的杀手级应用而言,重写市场格局的时间点已经到来。而谁能拔得头筹,就要看谁的技术准备更充分,谁的技术进化速度更快了。

无论如何,技术开卷,终将是用户受益。

编辑/lambor

标签:

猜你喜欢

阿里云大模型上新!ai神器「通义听悟」公测中:长

又一个接入大模型能力的组会神器,开启免费公测啦!背后大模型,是阿里的通义千问。至于为什么说是...更多

2023-06-01 14:41:44

港股概念追踪 | 美国债务上限问题及降息预期下

智通财经app获悉,6月1日,港股黄金股集体走高,截至发稿,$中国黄金国际(02099 hk)$涨超4%,$招金矿业(018更多

2023-06-01 14:27:06

港股午评 | 三大指数震荡回升,科指反弹近2%;

富途资讯6月1日消息,港股三大指数早盘拉高后窄幅震荡。截至午盘,恒指涨0 82%,恒生科技指数涨1 97%,国指更多

2023-06-01 12:33:38

获两党广泛支持!美国众议院投票通过债务上限,最

距离真正通过只差临门一脚。大限降临在即,美国众议院通过了债务上限法案!当地时间周三晚间,美国...更多

2023-06-01 12:40:29

美股三大指数集体低开 明星科技股普跌

美股三大指数集体低开,道指跌0 38%,纳指跌0 38%,标普500指数跌0 44%。ai概念股走低,c3 ai跌...更多

2023-06-01 11:22:32

大宗商品跌跌不休 庆祝抗通胀胜利为时过早

从铜到小麦再到天然气,世界上一些最重要产品的成本正在大幅下降,这可能会让饱受通胀困扰的消费者...更多

2023-06-01 11:22:33

美国4月职位空缺意外升至三个月高点 2年期国债收

美国4月份jolts职位空缺意外飙升至三个月来最高水平,表明尽管经济形势充满挑战,但对劳动力的需求...更多

2023-06-01 11:22:33

美国股市在开盘后跌幅扩大 就业类数据显示美联储

美国股市在开盘后跌幅扩大,投资人密切票后债权上市协议的前景。与此相同时,最新空缺职位数据显示...更多

2023-06-01 11:22:33

多股回购规模过亿 李嘉诚又又又回购

面对股市连续下跌,资本大佬们最近加大了回购金额,李嘉诚、马化腾都出手了。此外,31号晚间,还有1...更多

2023-06-01 11:22:33

7大科技股表现优秀 互联网泡沫破裂时期的这一幕

香港万得通讯社报道,美股科技股和芯片股在5月表现出色,推动纳斯达克指数上涨。然而,市场的其他板...更多

2023-06-01 11:14:38
网站地图