Lyra是一种新的音频编解码器,它利用机器学习来产生高质量的通话,即使在面对不可靠的互联网连接时也是如此。
为了结束大家太熟悉的低带宽的机器人语音通话,谷歌对Lyra进行了开源,一种新的音频编解码器,它利用机器学习,即使在面对不可靠的互联网连接时也能产生高质量的通话。
谷歌的人工智能团队正在为开发者提供Lyra,让开发者可以与他们的通信应用程序相集成,并承诺新工具可以实现与最流行的应用程序类似质量的音频通话现有的编解码器需要的带宽减少了60%。
音频编解码器如今广泛用于基于互联网的实时通信。这项技术包括将输入音频文件压缩到一个更小的包中,该包需要更少的带宽来传输,然后将文件解码成一个波形,可以通过听者的电话扬声器播放。
文件压缩得越多,向听者发送音频所需的数据就越少。但也有一个折衷办法:通常情况下,大多数压缩文件也很难重建,而且往往会被解压成不易理解的机器人语音信号。
“因此,开发视频和音频编解码器的一个持续挑战是使用较少的数据提供更高的质量,为了尽量减少实时通信的延迟,”谷歌的软件工程师Andrew Storus和Michael Chinen说,在一篇博客文章中写道,
工程师们去年2月首次引入了Lyra,作为这个方程的一个潜在解决方案。从根本上讲,Lyra的工作原理与传统的音频编解码器类似:系统由两部分组成,一个是编码器,一个是解码器。当用户与手机通话时,编码器以40毫秒为单位识别并提取语音中的属性,即所谓的特征,然后压缩数据并通过网络发送给解码器,由解码器读出给接收器。然而,为了给解码器一个提升,谷歌的人工智能工程师给系统注入了一种特殊类型的机器学习模型。该算法被称为生成模型,经过数千小时的数据训练,即使是从有限数量的特征中也能重建出完整的音频文件。
传统的编解码器只能从参数中提取信息来重新创建一段音频,因此,生成模型可以根据一小部分数据读取特征并生成新的声音。
在过去几年中,生成模型一直是许多研究的焦点,不同的公司对这项技术感兴趣。工程师们已经开发出最先进的系统,从DeepMind的WaveNet开始,它可以生成模仿人类声音的语音。
配备了一个使用最少数据量重建音频的模型,因此,Lyra可以以较低的比特率保持非常压缩的文件,并且仍然可以在线路的另一端实现高质量的解码。
Storus和Chinen评估了Lyra与Opus的性能,Opus是一种开源编解码器,广泛用于大多数互联网语音应用程序。
当在高带宽环境中使用时,音频为32 kbps,众所周知Opus能够实现与原始音频无法区分的音频质量级别;但当在带宽受限的环境中运行到6 kbps时,编解码器开始显示降级的音频质量。
相比之下,Lyra将原始音频压缩到3 kbpskbps。根据专家和众包听众的反馈,研究人员发现,输出的音频质量要比Opus好。同时,其他能够以与Lyra相当的比特率运行的编解码器,如Speex,都显示出最差的结果,表现为不自然和机器人发声的声音。
“Lyra可以在带宽条件不足以满足更高比特率和现有低比特率编解码器不能提供足够质量的情况下使用,Storus和Chinen说,
这一想法将吸引大多数互联网用户,尤其是在过去一年中,他们发现自己在COVID-19流感大流行期间在家工作时带宽不足。
自危机爆发以来,对宽带通信服务的需求猛增,一些运营商的互联网流量比前一年增长了60%——这导致了网络拥塞和令人恐惧的电话会议冻结。
即使在COVID-19大流行之前,一些用户已经面临着不可靠的网速:例如,在英国,160万处房产仍然无法接入超高速宽带。在发展中国家,这种差距更为明显。Storus和Chinen表示,未来几年,预计将有数十亿新的互联网用户上网,因此,适当的高速无线基础设施不太可能很快满足设备上计算能力的爆炸性增长。”工程师们说:“在这种情况下,Lyra可以节省大量的带宽。”除了他们预计Lyra将出现的其他应用之外,Storus和Chinen还提到了在紧急情况下归档大量语音、节省电池或缓解网络拥塞。
因此,现在由开放源码社区来为这项技术提出创新的用例。开发者可以在GitHub,其中提供了核心API以及一个示例应用程序,展示如何将本机Lyra代码集成到基于Java的Android应用程序中。