如何让董宇辉不下班?(2)
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
光从 理论研究 来看,语音语言AI方向的论文已有不少。 亚马逊谷歌等大厂,关于对话AI、NLP和语言处理等方向的AI论文已经达到几百甚至上千篇,其中有不少都是顶会论文;Meta光是2018一年,就拿了EMNLP和ACL两大NLP顶会的最佳论文…… (当然,也有少发论文的,例如苹果更喜欢申请专利) 国内如BAT、华为、京东等公司,这几年也成立了自己的声学或NLP实验室,在NAACL、AAAI和ACL等不少顶会上拿过各种论文奖项。 △ ACL 2022部分杰出论文奖 以IWSLT (国际口语机器翻译比赛) 为例,这是国际上最具影响力的口语机器翻译比赛之一。 就在今年的赛事上,华为在语音到语音翻译、离线语音翻译和等长口语翻译三个任务上,拿到了四个语言方向的TOP 1。 但在研究以外,各大厂在语音语言AI技术的 落地 上却有着不同的思路。 除了基于最新研究优化自身产品 (语音助手、搜索引擎等) 以外,部分厂商选择直接将模型开源、或是做成AI框架供开发者调用。 这样的AI能力,对于不少没接触过AI的开发者来说又“过于深奥”,甚至连它应该怎么用、用在哪里都难以捉摸清楚。 一定程度上,也导致了不少开发者并没有机会接触到最新的语音语言类AI技术。 尤其是这几年很火的同声传译AI,对于实时性和模型性能都有一定的要求,相应的论文和Workshop也在顶会上出现得越来越多。 对于直播等行业来说,要想扩大受众和影响范围,同传AI也是一项不可或缺的技术。 所以,有没有 门槛更低 的落地方式呢? 现在就已经有不少厂商开始尝试一种新方法—— 以华为为例,就针对移动端开发者,基于华为移动核心服务(HMS Core)打造了一套专门的 机器学习服务( ML Kit)工具包 。 在这样的基础上,开发者无需掌握AI技术细节,就能在自己开发的移动APP或应用中用上这些语音语言技术。 例如,刚刚我们看到的AI字幕(在线文本翻译)和同声传译,就是基于华为这套工具包中的语音语言AI能力,轻松做出来的效果。
开发门槛越来越低说了这么多,具体怎么上手用起来,咱们不妨看看前辈们都是怎么做的。 比如,在华为开发者论坛上,就有人基于ML Kit中实时语音识别、实时语音转写等功能,给外婆开发了一个语音搜索购物App。 其中 语音功能 的实现,步骤并不复杂。 首先,你需要做一些开发准备工作,包括:在华为开发者联盟网站上完成实名注册,配置AppGallery Connect,并在工程中配置HMS Core SDK的Maven仓地址。 然后,集成相关服务SDK。以实时语音识别服务为例,代码如下:dependencies{
//引入实时语音识别服务插件implementation'com.huawei.hms:ml-computer-voice-asr-plugin:3.5.0.303'}99科技网:http://www.99it.com.cn
