语音识别大拿 Daniel Povey 发布新一代框架 Kaldi，有望年内应用于小米产品

2021-09-02 16:05:51 来源：广东财经网

8月31日，DanielPovey以小米集团首席语音科学家的身份，正式推出了新一代Kaldi。DanielPovey是语音识别领域的执牛耳者，他主要开发和维护的开源工具Kaldi，是业界公认的语音识别框架的基石，他也被称为Kaldi之父。2019年Daniel离任约翰霍普金斯大学语言和语音处理中心教职，在Facebook、美团、滴滴、快手等一众互联网巨头抛来的橄榄枝中选择了小米，开始带领小米语音技术团队开发新一代Kaldi。加入小米后，业界开发者对Daniel的研究动向一直高度关注。昨日Daniel亮相发布会现场，宣布新一代Kaldi完成了所有子项目的布局。他表示，“新一代Kaldi的目标不仅仅是赶上或者稍微领先现有语音识别库，而是要从根本上改变语音识别的实现方式。”据悉，经过近一年多的技术研发，Daniel团队完成了所有模块的研发和更新，新一代Kaldi在Librispeech数据集上的词错率降到了2.57%；通过全新代码库解决了Kaldi灵活性不足、体量过大等问题；作为核心部件的k2，不仅可以用来做语音识别，也可以用来做手写文字识别等其他任务。兼容PyTorch，提高识别精度Kaldi集成了多种语音识别模型，包括隐马尔可夫和最新的深度学习神经网络，自2011年发布以来下载量超过了两万多次。无论是工业界还是学术界，几乎所有的语音团队都在使用Kaldi引擎来开发智能解决方案，包括MIT、哈佛、清华、微软、谷歌、Facebook等等。作为语音识别领域的“老前辈”，Kaldi也急需更新迭代。Daniel在媒体见面会上坦言，初版Kaldi的旧代码库已经难以满足机器学习发展的需求，用户需要更轻便、更灵活的源代码，也需要兼容PyTorch等主流框架的工具包。新一代Kaldi的研发工作从2019开始启动，去年已经完成了k2和Lhotse模块的研发工作。Daniel还在2020MIDC大会上进行了展示，不过当时Icefall模块还只是一个初步概念。今年研发团队进一步完善了k2和Lhotse模块,并基于二者正式发布Icefall项目。Daniel介绍说，与初代Kaldi相比，新一代Kaldi是一个全新的代码库，主要是由C++、CUDA写就；支持Python调用；后端也由PyTorch取代了此前的自定义代码。发布会现场，Daniel团队不仅展示了如何使用k2和Lhotse来实现现有的各种不同的语音识别模型，如基于Transformer/Conformer的CTC和LF-MMI等，更着重展示了k2何以能从根本上改变人们实现语音识别的方式。“我们实现了多轮解码(mutiplepassdecoding)的示例，以及我们称之为‘双向建模’(bidirectionalmodeling)的模型”。Daniel兴奋地表示，基于这种多层模型的优势，新一代Kaldi可以大大提高语音识别模型的建模能力，从而降低词错误率。目前，新一代Kaldi在LibriSpeech数据集上的词错误率为2.57%。值得一提的是，Daniel团队在k2中实现了所有的FSA操作的可导性，用户仅使用几十行代码就可以完成复杂的多层模型结构。同时，他们还为用户提供了极大的“自定义”空间，诸如在网络中加入phone的embedding信息，支持带置信度的识别等用户自己的各种想法都能够基于k2来实现。Daniel表示，希望通过新一代Kaldi，能为语音识别领域打开一扇崭新的大门。引入Python，改善灵活性新一代Kaldi分为Lhotse、Icefall和k2三个部分，DanielPovey博士在发布会上表示，新一代Kaldi的独立设计是为了降低耦合性，方便用户使用。更重要的是，这样有助于扩展了组件使用的灵活性。例如，用作数据准备的Lhotse，既可以用在Icefall项目里，也可以用在任意其他语音识别库里来处理音频和文本数据，Daniel团队在发布会上介绍了Lhotse、Icefall和k2三个部分的更新细节。Lhotse抛弃了传统的shell脚本，采用了更加方便易用的Python语言。通过通用且不失灵活性的接口设计，满足了包括语音识别，语音合成等多种语音任务的需求，方便用户基于Lhotse可以方便地实现针对自己特定任务的接口，操纵各种不同的音频元数据和文本。Lhotse引入了AudioCuts的概念，将训练数据自动地组织为一组组Cuts，并基于这种表示，提供了on-the-fly的数据混合，裁剪，增强和特征提取等操作，从而在不影响数据处理效率的前提下，降低了数据存储所需空间。此外，Lhotse还提供了很多公开数据集的数据处理脚本，用户可以直接使用这些脚本，来进行相关语音任务的数据处理工作，大大降低了用户在某个数据集上进行实验的前期成本。“相信在不久的将来，随着新一代Kaldi的推广和普及，Lhotse甚至有可能成为语音领域使用最为广泛的数据准备工具。”Daniel期待地表示。作为训练脚本的集合，同Lhotse一样，Icefall也是一个纯Python项目。用过Kaldi的人都知道，Kaldi里有大量的基于不同数据集的示例脚本，显著降低了用户的学习成本。但这同时也带来一个缺点：示例脚本集合太过庞大，代码耦合过于紧密，导致维护成本较高。考虑到这一点，Daniel表示Icefall并不是对大量脚本的盲目集合，而是在提取公共组件的同时将不同数据集的示例脚本进行独立组织，以方便用户的学习和使用。此外，由于将数据准备部分单独放在Lhotse项目中，核心计算部分单独放在k2中，Icefall项目只需要关注语音识别模型的结构定义部分，降低了整个语音识别过程的耦合性，方便了网络结构的复用。k2是新一代Kaldi的核心。它的贡献在于，将加权有限状态转换器(WeightedFiniteStateTransducers,WFST)和相关算法无缝地集成到基于Autograd的机器学习工具包中，如PyTorch（已完成支持）和TensorFlow。WFST是语音识别领域最为核心的数据结构，可以用来构建诸如“音标->词->句子”的状态转换概率图。支持WFST可导意味着我们可以做很多以前很难做到，甚至做不到的事情，如消除以往语音识别任务中训练跟解码过程不匹配的问题、多轮（可求导）的语音识别过程、在声学网络中嵌入任意辅助信息等。同时，k2也支持很多现有的语音识别模型，如CTC、LF-MMI、RNN-T等。值得一提的是，去年Facebook发布了类似于k2的图网络建模GTN框架。与之相比，k2实现了更多的WFST相关算法，并且能够高效地支持GPU（GTN目前只支持CPU）。GPU实现，意味着语音识别模型的训练速度更快，解码速度更高效。新一代kaldi的解码速度已经是实时的300倍左右。此外，k2在语音识别的基础上，还可以应用于手写文字识别等其他seq-to-seq的任务。新一代Kaldi依然开源“新一代Kaldi或将在明年之前将全部应用到小米所有的智能语音产品中”，Daniel向媒体表示。他说，新一代Kaldi能够适用各种场景的不同语音模型，如远近场语音唤醒、离在线语音识别、说话人识别等通用模型，以及口语评测、语种识别、语音情绪识别等。以小米小爱为例，“通过它，用户可以连接到各种各样的AIoT设备并与它们产生互动:智能音箱、手机、电视、智能手表、儿童故事机、车载后视镜等。”不仅是小米，所有企业、开发者和普通用户都可以继续享受新一代Kaldi的核心技术。Daniel表示，当初之选择加盟小米，也是因为小米承诺Kaldi可以继续作为开源项目。“小米是一家稳定的公司，重视开源开放，而且允诺我一直做开源项目，这对于我来说是最好的选择”Kaldi从诞生之日起，就是一款开源语音识别工具包。Daniel一直坚持开源工作，鼓励更广泛的用户自由使用、复制以及修改源代码，并推动智能语音技术的发展。新一代Kaldi依旧采用了高效的C++代码实现。由于将k2的C++代码都包装到了Python,模型的训练迭代都可以使用纯Python代码完成。Daniel表示，基于Icefall中的示例脚本，开发者们可以很容易地基于自己公司产品的数据集进行修改，进而快速地搭建线上数据反馈和模型自动迭代更新的流程，这将大大缩短模型更新的周期。随着新一代Kaldi的发布和其在小米产品线的逐步落地，相信在不久的将来，小米将和其他公司一起，为普通用户带来更加完善的AIoT产品体验。关于DanielDaniel可以说是语音识别领域的殿堂级人物。除了开发kaldi外，他还对语音识别做出了许多科学贡献，包括助力判别训练（现在称为序列训练）的早期发展等。从1999年发布语音识别研究成果以来，其论文被引用次数超过了30000次。也因如此，Daniel从约翰斯?霍普金斯大学离职后，引发了全球科技巨头的一场人才争夺战。Daniel在2012年加入约翰斯?霍普金斯大学，担任语言和语音处理中心任副教授。在此之前，他在IBM研究院、微软研究院从事计算机语音识别研究。2019年10月，Daniel正式加入小米公司，担任小米集团首席语音科学家。

标签:科技金融有哪些龙头股金融科技未来发展方向科技金融产品有哪些

“广东财经网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题，请与

我们联系删除或处理，客服邮箱1098101642@qq.com，稿件内容仅为传递更多信息之目的，不代表本网观点，亦不代表本网站赞同

其观点或证实其内容的真实性。

7*24小时

声音提醒
60秒后自动更新

【民政部回应何时恢复婚姻登记】民政部社会事务司二级巡视员杨宗涛表示，婚姻登记场所是人群聚集场所，部分地区暂停婚姻登记工作是对人民群众安全负责。未停止登记的地方推广用电话、网络、qq群预约登记，控制登记人数，分批分段登记，减少人员聚集和在登记机关停留时间。已停止婚姻登记地方将根据当地疫情控制情况逐渐恢复。
15:54
欧洲央行副行长金多斯：欧洲央行还没有达到逆转利率。宽松政策的副作用更明显了。
15:54
财经网站Forexlive分析师Justin Low评瑞士1月CPI月率：尽管通胀年率保持稳定，但核心通胀率有所下降，这一点令人更加担忧。这只是进一步巩固了瑞士央行维持现有货币政策不变，并可能在未来寻求更多宽松措施的观点。
15:54
【武汉两大批发市场商户开业率超过80%】商务部市场建设司司长朱小良10日称，目前武汉生活必需品供应基本正常，除冷鲜肉、鲜叶菜等少数品种存在结构性短缺外，大部分重要生活物资供应充足，未发生明显抢购或脱销断档情况。当地白沙洲和四季美两大批发市场正常营业，商户开业率超过80%，日交易量上升至3000吨以上。（国是直通车）
15:53
【日本2019年经常项目顺差增长4.4%】日本财务省10日发布的国际收支初步统计报告显示，主要受外国人入境游消费扩大影响，2019年日本经常项目顺差增长4.4%。报告显示，2019年日本经常项目顺差为20.06万亿日元（1美元约合109.8日元）。其中，商品贸易方面，由于液化天然气价格下跌等因素，进口下降5.6%至75.56万亿日元；由于汽车部件及钢铁等产品出口减少，出口下降6.3%至76.12万亿日元。货物贸易顺差减少53.8%，为5536亿日元。（新华社）
15:53
欧元兑美元EUR/USD短线波动不大，现报1.0952。
15:53
瑞士1月CPI年率：0.2%，前值：0.2%，预期：0.1%；瑞士1月CPI月率：-0.2%，前值：0%，预期：-0.2%。
15:52
英镑兑美元GBP/USD短线走低13点，现报1.2890。
15:52
【宁德时代“供电”国产特斯拉有望拉低售价20%】全国乘联会秘书长崔东树分析认为，“随着特斯拉国产化率提升和产能爬坡，未来特斯拉国产车型的价格下探空间还是很大的。”他预计今年下半年，国产Model 3车型的售价就有望降至25万元，降幅接近20%。（新京报）
15:51
【内蒙古：对不裁员或少裁员企业返还上年度50%失业保险费】据内蒙古新型冠状病毒肺炎疫情防控工作指挥部消息，疫情期间，内蒙古对不裁员或少裁员的企业返还上年度实际缴纳失业保险费的50%，对面临暂时性经营困难的中小企业，返还标准提高到上年度6个月企业及其职工缴纳社会保险费的50%。
15:51
【商务部：2019年服务进出口总额54152.9亿元同比增长2.8%】商务部新闻发言人表示，2019年，在服务贸易创新发展试点等政策的激励下，我国服务贸易总体保持平稳向上态势，逆差明显下降，结构显著优化，高质量发展成效初步显现。全年服务进出口总额54152.9亿元（人民币，下同），同比增长2.8%。其中，出口总额19564.0亿元，同比增长8.9%；进口总额34588.9亿元，同比减少0.4%。（第一财经）
15:51
【振华股份：疫情导致下游客户开工推迟产品库存上升】振华化学公告，公司目前生产经营稳定，所有产能均正常开工，原材料采购能基本满足生产需要，由于疫情导致下游客户开工推迟，公司出货量减少，产品库存有所上升。公司将根据客户需求、疫情及市场变化，适度调整生产经营策略，尽可能保持生产经营的稳定。
15:50
环旭电子2月10日晚间公告，公司2020年1月合并营业收入为23.27亿元，较去年同期的合并营业收入减少27.83%，较2019年12月合并营业收入环比减少37.23%。
15:49
精测电子：与京东方集团签订了多份销售合同，合同累计金额达到6.96亿元。
17:12
华夏银行：银保监会同意本公司在全国银行间债券市场发行不超过100亿元人民币的金融债券，募集资金全部用于绿色信贷。
17:03