一线 AI 洞察,智者深度思考
深入产业变革,共创 AI 未来
多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊,以 Transformer 为代表的通用解决方案,正在重塑传统技术领域。
在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?
本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。
当整个行业都在追逐大模型和通用方法时,Povey 博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进 AI,那些容易被发现的方法早就已经被人发现了。」
在他看来,技术进步不应被某一主流范式所限制,AI 领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。
Transformer 确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey 博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。
对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学 AI 就能年薪百万的时代已经过去了,现在进入 AI 领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。
希望这番坦诚的对话,能为我们在 AI 发展的万千可能性中,找到属于自己的方向。
时间戳
01:35
Kaldi 之后的新探索
02:51
语音成了神经网络的子领域
04:37
多模态:Transformer 大一统?
07:54
大模型 vs 小模型
11:13
会议不再是交流研究的最佳方式
14:01
如何判断真正的技术进步?
18:10
Scaling Law 与数据极限
21:18
未来机遇展望
23:52
别把生活卷丢了
访谈文字整理
为完整呈现观点,本文在视频访谈基础上补充了对两个问题的讨论。
机器之心:Povey 博士,感谢您接受我们的采访。我从 Kaldi 时起就关注您的工作,欢迎做客机器之心的《智者访谈》。
Dan Povey:谢谢。不过说到 Kaldi,可能只是我运气好,碰巧在对的时间做了对的事情。但我会继续尝试做其他重要的事情。
机器之心:您太谦虚了。在当前的 AI 热潮中,很多人追逐热点、扩大规模,您似乎选择了一条不同的道路,那就是关注小模型,致力于开发高效而实用的解决方案。今天我们将深入探讨促使您做出这些选择的技术洞见,以及您是如何在快速发展的浪潮中保持独立思考的。
首先,作为语音技术的先驱,您目前关注的重点是什么?
Dan Povey:语音技术正处于一个低谷期。如果你去参加语音会议,会发现人们对新的语音技术并不那么兴奋。这种情况以前也出现过,但这次可能是永久性的,因为语音识别确实已经做得很好了。现在大家对文字转语音(TTS)更感兴趣,最近几年兴起的流匹配(flow matching)方法简单易懂,而且效果特别好,也很稳定,我很喜欢研究它们。
我在小米的团队正在转向 TTS(文字转语音)。一般来说,TTS 的速度要比语音识别慢,特别是在手机上运行的时候。我们希望开发一个既能在手机上快速运行,又能保持完美音质的 TTS 系统。
机器之心:您如何看待您当前的工作与主流 AI 研究的关系?
Dan Povey:现在语音已经成为 AI 的一个子领域,跟 AI 紧密相连。以前语音是一个独立的领域,我们有自己的会议,而且地位跟神经网络一样甚至更高,因为那时候神经网络还不怎么管用。如今神经网络成了主流,我们不得不用他们的术语来描述我们以前就有的东西,比如我擅长的「判别式训练」现在成了「序列训练」。
机器之心:这让您有什么感受?
Dan Povey:其实我不是特别在意。我觉得挺有趣的。几年前我去过一次 NeurIPS 会议(那时候还叫 NIPS)。我并不是很喜欢,因为那里的人太紧张了,他们看起来特别兴奋,像「打了肾上腺素」,但似乎并没有真正享受其中。
多模态发展:Transformer 大一统
对研究并不太好
机器之心:您如何看待语音模态的发展,以及与多模态的融合?
Dan Povey:当然,在一些应用场景中语音会被整合,但我认为独立的语音识别系统仍然会继续存在。我希望通过我们的研究,能找到对 AI 普遍有用的方法。我认为大多数 AI 进步都来自于解决某个特定领域的问题,可能是视觉,也可能是语言或语音,正因为要解决某个领域的具体问题,人们才想出了某种解决方案,而这种解决方案最终也可能适用于解决其他领域的问题。
机器之心:Transformer 恰好就是如此,现在似乎有一种趋势,语言、视觉乃至视频都被整合进基于 Transformer 的模型当中。您如何看待这种发展趋势?
Dan Povey:我认为对于研究而言,所有人都使用同一种模型并不健康,因为如果大家都用同样的模型,就会遇到相同的问题,然后尝试相同的解决方案。这样就会产生大量重复的研究。在语音识别领域,也曾经出现过所有人都用同一种方法的情况,这实际上并不太好,因为研究整体的进展会变得很慢。我认为在不同任务中使用不同的模型会更有利于研究的发展,这样可能会让工具和方法发展得更快。
话说回来,Transformer 确实效果很好,而且效率也不错,特别是有了各种加速器的支持。但另一方面,我不喜欢过度依赖这些加速器,因为它们实际上会冻结研究进展。一旦你开始使用为了特定模型(比如某个注意力模块)开发的特定加速器,你就失去了改变它的自由。这相当于把整个领域的进展都固定在那个点上了。
机器之心:那您认为语音会完全融入机器学习领域,还是说仍然会独立发展?
Dan Povey:我们确实还有自己的会议,但事实是大多数时候,我们都在使用与 AI 领域相同的方法和工具,比如 PyTorch,还有 Transformer。我觉得让各个领域保持自己的特色和方法是件好事,也许有一天我们会发现比其他领域更好的解决方案呢?
如果我们做的事情仅仅只对语音有用,那并不会让人感到太兴奋,我们肯定是希望能够提出对机器学习其他领域也有帮助的想法,我们一直都在尝试具有这种更通用的潜力的新方案。但是,在这个领域要做出新发现有时候需要很长时间,因为有这么多聪明人都在试图改进 AI,那些容易被发现的方法早就已经被人发现了。
机器之心:如今要想做出有影响力的研究工作越来越难了,您如何应对这种情况呢?
Dan Povey:对我来说这不算什么,因为我已经过了需要向人证明自己的阶段。但对于学生或年轻人来说这确实是个问题。我的优势可能在于愿意去做别人没有在做的事情,或者选择并不热门的领域。我不知道我能否在当前的 AI 领域产生重大影响,因为每个人都涌入这个赛道。我可能需要找一些不那么热门但更有潜力的方向,但首先我们要在 TTS 领域做出有影响力的工作。
大模型与小模型的权衡
机器之心:有不少从事小模型的研究人员表示,尽管他们的模型性能也很好,但由于无法部署到与 Transformer 同等的规模,他们很难证明小模型的优势,您如何看待模型大小、可扩展性和性能之间的权衡?
Dan Povey:所有的大模型最开始也都是小模型,Transformer 刚被提出的时候也没有跑在 1000 个 GPU 上。不过,规模和效果之间确实是有关联的,比如 Transformer 在数据量很小的情况下效果并不是特别好,当然,这也取决于损失函数。
现在我们一般都用中等规模的模型,就是规模大到可以看出它在更大规模上是否可行,但又足够小,方便做实验。因为超大规模实验的问题在于,实际上每个实验都只能做一次,因为成本太高了。
我不喜欢超大规模实验的另一个原因是,人们会开发一个系统,然后给它起个名字,比如「语音转某某」或「XX 转 XX」的命名模板,然后用他们独有的 100 万小时的数据去训练,这个模型就成了世界上最好的模型。但是,由于没有人能在相同条件下复现,你不知道他们的方法是否有什么特别,是不是真的更好。所以,从某种意义上说,这对领域的进步贡献并不大。
再来,媒体喜欢报道这类东西,它们在媒体上被大量讨论,然后做决策的人看到媒体报道,也变得很关注这些。结果就是人们只关心超大规模。当然,这也会反馈到研究人员身上,因为他们需要申请资助等等,但就连有的研究人员也会受此影响……
机器之心:您认为怎样的研究风格是值得提倡的呢?
Dan Povey:机器学习领域盛行过许多的研究风格和潮流。多年来,学界一直痴迷于数学证明,尤其是凸优化相关的证明。据说在这股潮流的巅峰时期,一位领军研究者对另一位说:「如果不是凸的,那就别说是在做机器学习。」这种痴迷的痕迹至今仍可见于传统 NIPS 论文中必有的定理 1(Theorem 1);这些定理大多是琐碎的,与论文主旨关系不大。
我个人不喜欢这种风格的一个原因是,人们往往喜欢展示非常技术性的证明,却不给出任何直觉解释或背景说明,于是这就成了一种「我比你聪明」的展示,而不是向那些尚未掌握知识的人传授知识。
如今机器学习领域的成功往往被简单归结为「这个方法管用」。当某个方法不管用时,人们似乎对其失效的原因缺乏深入研究的兴趣。这与土木和结构工程很不同,在那些领域,失效分析受到高度重视。在我自己团队的工具当中,我们有大量用于诊断的额外代码,比如当某种方法收敛不好时,我们可以准确找出原因,而不是简单地降低学习率。很多情况下,问题都与某个特定的子模块有关,比如激活值或梯度爆炸。我可能应该想办法推广这类工具。
另外,我认为机器学习与信息论之间的潜在联系也应该得到更多关注。举个例子,现在很多人在使用涉及激活值码本量化的方法时,他们像对待空操作一样传递这个(VQ + 重建)操作的梯度,这是很粗糙的做法。实际上,我们可以用香农-哈特利定理来分析这个问题,假设激活值是高斯分布的,该定理告诉我们需要多少比特才能将它们重建到特定的保真度(用相关性来衡量)。因此,在训练时,你可以将这个操作视为将激活值与一定量的高斯噪声混合。这就为传递梯度提供了理论依据,尽管理论上你应该用一个标量来缩小它们(对于大多数拓扑结构,这不会影响最终结果)。
这只是应用信息论的一个例子。目前我还对双射函数的神经网络层或模块很感兴趣,这种函数不会将两个输入映射到同一个输出,因为每当我们将两个输入映射到同一个输出时,我们就会损失一些信息。
机器之心:说到研究风格,现在学术界也出现了一些新的趋势,比如在社交媒体上宣传自己的研究工作。对此,一些会议已经开始采取措施,比如规定具体的宣传时间窗口。您怎么看待这种现象?
Dan Povey:我觉得这另一回事,现在美国学术界有一种态度,那就是不想要任何的「不公平」。其想法是如果你来自一个知名团队,或者你已经很出名了,这跟是否接收你的论文应该没有关系。但我觉得这是出于他们对公平的理解,与研究风格无关。
机器之心:如果您来主办一个会议或期刊,您会给投稿设立什么标准?
Dan Povey:我会允许人们发布预印本,因为我觉得如今会议这种形式对传播研究成果来说已经不那么重要了,没有人能看完会议上的所有论文。人们总是转发 arXiv 上的论文,很多甚至都还没发表。而且会议实际上会减缓研究进展,假设某人想出了一个新的方法,投稿到 NeurIPS,这样就必须在规定时间前对论文内容保密,对吧?所以会议可能会将事情延后半年到一年。
我认为在互联网时代,传统的同行评议模式已经没有必要了。我喜欢 ICLR 的做法,应该是 Yan LeCun 在试图推广,ICLR 的评审是完全公开的,即便不是评审人也可以发表评论,而且所有评论都是公开的,我想要类似这样的方式,甚至没有正式的接受或拒稿的决定,每个人都可以上传他们的论文。当然,还是需要通过一些方法来筛选出好的论文,但我们可以开发某种社交算法,比如给不同的人的投票设定不同的权重。既然可以给 YouTube 解决这个问题,为什么论文就不行呢?
比如说你和我登录 B 站,我们看到的推荐内容肯定不一样,对吧?这没什么问题,你能看到和你类似、与你观点相近的人喜欢的内容,然后你可以根据自己的喜好来决定信任谁。当然,这可能会导致有些人最终相信错误的内容,因为他们关注了一些持有错误观点的人。但这也没关系,人们本来就会相信一些错误的东西。更重要的是,那些想要追求真相的人,他们能不能找到真相?
机器之心:那您觉得 AI 评审如何,就是用 AI 来评判论文?
Dan Povey:这种方法可以,但问题在于 AI 总是会稍微落后一步,因为 AI 判断一篇论文好与坏的标准,是基于这篇论文和以往那些被大量引用的论文有多相似。我认为 AI 不太可能识别出下一个重大突破,因为新的突破往往和过去的突破看起来不太一样。
关于 AI 的一些深度思考
机器之心:Rich Sutton 教授在《The Bitter Lesson》一文中提出,纵观 AI 历史,往往是那些简单且可扩展的方法效果更好。您对此是怎么看的?
Dan Povey:首先,AI 的历史并不算长。「可扩展」也有不同的形式。有些方法在计算层面上很容易扩展,但实际上并不好用。我不认为 AI 的解决方案一定是简单的。其次,什么叫「简单」?有时候你可以用很少的代码写出一个神经网络程序,但神经网络本身是非常复杂的,真正在做识别的是这个很复杂的神经网络,仅仅因为可以用几行代码实现,就说这种方法很简单,这样说真的准确吗?
即便某种方法的定义很复杂,只要我们能够处理好它的复杂性,那就没有问题。我们的大脑就没有简单的定义,而且每个人的大脑都略有不同。这是好事,因为不同的人在不同方面各有天赋。
对于神经网络来说,如果有某种元参数或元描述,让每个网络都有点不同,然后通过选择或其他方式进化,这可能是个不错的方法。但我们需要找到合适的描述语言,让进化能够很容易发生。
机器之心:那您如何定义技术进步呢?
Dan Povey:当我们看到真正的进步时,我们是能够分辨出来的,过于严格定义反而会限制我们的想象力。
至于复杂性,我认为一个方法在最初被发明时往往很简单,随着时间推移,人们会开发出更复杂(也更高效)的版本,类似人们最初发现了铁,然后是碳钢,现在已经有上千种不同类型的钢。当然,有时我们也会发现简化的方法。我认为不应该仅仅因为已经有一个运作良好且简单的方法就停止改进。
举例来说,很多人都在为标准 Transformer 架构做硬件加速,我觉得这对进步来说是危险的,因为一旦你对标准架构做任何改变,速度就会大幅下降,这阻碍了探索。我对使用预训练模型和微调的趋势也持谨慎态度,因为这将把你限制在预训练时使用的架构上。这确实有用,也许这就是未来的方向,但它会减缓进步的步伐。就像美国的建筑规范,短期内可能确实让建筑更安全更好,但同时也让建筑风格和方法固化,从而阻碍了进步。
我认为《The Bitter Lesson》一文主要是针对早期的 AI 从业者,那时的 AI 都是关于形式化「苏格拉底是人,人都会死,所以苏格拉底会死」这类推理。确实,通用方法正在占据 AI 的大部分领域,但我们使用它们的原因不应该仅仅因为它们是通用的,而是因为它们更好。例如,在 wav2vec 中,他们移除了使用 FFT 系数对数能量的人工设计前端。这种传统方法虽然看起来像是「人工雕花」,但移除它并没有提升性能,反而让系统变得更慢。这与其说是技术进步,不如说是一种噱头,好让他们可以宣称自己的系统是「端到端」的,因此很「现代」。如果保留 FFT,系统实际上会更实用。
还有一点,如果所有事情都可以由一个简单的 AI 架构完成,我们会生活在一个什么样的世界?人们会做什么?我最近看到一个观点,说衡量一个国家价值的更好指标不是 GDP,而是其人民执行复杂任务的能力。即使人们不需要去编程、制造复杂机器、写书或创作艺术品,人为创造这种需求也是有意义的,因为这可以发展人们的技能和能力,给他们有意义的事情做。难道让他们待在家里看直播、吃零食会更好吗?
人生来就想要竞争,做很酷的事情,也自然想拥有某种自主权。所以从长远看,以一种让小公司能够蓬勃发展,让人们能够一起创造的方式来组织经济是有意义的,即使从短期经济角度来看,这并不是最有效率的。
我甚至认为,禁止某些领域使用通用 AI 是有道理的,因为它会剥夺人们生存的意义。想象一下,如果有人发明了一个人工儿童,比真实的人类儿童更好、更便宜、更高效,你会用这个产品替换你自己的孩子吗?现在想象他们发明了一个比真实员工更好的人工员工,你会接受他们替代你或你孩子的工作吗?我想答案是否定的。
机器之心:随着机器智能的发展,您如何看人类的创造力和直觉在推动技术创新中的作用?
Dan Povey:一直以来,创新都是关于人类的独创性。我想我们之所以会问这个问题,是因为现在有了能发明东西的机器。我们会被这些机器取代吗?这很难说。我认为人类的直觉仍然扮演着机器无法替代的重要角色。而且人类可以基于机器的成果来简化直觉,因为机器往往会提出过于复杂的解决方案。
比如说你让机器设计一个马达,它可能会设计出一个形状奇怪、看起来有点像生物的马达,人类很难理解它为什么能工作。所以要真正从中学到东西,我们需要有人来解释为什么这个东西有用,可能要描述它利用了哪些效应等等。
机器之心:您会担心 AI 的不可解释性吗?
Dan Povey:这我倒不担心,关键是也没有人能很好地解释我们的大脑是如何工作的。最终有的决定就是无法被解释的。而且,关键可能在于即便有了解释,你并不喜欢那个解释。
机器之心:关于 Scaling Law,这是目前 AI 领域讨论最多的话题。这也跟我们之前的讨论有关,大模型很难做实验,因为它们太大了。所以有人研究 Scaling Law,先用小模型做实验,再迁移到大模型。您怎么看 AI 界提出的这个 Scaling Law,您在工作中有用到它吗?
Dan Povey:这确实是个很有用的新工具。我觉得在 AI 从业者的脑子里,一直都有某种规模效应的概念。只是我们不一定会去做系统性的实验证明它。我们有一些直觉,然后根据实验来更新这些直觉。现在有人尝试把它系统化,创建图表来帮助了解如何更好地扩展,这是好事。
机器之心:有观点认为 Scaling Law 已经到头了,主要是因为数据不够了,我们只有一个互联网,公共数据就这么多,尽管计算能力还在不断增长。
Dan Povey:我不这么认为。我们可能接近文本数据的极限了,但在视频数据方面还远远没有达到天花板。实际上,这是我们团队可能会从事的另一个方向,那就是研究如何把视频压缩得更小、更适用于机器学习,因为现在还无法在互联网规模的数据上训练视频大模型。
机器之心:说到压缩,有观点认为智能就是一种数据压缩。
Dan Povey:这个话题很有趣。压缩对智能而言可能很重要,也许我们可以用压缩的概念来改进 AI。但如果说智能就是压缩,这可能有点过了。
机器之心:聊了这么多,这些年领域的发展和变化,种种因素,对您的研究方法有什么影响?
Dan Povey:以前我会想出很多点子,主要是自己去试。现在不同了,我有团队成员可以帮我去尝试这些想法。但难点始终在于如何决定在不同的问题上投入多少精力,对此我还没有找到理想的解决方案,主要还是基于直觉和一些其他因素。
关于职业发展:
人生不应该只有搞钱和出圈
机器之心:您认为未来 AI 领域哪些问题最有前景?
Dan Povey:我觉得机器人领域还有很多未被开发的潜力。人们已经制造出可以走路的机器人,而且训练过程中不需要太多人工干预。但目前机器人似乎还没被用于什么特别有用的事情,当然在酒店送餐确实有用。但我觉得将来在采矿、农业和建筑领域,可能会出现更通用的机器人。有些地方在建造摩天大楼时已经用上了,但还可以用于其他更基础的建筑任务。
我觉得在解决软件不兼容问题上也有机会,如今程序员做的很多工作都是在各种不兼容的软件版本中摸索,这真的很麻烦。一定有办法解决这些兼容性问题,不过这可能需要从零开始重建。
此外,还可以开发某种简化的计算系统,类似一种可以在任何硬件上运行的通用语言,去解决可重复性的问题。对于 AI 计算来说,这是一项特殊的挑战,因为 AI 模型通常需要在特定版本的 ONNX 上运行,而且计算量都很大。试想,如果你能得到某种 git hash,让你能够一键复现特定的函数调用或计算,那肯定会非常有用。
机器学习确实已经有一些交换格式,但还有很多工具开发的空间。比如说,我们特别需要一个支持不同精度整数运算的工具。现有的框架如 PyTorch 就缺少一些基础功能,比如将 int8 乘以 int8 矩阵,在 int32 中累加,乘以指定标量,然后限制在 int8 范围内这样的操作。要实现这类功能,可能需要即时编译(JIT)来处理众多可能的情况,同时还要考虑内核融合。更进一步,如果能在这样的工具包基础上添加自动微分功能,让用户能够自由扩展或配置(因为需要处理各种近似计算并适当调整梯度),那就更好了。简单来说,我们需要的是一个「支持整数的 NumPy」,再加上即时编译和可配置的自动求导工具。我相信这样的工具会有很大的市场需求。
机器之心:在当今竞争激烈的环境下,您对 AI 从业者的职业发展有什么建议?
Dan Povey:我从来都不是特别在意职业发展。比如说,我从微软研究院离职去约翰霍普金斯大学当研究科学家,按传统标准看这可能是职业上的倒退,但我当时只是想集中精力做 Kaldi 开源项目,后者对我来说更重要。
我认为过分关注「职业发展」并不是什么好主意,因为这可能导致你做出让生活变糟糕的决定。仅仅因为某件事在金钱和地位上是一种进步,并不意味着它会让你幸福快乐,或者实现你其他的人生目标。我记得有人问过乔布斯这个问题,乔布斯说「这不是职业,而是生活」,我觉得他说得很有道理。
机器之心:对于那些想在这个领域做出真正贡献的年轻人,您有什么建议?
Dan Povey:首先,我认为你得诚实面对自己真正想要的是什么。有时候当人们说想要为领域做贡献时,他们真正想要的是赚钱出名,这两者并不一定能同时实现。
我记得有段时间,如果你是学 AI 的,很容易就能成为百万富翁——之前我在微软研究院有个实习生叫 Oriol Vinyals,我经常在新闻上看到他,我不知道他是不是在 OpenAI,他就很有钱——在那个特定的时期,有天赋的人确实有机会变得非常富有,但关键是,除非你真的才华横溢,这种机会可能很难再次出现了。
也许未来的关键领域会来自我们意想不到的地方,比如化学,谁知道呢?
机器之心:在我们结束前,您还有什么想和观众分享的吗?
Dan Povey:我觉得世界各地都存在这样一个问题,那就是人们过于关注名利。父母会让孩子参加各种课外班,学钢琴或其他才艺,即便孩子本人并不感兴趣,这样做只是为了进名校而已。他们最终可能会被名校录取,毕业后找到一份高薪工作,然后用工作得来的钱去买名牌产品,一切都是在追名逐利。
但这不一定能让人幸福。也许回乡下种田,结婚生子会更幸福。
如果你选择了某条路,要认真考虑这条路会把你带往何方。在西方国家有个「博士后陷阱」,也许在中国情况有所不同,但我觉得有很多工作都有这样的倾向:你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。
嘉宾简介
Daniel Povey 博士毕业于英国剑桥大学,先后就职于 IBM 和微软。2012 年加入美国约翰霍普金斯大学,任语言和语音处理中心副教授。2019 年 10 月加入小米,担任集团语音首席科学家。2022 年 12 月,凭借在语音识别和声学建模方面的杰出贡献当选 IEEE Fellow。
Daniel Povey 博士是著名开源语音识别工具 Kaldi 的提出者和主要维护者,被业界称为「Kaldi 之父」。Kaldi 项目在学术界和工业界都极具影响力,广泛应用于各研究机构和国内外知名公司,有力推动了智能语音处理的产业化。
Daniel Povey 在智能语音处理的技术上做出了非常多的贡献。他首次将序列区分性训练方法应用于语音识别,他提出的 LF-MMI 建模方法至今仍为商用语音识别系统普遍使用的标准技术。他也是将深度学习用于语音识别领域的重要引领者,在语音识别中推广了时延神经网络,配合 LF-MMI 训练,是 2015-2020 年学术界和工业界普遍使用的最佳组合。他还是深度学习在声纹识别领域的重要引领者,提出的 X-vectors 方法是第一个取得成功并被普遍应用的深度学习说话人识别方法,广泛应用于工业界。他在国际顶级会议和期刊发表论文 200 多篇,谷歌学术引用近 52000 次,h-index 70,担任 Signal Processing Letters 的终身副主编。