构建一个通用的翻译系统,帮助每个人获取信息并更好地相互联系,是机器翻译(MT)领域的终极目标。
随着出海环球化的发展,MT 已经成了很多企业的必需品。
但是,MT 领域须要肃清一些基本的限定,才能使这样的未来成为现实。
为此,ArchSummit架构师峰会约请了华为 2012 实验室机器翻译算法卖力人魏代猛老师,来分享华为翻译方面的履历。

华为翻译:要自力自登时做年夜大好人工智能必须软硬结合_华为_机械翻译 AI简讯

InfoQ:能否先容一下华为自研推理框架 Optimus?

魏代猛:下图为华为自研推理框架 Optimus 的架构图

华为机器翻译框架 Optimus 有以下几个特点:

依托于华为 Mindspore 实现高性能的跨平台的演习。
利用 Mindspore 的二阶优化,相对付其他框架来说能够有 30%的演习速率提升。
可在传统的 GPU,CPU 上演习,也可以在华为自研的昇腾芯片演习。
高性能跨平台的机器翻译模型推理。
Optimus Core 是华为机器翻译实验室和华为 Noah 高性能打算实验室联合打造的高性能跨平台推理组件。
通过深入地解构机器翻译算法并且深度领悟硬件特性,我们着重打造在 CPU 和 ARM 上的极致推理,并且也能够具备和 GPU 和昇腾芯片上一样的高性能。
跨演习框架的模型适配。
通过 Optimus Adapter 可以完成其他演习框架演习的 NMT 模型,自动转换为 Optimus 能够推理的模型,让推理和演习平台解耦,方便快速工程支配。
丰富的 NMT 预演习模型。
Optimus 具备多种语种的大规模演习的机器翻译双语和多措辞模型。
为方便支配,我们还有可以一键支配的措辞检测、实体识别、自动质量评价、自动译后编辑等 NMT 周边的预演习模型,方便 NMT 生态快速产品化。

华为机器翻译比较 Google 机器翻译等业界机器翻译团队,起步比较晚。
我们的核心问题一贯是如何利用深度学习快速发展的阶段,在 NMT 这个领域通过后发上风,做到业界领先。

在早期,我们通过华为 Noah 实验室和国内外高校紧密持续的互助,将 NMT 模型快速赋能到华为机器翻译团队。
随后,再通过弘大的人工翻译团队和在 ICT 中积累的 20 年履历,持续打磨 ICT 模型。

我们先后考试测验了业界中最新的各种算法和模型,快速迭代,利用大量的高质量问题反馈,持续的提升机器翻译,并且积累了大量的工程和算法履历。
末了,我们再将履历推广到其他领域和其他语种,做到语种数量快速扩展。

InfoQ:华为是如何办理在长间隔调序、译文流畅度等技能难题的?

魏代猛:随着端到端机器翻译架构的引入,机器翻译的调序实现了完备的自动化。

比如机器翻译范例框架 Transformer 的解码过程,是将输入先通过 encoder 编码为一组向量,解码的时候是通过把稳力机制,确定输入内容哪些信息影响大,哪些影响小,然后一个词一个词地解码,这些都是自动的过程,不须要其他的算法干预。

而对付长度问题,机器翻译也有一套办理方法。
从模型侧看,早期的 RNN 构造,对长句子解码效果不太好,由于它是从左到右的编码的,句子太长了,后面的内容对前面的信息的感知就会差一些。
但是 Transformer 很大程度上办理了这个问题。

Transformer 的算法担保了每个词之间的间隔都只有 1,很好地办理了编码的问题。
编码和解码器之间的信息互换可以通过 Cross Attention 来办理,这对付长句子来说也很关键。

从工程侧来看,我们输入一段长的内容翻译,一样平常都会经由分句、分词输入到模型。
分句的目的便是通过标点符号,将长段落变成一个一个的句子,这减少了每次输入模型的长度。
其余通过分词等让句子变成一个一个的词组,对中文来说,也能够减少长度。

关于流畅度,NMT 本身流畅度较佳。
再想提升,常日假如通过单语增强来提升,也便是 Back translation。

InfoQ:方言翻译和官方措辞翻译有什么差异吗?在这个过程中,您有什么履历能和大家分享吗?

魏代猛:其实在机器翻译中很少有方言这个观点,方言和官方措辞的差别紧张是在读音上,在笔墨上差异实在是可以忽略不计的。
方言的问题一样平常在语音识别中比较突出,由于方言的分外性,有些字虽然意思相同,但是读音差别却很大。

机器翻译更关注的是内容的差别。
比如诗歌翻译,对机器翻译来说就很难。
诗一样平常是高度抽象的,你要理解他的意思就须要很多干系的知识,还有很多的典故。
这类问题我们一样平常可以归结为领域问题,通过领域增强的策略也能够提升效果。

InfoQ:随着措辞数量增多,您的小组是如何办理模型数量多、系统支配和掩护本钱高档一系列技能与家当难题的?

魏代猛:华为内部的 AI 系统在支配掩护上有比较完善的体系,资源上我们可以依赖华为云,演习和支配上我们依赖于 ModelArts,他们是华为专门做人工智能演习和支配以及掩护的部门。
因此,这块对我们来说问题就没有这么突出了。

InfoQ:华为机器翻译模型利用华为自研机器学习框架 Mindspore + 华为的昇腾芯片,该芯片有什么浸染,业内有什么替代品吗?

魏代猛:无论是 Mindspore 和昇腾芯片,实在我们都是学习业界的,是业界已经有的东西。
比如 Mindspore 是机器学习演习框架,这种框架业界有 Google 的 TensorFlow,Facebook 的 Torch,海内百度的 PaddlePaddle 等等。

昇腾芯片是大规模矩阵运算依赖的芯片,业界也有很多类似的芯片,做得最好的还是 NVIDIA,我们总体上还是追赶者的角色,尤其是芯片受到限定之后。

既然业界啥都有了,我们为什么还要做呢?我们认为,如果要做到极致的演习和推理,并且独立自主,必须得有自己的演习框架和芯片,而且只有这种软硬结合的策略才能在人工智能发展中构筑强大的竞争力。

而且我们还可以利用后发上风做到超越,比如我们 Mindspore 的二阶优化,便是业界首推的。

InfoQ:您怎么看多组双语模型和多措辞翻译模型?

魏代猛:多组双语模型和多措辞模型,实在从实质上来说没啥大的差异,从模型构造上来看,乃至可以说是千篇一律的。

NMT 发展的早期大家都是关注双语模型的,后来 Google 创造仅仅是相同的模型构造,只用在演习的时候对数据做一些标识,就能够完成多措辞的效果。

多措辞模型相对付多组双语模型来说,有个明显的上风便是,一个模型可以干很多事情。
这非常利于工程支配,尤其是对付低调用量的模型。

举个例子来说,我们本来支配了 10 个 GPU 的模型,但调用量却很低,有些 GPU 大部分韶光都是没有调用量的或者很少的调用量;如果用一个模型办理多语种的问题,那么我们就可以支配 2 个 GPU 的模型。
这两个模型支持了相同数量的语种的同时,提高了利用率,减少资源的空闲。

多措辞模型也有它的特点。
比如我们演习的语种是 xx2en 的,这类型的多措辞模型,一样平常会对低资源语种增强效果很明显,但是如果是 en2xx 的这种模型,对付高资源的语种影响很大了,一样平常会有 1-2Bleu 的衰减。
为了缓解这类问题,我们可以采取措辞独立的适配层,或者增大模型容量等策略。

InfoQ:低资源翻译仍旧是 MT 的 "末了一公里 "问题,也是该子领域目前公开的最大的寻衅,华为在这方面有什么思考吗?

魏代猛:低资源可以大略地分为领域低资源和语种低资源:

领域低资源是指翻译的内容属于某个特定的领域,而这个领域的数据比较少,比如医疗领域的数据总是较少,以是医疗的内容一样平常翻译的就不会特殊准确语种低资源是指,我们要翻译的语种本身便是一个低资源的语种,比如纽因特语,利用这种语种的人目前就比较少,导致语料积累很少

对付领域低资源问题来说,问题很多时候是演化成办理领域的术语或者特有词翻译的问题上,如何准确的翻译这类领域特色内容是办理这类问题的关键,目前我们也考试测验了很多的方法,包括通过大的预演习模型增强,术语硬干预和软干预,领域数据积累等等策略,这些都能够较为有效的办理此类问题。

对付语种低资源问题,实在从产品的角度考虑,纵然这类模型翻译的质量比较差,但是由于利用人数的关系,导致这类问题影响范围较小,办理优先级很可能比领域低资源要低。

不过语种低资源问题的研究大概多,我们一样平常利用多措辞增强和单语增强来办理这类问题。
大略地说,可由通过低资源语种相同语系的高资源语种来增强。
另一方面,低资源语种的双语虽然少,但是单语相对来说一样平常都会多很多,通过迭代 BT 等策略,就可以充分地利用低资源语种的单语来提升模型的质量。

高朋先容:魏代猛,华为 2012 实验室/机器翻译算法卖力人,北京大学机器学习硕士,10 年华为事情履历,从 0 到 1 构建华为机器翻译模型,参与华为机器翻译模型的每个语种演习调优。
华为机器翻译模型现已支持近 100 种措辞互译,除了有力支撑华为 30 万员工内部办公互换等场景外,还支撑着华为各个产品和做事的机器翻译,包括华为手机、华为音箱、华为腕表和 HMS 以及华为云等业务。

理解更多软件开拓与干系领域知识,点击访问 InfoQ 官网:https://www.infoq.cn/,获取更多精彩内容!