堪称“玄学”！百度机器翻译技术获重大突破：能预测发言者未来几秒的内容！

其实这是百度在机器同传中研发的最新技术，有预测和可控延迟能力，能实现两种语言之间的高质量、低延迟翻译。它的出现让机器同传又有了新进展！

同声传译是一项很重要的工作，在国际会议、外交谈判、演讲等场合，只要交流之间出现了两种语言，就需要同声翻译的帮助，他们会在现场听取演讲，并实时翻译成另一种语言。

这是百度同传的脑补现场，当说到“百度在18年前”时，AI 就预测出了“started a business”

另外一点是！百度同传可以个性化控制翻译时的延迟速度，像法语和西班牙语这种比较接近的语言，延迟就设置在比较低的水平。

但是，英语和汉语这种差异较大的语言，以及英语和德语这种词序不同的语言，延迟可以设置为较高水平，从而更好地应对差异。

人类同传译员在接到翻译任务后，通常会提前很多天学习相关知识，进行“备课”，为的就是更好地应对陌生词汇而临危不惧。

于是，百度工程师们模仿了这一准备过程，让机器同传也能通过快速融合领域知识策略，快速学习专业知识，提前“备课”。

当 AI 同传接到某一个领域的翻译任务时，系统会收集该领域数据并在通用模型的基础上进行增强训练，最后对该领域术语库进行强制解码，使专业术语翻译得准确可靠，且提升翻译效率。

区别于传统的上下文相关建模技术，百度推出了上下文无关音素组合的中英文混合建模单元，包含1749个上下文无关中文音节和1868个上下文无关英文音节。这个方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。

根据语音识别模型常犯的错误，在训练数据的时候加入噪声数据，让模型在接收到错误的语音识别结果时，也能在译文中纠正过来。

比如，语音识别系统将“大堂”错误地识别为“大唐”，这一对噪声词被收录到训练数据里，再把源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”，而保持目标语言翻译不变“Let's meet at the lobby of the hotel”，同时将这两个中文句子存储在它的“大脑”里面，以后再出现类似的情况会更轻松地解决！

和咱们人类译员相比，机器最大的优势是不会因为疲倦而导致译出率下降，能把所有“听到”的句子全部翻译出来，这让机器的“译出率”可以达到100%，远高于人类译员的60%-70%。

同声传译被广泛应用于政府间的峰会、多边谈判和其他商业场合，但是同传人员稀缺也成为了当前的棘手问题。

研发百度同传的目的，并不是取代人类译员，而是为了降低同传成本，让同传的应用范围更加广泛。我们希望世界各地的人在 AI 的帮助下早日实现“无障碍”的交流，用科技让复杂的世界更简单！

↑ 上一篇：陈羽凡（云南百度百科）
↓ 下一篇：行业简报 - 2018年8月贵州家装行业搜索简报