机器翻译
机器翻译是机器学习领域的一个典型应用场景
机器翻译技术分类
基于规则 - 这类翻译引擎的工作原理是解析源语言句子,分析其结构(例如,确定哪些词汇用作动词或名词),接着将句子转换为中间的、机器可读的代码,然后再将它们转换为目标语言。
Apertium是由西班牙Universitat d’Alacant主导的开源项目。他们已开发出一种基于开源规则的翻译引擎,使用户能够创建面向任何语言对的自定义翻译引擎。这为基于规则的翻译引擎解决了一个重要的问题,即商业供应商不用再投资开发不太常见的语言对的规则机器翻译引擎,例如,西班牙语←→加泰罗尼亚。开发自定义的引擎是一项庞大的任务,因为其中涉及到开发词典、解析规则等,这需要有精通源语言和目标语言的语言学家参与。
基于规则机器翻译的主要供应商包括Systran、PROMT、Lucy Software(商业软件)和Apertium(开源)。
基于实例 - 基于实例的机器翻译类似于统计机器翻译,因为前者也需要使用大量的平行文本(源句段及其翻译)来训练系统。基于实例的翻译的逻辑是将句子视为经常重复的短语的组合,这些短语可以单独翻译并组合起来形成一个译文。
基于实例的机器翻译还没有独立的商业化产品或服务,但是你可以找到两个开源项目Cunei和Marclator。这些开源项目只适用于专业软件开发人员和系统管理员,并不是面向最终用户的交钥匙解决方案。
基于统计 - 统计机器翻译是当今使用的最流行的机器翻译。它的工作方式是使用非常庞大的平行文本(源文本及其翻译)以及单语语料库训练翻译引擎。系统会寻找源文本和译文(针对整个句子、句段内的较小的短语或N-grams)之间的统计相关性。然后对源语言句子,去查找概率最大的译文。翻译引擎本身没有规则或语法概念。
很多公司提供统计机器翻译,他们大部分使用的是开源翻译引擎Moses。
Last updated