En
全站>新闻中心> 详情

机器翻译都比人强了,为什么我还在复制粘贴查单词?

媒体聚焦 来源:中译语通日期:2018-09-03浏览次数:42

1.jpg

“这是全宇宙最奇特的生物。”

40年前,英国科幻作家Douglas Adams在他的《银河系漫游指南》中这样描述巴别鱼(bable fish):迷你黄色生物,水蛭状,以声音中的语言概念为食,消化后排出跟寄主同频的脑波。只要塞到耳朵里去,就可以听懂各种语言。

而在这个充满嬉皮风格的科幻作品中,来自地球的Arthur Dent也因为这条丑陋的鱼,能够完美地理解并与他遇到的各种外星种族交流。

2.jpg

自小说诞生,巴别鱼便成为了即时语音翻译的代名词。但在当时,人类的翻译技术距离这一目标仍遥不可及。

直到2014年,加拿大蒙特利尔大学的Kyunghyun Cho、Yoshua Bengio等人发布了一篇在机器翻译领域应用神经网络的论文——Neural Machine Translation by Jointly Learning to Align and Translate。

神经网络的出现,让优质高效的机器翻译不再遥遥无期。

机器翻译能力是如何赶超人类的?

神经网络迅速成为了近代机器翻译领域最有活力的“鲶鱼”。

短短两年,基于神经网络的机器翻译便已取代统计学派成为翻译领域的主流研究方法。谷歌、微软等公司也纷纷宣布将这个新的技术应用到其翻译等产品之中。两年来,神经网络翻译能力超过了翻译界过去几十年的成绩。神经网络翻译出现后,机器翻译的单词错误率降低了50%,词汇错误和语法错误率也都分别降低了15%以上。

而除神经网络的应用之外,机器翻译错误率的大幅度降低,还基于另一个条件——大规模精准平行语料数据集的积累。

决定机器翻译质量的因素中数据占据绝对的主导地位。数据量的大小和精准程度决定了机器翻译引擎的效果。

十年前,谷歌在机器翻译领域下过一个论断:数据集规模每翻一倍,它自动评价的指标就能够提升0.5个百分点。这一说法让有大规模、准确数据积累的组织、企业有了抢占机器翻译市场制高点的机会。

但是,垂直级的机器翻译并非一蹴而就,哪怕是互联网巨头们,也未轻易地将触手伸入垂直级的机器翻译领域。

为了填补了这一领域的空白,中译语通率先推出MerCube,是全球第一个企业级机器翻译硬件。

在具体场景下,想要实现产品级应用的机器翻译系统,需要上千万级别的句对。另一个方面是目前数据集的不均衡问题。在语种上,英文为主导的数据集占比较多,而偏小语种的比如波斯语、土耳其语等数据集就很难找到。除了语言不均衡,数据集领域不均衡的问题也很严重。

机器翻译技术对大量数据的需求和实际市场上流通的存量数据的差距很大,这就给了在翻译界有深厚历史积累的公司发力的机会。

互联网公司的数据积累多来自C端用户,因此数据集不均衡、数据质量差的问题突出。而脱身传统行业的翻译公司,在翻译数据集的把握上有自己的优势——更精准、更多样的数据集。例如,中国翻译领域最大的语料数据库所有者——中译语通。据了解,这家脱胎于中国对外翻译有限公司的团队了拥有37个语种的翻译语料库,掌握超过五十亿句对平行语料,上百亿句单语语料。靠着在翻译领域的这一优势,中译语通这一以语言服务起家,迅速转型为人工智能和大数据的技术公司,有望与谷歌、微软等互联网巨头,在机器翻译服务领域分一杯羹。

机器翻译服务之痛

机器翻译由于技术的进步在处理能力上正迅速赶超人类,企业用户对机器翻译的认可度越来越高,但在服务形式上多年来却几乎一成不变。目前,to b端的翻译服务主要面临两个痛点:

首先在翻译形式上,以文本翻译为例,基于c端服务的延续性,多数文本翻译模式依然是10年前的对话框字句粘贴式翻译,根本无法满足大规模、短时间翻译的需求。

3.jpg


除此之外,多数企业和个人对数据安全意识的提高,也让他们对本地化翻译有了更高要求。

目前,主要to b端的翻译服务都需要被翻译内容上云,在Facebook数据泄漏丑闻及欧盟数据安全法生效的背景下,不少企业期待更本地化、安全的翻译服务。据中译语通相关研究报告显示,仅在中国,对大规模、本地化翻译服务的需求市场高达百亿级。而“国际市场应该会更大。比如说一带一路沿线国家,整个拓展出来应该是一个巨大的市场。”中译语通称。

从硬件入手,垂直领域的翻译服务升级

这样的调研结果让中译语通看到了to b端翻译市场服务升级的巨大潜力。今年五月份,中译语通开始尝试机器翻译上to b端新的服务方式,但这不是一件容易的事情。

4.jpg

5.jpg

图:7月份的品牌战略发布会上,中译语通发布了MerCube企业级机器翻译服务器。MerCube产品性能表显示,MT G8单台处理能力可达到16000字/秒,MerCube ASR可实现将1小时的音视频在1分钟内识别、解析完成并导出文件。



“(开发这款产品的)契机更多还是市场的驱动,很多客户其实是主动来找我们,觉得这个机器翻译不错,想买这个(产品),想本地化部署。”

为了满足客户对安全性的要求,中译语通希望推出一款可以提供专属的私有化部署方式的产品,让信息在受控环境下运转,原文/译文本地化存储,解决用户的数据安全问题。

要本地化部属,首先对产品的硬件能力是一个巨大的考验。

“最开始,我们也想过让用户自己配备硬件的方式。可是在服务的过程当中,你会发现用户买的硬件是五花八门的。即使我们做好了配置,实施过程也比较曲折。”中译语通称。

此次发布的MerCube也因此直接配置了硬件能力——搭载了NVIDIA有史以来极其先进的数据中心级GPU Tesla V100,通过这种方式,一次性解决了用户的软件和硬件需求。区别于原来在标准的服务器上安装软件的方式,中译语通提供一体机的解决方案,将机器翻译引擎与硬件完美融合,从底层技术上做了改进,同等配置条件下可以大大提升处理效率。

6.jpg

图:MerCube采用了NVIDIA®NVLink™技术,提供更高带宽与更多链路,可提升多 GPU 和多 GPU/CPU 系统配置的可扩展性。

垂直领域的翻译服务依赖领域内的长期积累。

以中译语通为例,2014年其开始自主研发机器翻译引擎,同年6月发布中英统计机器翻译引擎,是继谷歌、微软、百度之后,国内最早进行机器翻译引擎研发的企业。这样的早期布局为中译语通占据了先发优势,中译语通称,目前每年的数据增长达到了平行语料两亿句对、单语语料五亿句对的速度。在2015年12月,中译语通发布了包含37个语种的机器翻译引擎,成为国内翻译领域支持语种数量最多的企业。

在机器翻译领域,每种新的语种扩展都需要千万句对,要达到工业级的应用,在数据集数量上要求更高。这也是目前很多企业放弃了这个方向的原因。

目前,中译语通的37个语种包含了“一带一路”沿线18个官方语言中的14个,并且语种范围还在持续扩大。而在这一大背景下,配合硬件产品,打通了软件和数据的垂直服务者在机器翻译领域大有可为。

(内容来源:虎嗅网)

(商业合作:business@gtcom.com.cn)


扫描二维码分享到微信

联系我们