中译语通CEO于洋在中国人民大学新闻界校友论坛（2017）上的发言

本部要闻 来源：中译语通日期：2017-10-04浏览次数：673

中译语通CEO于洋

尊敬的刘伟校长，尊敬的赵启正主任、郭卫民副主任，尊敬的各位新闻界的前辈，各位老师，大家下午好。

非常非常地荣幸，能够参加今天的中国人民大学新闻界校友论坛。站在这里俨然感觉自己已经成为了一名新闻人，感到无比的荣耀。

我所服务的中国对外翻译有限公司，成立于1973年，是共和国的第一家翻译公司，通过语言之间的转换向世界传递着中国的声音。在2013年我们设立了中译语通，也就是我担任CEO的这家公司，今年即将满五岁，一周前刚刚完成股份公司的设立，正努力向IPO前进。就是这初生的牛犊正在尝试着使用机器翻译、大数据和人工智能为人们展开一个未曾想象，不曾触及和无法探知的数据世界。而正因此，才得此殊荣与人大新闻学院结缘，才不知深浅踩进了新闻界，还试图努力地去探究新闻大数据的究竟。

十多年前，我还是一名小翻译，翻翻文件，做做同传，一切按部就班。八年前，聊起机器翻译嗤之以鼻，恨不得蔑视的眼神就可以把提问者杀死。谁曾想五年前，自己开始研究机器翻译，三年前开始研究大数据。就在2016年横空出世的“阿尔法狗”和后来的“大师”成为了AI崛起的标志性事件。也就在这一年，我们也提出了“新闻大数据”概念，想象着是不是能够打破时间，打破空间，打破语言的障碍，去定性定量的分析全球的数据。倒退三年时间，这是何等的痴心妄想。

当我们在搜索引擎中，搜索中文关键词时，得到的只有中文的结果；当我们搜索英文的关键词的时候，得到的只有英文的结果。事实上对于数据而言，语言仅仅是其一个标签，一种属性，我们检索数据时，我们理应获得的是中文、英文、法文、俄文等等所有相关联的数据。对这些数据再进行定性定量地分析，其产生的价值不可想象。

在今天，我们建构起的机器翻译已经覆盖了35种语言，1190个语言方向，每天超过1.5亿次的访问，相当于每天要翻译30亿字。用于大数据计算的使用次数则超过200亿次／天，相当于每天翻译4000亿字。

我们尝试着把每一条数据结构化，结构出时间、地点、人物、主体、事件等等，标示出数据的分类特征，建构起知识图谱。我们一次又一次地尝试将1000万条，1亿条，10亿条数据，1年的、5年的、10年的数据的知识图谱去叠加分析与比较。我们做到了，在地图上一条数据一个标点，一个属性一个维度，跨越了语言，跨越了时间，跨越了空间，我们分析出了城镇化、经济增长与空气污染的关联关系。

我们尝试着用数据去评估上市公司的股价。我们把每一条数据标注上是融资并购、产品发布、资产评级等等数十个属性标签，通过不同语言的语义分析、不同领域的情感分析、量化分析数据和历史数据比对等十多种维度的算法结合，绘制出上市公司的股价预测曲线。包括今年以来腾讯、麦当劳等上市公司出现的社会性事件的股价评估。

我们尝试着用开放的新闻数据绘制出了每一项技术的生命曲线。我们把过去10年，过去20年的数据汇集在一起,区分技术萌芽、专利技术、产品应用、企业研发、行业应用、技术升级等等数十个维度，绘制出了一条真实的技术生命曲线，从此他不必再是那条亘古不变的一条曲线，也不必再是某位专家说哪个阶段就是那个阶段，现在一切都有了数据可依。

在百精院长的启发下，我们还尝试着写出了恐慌算法。通过恐慌算法，可以帮助我们了解各种社会恐慌的程度，提供决策参考，以及时恰当地进行危机管理。

大数据、云计算、人工智能将驱动人类社会发展的未来几十年。在这人工智能时代的上半场，数据驱动下的人工智能将成为其鲜明特征。而赋予数据以智能，唯人类的思想与智慧而无他。数据需要在坐的新闻学界的大学者、大专家去教会机器，给它建构起认知学习的标准，思考问题解决问题的逻辑和经验。而机器将延展人类的智慧，进一步帮助我们扩大认知的广度与深度。

我想这也是中译语通与人大新闻学院结缘的真正原因。我们愿意，将我们在新闻大数据领域的尝试与探索分享，愿意为新闻传播研究贡献一份微薄的力量。谢谢大家！

中译语通CEO于洋在中国人民大学新闻界校友论坛（2017）上的发言

联系我们