En
全站>新闻中心> 详情

中译语通CEO于洋在中国人民大学新闻界校友论坛(2017)上的发言

公司新闻 来源:中译语通日期:2017-10-04浏览次数:133

中译语通CEO于洋

尊敬的刘伟校长,尊敬的赵启正主任、郭卫民副主任,尊敬的各位新闻界的前辈,各位老师,大家下午好。

非常非常地荣幸,能够参加今天的中国人民大学新闻界校友论坛。站在这里俨然感觉自己已经成为了一名新闻人,感到无比的荣耀。

我所服务的中国对外翻译有限公司,成立于1973年,是共和国的第一家翻译公司,通过语言之间的转换向世界传递着中国的声音。在2013年我们设立了中译语通,也就是我担任CEO的这家公司,今年即将满五岁,一周前刚刚完成股份公司的设立,正努力向IPO前进。就是这初生的牛犊正在尝试着使用机器翻译、大数据和人工智能为人们展开一个未曾想象,不曾触及和无法探知的数据世界。而正因此,才得此殊荣与人大新闻学院结缘,才不知深浅踩进了新闻界,还试图努力地去探究新闻大数据的究竟。

十多年前,我还是一名小翻译,翻翻文件,做做同传,一切按部就班。八年前,聊起机器翻译嗤之以鼻,恨不得蔑视的眼神就可以把提问者杀死。谁曾想五年前,自己开始研究机器翻译,三年前开始研究大数据。就在2016年横空出世的“阿尔法狗”和后来的“大师”成为了AI崛起的标志性事件。也就在这一年,我们也提出了“新闻大数据”概念,想象着是不是能够打破时间,打破空间,打破语言的障碍,去定性定量的分析全球的数据。倒退三年时间,这是何等的痴心妄想。

当我们在搜索引擎中,搜索中文关键词时,得到的只有中文的结果;当我们搜索英文的关键词的时候,得到的只有英文的结果。事实上对于数据而言,语言仅仅是其一个标签,一种属性,我们检索数据时,我们理应获得的是中文、英文、法文、俄文等等所有相关联的数据。对这些数据再进行定性定量地分析,其产生的价值不可想象。

在今天,我们建构起的机器翻译已经覆盖了35种语言,1190个语言方向,每天超过1.5亿次的访问,相当于每天要翻译30亿字。用于大数据计算的使用次数则超过200亿次/天,相当于每天翻译4000亿字。我们的全球新闻大数据,每一天更新3000万篇全球数据,5亿条社交媒体数据,这些数据覆盖了65种语言,200多个国家。我们有全球1979年1月1日至今产生的每一条新闻数据。这些数据如果使用我们常用的硬盘存储的话,可以堆一米高,铺满整个会议室。

我们尝试着把每一条数据结构化,结构出时间、地点、人物、主体、事件等等,标示出数据的分类特征,建构起知识图谱。我们一次又一次地尝试将1000万条,1亿条,10亿条数据,1年的、5年的、10年的数据的知识图谱去叠加分析与比较。我们做到了,在地图上一条数据一个标点,一个属性一个维度,跨越了语言,跨越了时间,跨越了空间,我们分析出了城镇化、经济增长与空气污染的关联关系。

我们尝试着用开放的新闻社交数据去预测上市公司的股价。我们把每一条数据标注上是融资并购、产品发布、资产评级等等数十个属性标签,通过不同语言的语义分析、不同领域的情感分析、量化分析数据和历史数据比对等十多种维度的算法结合,绘制出上市公司的股价预测曲线。包括今年以来腾讯、麦当劳等上市公司出现的社会性事件的股价预测,都得到了精准预测。

我们尝试着用开放的新闻数据绘制出了每一项技术的生命曲线。我们把过去10年,过去20年的数据汇集在一起,区分技术萌芽、专利技术、产品应用、企业研发、行业应用、技术升级等等数十个维度,绘制出了一条真实的技术生命曲线,从此他不必再是那条亘古不变的一条曲线,也不必再是某位专家说哪个阶段就是那个阶段,现在一切都有了数据可依。

在百精院长的启发下,我们还尝试着写出了恐慌算法。通过恐慌算法,我们尝试着进行安全危机(军事冲突、恐怖主义、暴力冲突和公共安全),灾难灾害,公共卫生与疾病、生态环境和经济恐慌等进行预测分析。通过大数据分析,以帮助我们了解各种社会恐慌的程度,提供决策参考,以及时恰当地进行危机管理。

大数据、云计算、人工智能将驱动人类社会发展的未来几十年。在这人工智能时代的上半场,数据驱动下的人工智能将成为其鲜明特征。而赋予数据以智能,唯人类的思想与智慧而无他。数据需要在坐的新闻学界的大学者、大专家去教会机器,给它建构起认知学习的标准,思考问题解决问题的逻辑和经验。而机器将延展人类的智慧,进一步帮助我们扩大认知的广度与深度。

我想这也是中译语通与人大新闻学院结缘的真正原因。我们愿意,将我们在新闻大数据领域的尝试与探索分享,愿意为新闻传播研究贡献一份微薄的力量。谢谢大家!

扫描二维码分享到微信

联系我们