Page 1 of 1

大数据与机器翻译如何联手抗击 COVID-19

Posted: Tue Mar 18, 2025 3:19 am
by shukla7789
赖安·克
赖安·克
阅读时间:8分钟
大数据与机器翻译

历史上,很少有事件比 COVID-19 疫情更能引起公众对大数据重要性的关注。从世界各地收集的统计数据正在推动公共政策并影响私人行为。在这里,我们将重点关注这场全球斗争的语言层面,即向政策制定者、医疗服务 肯尼亚电话号码数据 提供者和普通公众传达重要信息。挑战在于如何跨越语言界限传达快速变化的数据,以便重要信息不会在翻译中丢失。但大数据也有更具争议的用途,这些用途在寻找用户的过程中需要进行翻译。

内容
领先企业利用大数据进行机器翻译
社交媒体翻译和 COVID 追踪中的隐私挑战
翻译与自愿收集数据有关的隐私问题
机器翻译和口译的大规模公共用途
大数据和机器翻译项目的风险和陷阱
领先企业利用大数据进行机器翻译
鉴于问题的规模,翻译服务正日益向机器翻译的效率和吞吐量让步。人工翻译和口译人员根本不够用。幸运的是,由于过去十年神经网络方法的应用,机器翻译的质量已大幅提高,这主要归功于该领域最大的科技公司的发展,这些公司被统称为 FAMGA:Facebook、Apple、Microsoft、Google 和 Amazon。这些公司都以自己的方式依靠大数据在语言领域竞争。然而,他们不是在处理数字,而是在处理文字。

社交媒体翻译和 COVID 追踪中的隐私挑战
Facebook 在 2019 年 WMT 竞赛的多个类别中均夺得第一名,它利用了大规模采样反向翻译,这是一种基于神经机器翻译的大数据技术,需要大量双语训练数据——有参考翻译的句子。双语数据很难获得,因此 Facebook 团队使用反向翻译作为一种解决方法。最终,该团队使用了大约 100 亿个单词的额外数据来完成这项任务。Facebook 拥有无与伦比的内容访问权,使用其约 20 亿用户的评论和帖子作为训练材料。


在语言竞赛中,将发布的语言用于实验目的是一回事。利用会员发布有关敏感健康问题(如新型冠状病毒和 COVID-19 疫情)的帖子则完全是另一回事。正如布鲁盖尔研究所的 J. Scott Marcus 所观察到的,用户以各种方式“自愿”提供信息:在社交媒体上发布帖子、在使用移动服务和提供位置数据时、在寻求健康信息时。据 Marcus 称,大数据已用于 COVID 战略规划、追踪潜在感染者以及向感染者和公众提供指导、建议和信息。