加载中 ...
首页 > 科技 > 科技要闻 > 正文

调戏微软文言文 AI 翻译:“永不舍汝”、“其母之”是什么鬼

2021-08-31 17:01:45 来源:广东财经网

听说微软搞了个AI翻译文言文,赶紧来试试,先来一段《曹刿论战》的开头:我震惊了,居然能把“我”翻译成“鲁国”,“公”翻译成“鲁庄公”。难道AI除了学习文言文词汇和语法,还熟读了《左传》?换成诗表现又将如何?虽然翻译出来不是很有文学性,但AI正确理解到了“望着同一个月亮”这层意思。嚯,这个翻译极大地引起了我的兴趣。如果百度和微软一起上考场既然翻译出正确词意不是太难,那文言文中的特殊语法AI能否掌握?为了更好地评估微软翻译的能力,这里请出老牌选手百度翻译,让它们比试一下。第一题:秦时明月汉时关这里考点是互文的修辞方法,应该理解成秦汉时期的明月、秦汉时期的关口。百度的答案是:看来百度没理解到位,再看看微软的答案:微软正确理解了互文,率先拿下1分。第二题:春风又绿江南岸这句的考点是词类活用,绿本来是个形容词,在这里用作动词。还是百度先来:没问题,接下来是微软:等一下,虽然绿用作动词翻译对了,可是后面怎么多了一个“可是”?难道……把后半句诗也输进去试试:果然如此,看来微软翻译在用整句进行训练的时候掌握了句与句之间的转折关系,后来不知怎么又算到前半句里了。这次百度扳回一局,1:1平。最后一题考验一下文言文中的另一个常见语法现象——倒装比如《邹忌讽齐王纳谏》中的“我孰与城北徐公美?”按惯例百度先:然后是微软:看来两个AI都学会了倒装句的用法,最终结果2:2平,各有千秋。微软翻译虽然多学会了一个互文,但毕竟还是年轻选手,对句子之间关系的处理需要再练习。接下来挑战一下微软文言文翻译的极限。比如维基百科其实就有个文言文版叫维基大典,里面刚好有微软的词条。来试试让微软AI翻译一下自己公司的介绍:看起来现代的伪文言文对于这个刚出生的小AI来说还是太苛刻了。虽然也特别训练了“微软”和“电脑”这种现代才出现的名词,但遇到“一九七五年”这种古代不用的表达就不行了,前老板比尔盖茨的名字也没认出来。“立之者”这里还按古文的语境脑补出一个“国君”,可能这就是过拟合吧。说到现代的表达方式,其实这个翻译工具还可以倒过来用,把白话文译成文言文。比如诸葛丞相那句“我从未见过有如此厚颜无耻之人!”要是用文言文说出来是不是就更对味了?那么,这样的模型是怎么“炼成”的呢?Transformer加成,专攻训练数据用AI搞文言文翻译,确实不是头一回见。百度是最早用机器学习做文言文翻译的,还申请过相关专利:「一种在白话文与文言文之间进行文体转换的方法和设备」。相关文言文翻译的模型也不少,从机器学习、RNN到Transformer都有,像微软这次采用的,就是Transformer模型:▲图源:微软研究院AI头条不过,文言文翻译中的训练数据,却一直是个难点。相比于其他主流语言(中文现代文、英文等),文言文可以说是训练数据极少,同时还存在句式变换、繁简混合等问题,造成翻译的生硬。这次微软的文言文翻译,主要就解决了四个方面的数据问题:其一,针对数据量不足,利用相同字词进行数据合成和增强。文言文和现代文有一些相同含义的字词,如果对这些词语进行召回、对齐,再扩展到短词短句,就能合成大量可用的训练数据。其二,针对句式变换不灵活,对数据格式进行变形,提升鲁棒性。文言文断句和现代文不太一样,为此研究人员通过数据格式变形,来扩大训练数据量,让模型也学会翻译类似语句。其三,针对字体识别不力,用简繁混合数据训练,提升模型识别能力。为了让机器学习能同时识别简繁混合的文言文,研究人员在训练模型时会将简体中文和繁体中文数据混合在一起进行训练,确保翻译模型不出错。其四,针对现代文的“新词”,专门建立相关数据集和识别模型,确保不“乱翻译”。为了避免模型在遇到现代文中的“高铁、电脑、互联网”这种词时出现混乱(例如将高铁翻译成高处的铁块),研究人员建了一个模型,专门用来识别这些新词。除了新词,也针对博客、论坛、微博等新文体进行训练。然而这都还只是文言文和中文之间的互译,整点英文试试?英译中,bug藏不住了这次微软的文言文翻译是直接整合到了Bing翻译里,难道还可以把文言文翻译成外语?先挑战一下单个的英文句子:Nevergonnagiveyouup看来简单句没有难倒AI,我们提升一下难度,用一首比较著名的英文诗「当你老了」试试:等等,“灰暗”、“阴景深”、“弯下腰在酒边”……这都是什么鬼?简单的句子似乎还好,然而一到长句子,怎么就翻译成这样了?不过,微软也说过,这次主要实现的是文言文和现代文互译,说明其他语言在翻译成文言文之前,应该也需要先翻译成现代文。那来看看微软的英译中效果怎么样:破案了,微软的英译中确实不太行……可能也是导致英文翻译成文言文出现失误的原因。相比之下,从文言文翻译现代文、再翻译到中文的效果要稍微好一点。顺带一提,虽然正经的英文字句翻译得不太行,不过在这种字词的翻译上……竟然还有点文艺?看来以后可以和翻译模型学习如何优雅地骂人了。(手动狗头)微软文言文翻译地址:

“广东财经网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱1098101642@qq.com,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。

  • 声音提醒
  • 60秒后自动更新
  • 【民政部回应何时恢复婚姻登记】民政部社会事务司二级巡视员杨宗涛表示,婚姻登记场所是人群聚集场所,部分地区暂停婚姻登记工作是对人民群众安全负责。未停止登记的地方推广用电话、网络、qq群预约登记,控制登记人数,分批分段登记,减少人员聚集和在登记机关停留时间。已停止婚姻登记地方将根据当地疫情控制情况逐渐恢复。

    15:54
  • 欧洲央行副行长金多斯:欧洲央行还没有达到逆转利率。宽松政策的副作用更明显了。

    15:54
  • 财经网站Forexlive分析师Justin Low评瑞士1月CPI月率:尽管通胀年率保持稳定,但核心通胀率有所下降,这一点令人更加担忧。这只是进一步巩固了瑞士央行维持现有货币政策不变,并可能在未来寻求更多宽松措施的观点。

    15:54
  • 【武汉两大批发市场商户开业率超过80%】商务部市场建设司司长朱小良10日称,目前武汉生活必需品供应基本正常,除冷鲜肉、鲜叶菜等少数品种存在结构性短缺外,大部分重要生活物资供应充足,未发生明显抢购或脱销断档情况。当地白沙洲和四季美两大批发市场正常营业,商户开业率超过80%,日交易量上升至3000吨以上。(国是直通车)

    15:53
  • 【日本2019年经常项目顺差增长4.4%】日本财务省10日发布的国际收支初步统计报告显示,主要受外国人入境游消费扩大影响,2019年日本经常项目顺差增长4.4%。报告显示,2019年日本经常项目顺差为20.06万亿日元(1美元约合109.8日元)。其中,商品贸易方面,由于液化天然气价格下跌等因素,进口下降5.6%至75.56万亿日元;由于汽车部件及钢铁等产品出口减少,出口下降6.3%至76.12万亿日元。货物贸易顺差减少53.8%,为5536亿日元。(新华社)

    15:53
  • 欧元兑美元EUR/USD短线波动不大,现报1.0952。

    15:53
  • 瑞士1月CPI年率:0.2%,前值:0.2%,预期:0.1%;瑞士1月CPI月率:-0.2%,前值:0%,预期:-0.2%。

    15:52
  • 英镑兑美元GBP/USD短线走低13点,现报1.2890。

    15:52
  • 【宁德时代“供电”国产特斯拉 有望拉低售价20%】全国乘联会秘书长崔东树分析认为,“随着特斯拉国产化率提升和产能爬坡,未来特斯拉国产车型的价格下探空间还是很大的。”他预计今年下半年,国产Model 3车型的售价就有望降至25万元,降幅接近20%。(新京报)

    15:51
  • 【内蒙古:对不裁员或少裁员企业返还上年度50%失业保险费】据内蒙古新型冠状病毒肺炎疫情防控工作指挥部消息,疫情期间,内蒙古对不裁员或少裁员的企业返还上年度实际缴纳失业保险费的50%,对面临暂时性经营困难的中小企业,返还标准提高到上年度6个月企业及其职工缴纳社会保险费的50%。

    15:51
  • 【商务部:2019年服务进出口总额54152.9亿元 同比增长2.8%】商务部新闻发言人表示,2019年,在服务贸易创新发展试点等政策的激励下,我国服务贸易总体保持平稳向上态势,逆差明显下降,结构显著优化,高质量发展成效初步显现。全年服务进出口总额54152.9亿元(人民币,下同),同比增长2.8%。其中,出口总额19564.0亿元,同比增长8.9%;进口总额34588.9亿元,同比减少0.4%。(第一财经)

    15:51
  • 【振华股份:疫情导致下游客户开工推迟 产品库存上升】振华化学公告,公司目前生产经营稳定,所有产能均正常开工,原材料采购能基本满足生产需要,由于疫情导致下游客户开工推迟,公司出货量减少,产品库存有所上升。公司将根据客户需求、疫情及市场变化,适度调整生产经营策略,尽可能保持生产经营的稳定。

    15:50
  • 环旭电子2月10日晚间公告,公司2020年1月合并营业收入为23.27亿元,较去年同期的合并营业收入减少27.83%,较2019年12月合并营业收入环比减少37.23%。

    15:49
  • 精测电子:与京东方集团签订了多份销售合同,合同累计金额达到6.96亿元。

    17:12
  • 华夏银行:银保监会同意本公司在全国银行间债券市场发行不超过100亿元人民币的金融债券,募集资金全部用于绿色信贷。

    17:03