前天(没赶上 0 点前发,只好改了时间)文心一言终于给我发邀请码了,我一下午都跟本社读者群群友沉浸在调戏国产大模型的欢乐之中。但要想写个角度独特的评测可不容易,因为这时已经有很多人都评测过了。我会逐渐梳理清楚之后再写自己的版本。
但至少有一点是明确的:文心一言在翻译方面的能力——这或许是它现阶段表现最好的一种能力了——还是没有 GPT 表现得那么稳定。这一点很重要,不是说好不好,而是没有那么稳定。也就是说,偶尔它会对某些原文掉链子。
我昨天就在翻译一篇新闻报道时遇到了这样的问题,它甚至不舍得给我把 Deloitte 翻译成德勤。这种情形,如果是在生产环节,那我是不敢一直用的,最后还要自己上的话,就耽误事了。
我现在已经义无反顾地完全使用 ChatGPT(只需要 GPT-3.5,不舍得用 GPT-4)来做翻译,就像在之前的文章《ChatGPT 对 Grammarly 说:我干掉你,与你无关?》里说的那样。此后我测试过很多篇文字,都可以无条件信任它的结果。
目前仍有很多人类的资深翻译认为,AI 大幅砍掉了人工翻译的下限,但没有定义人工翻译的上限。最常用的例子是,有一些内容涉及到大量本国的语言以及历史文化,如果不了解该国历史文化,会丧失很多阅读时的乐趣,对历史文化的翻译几乎相当于再次创作。
经过我的多次测试和实际使用,我的结论会是什么?
我将用两个实例来解释。这两个实例都跑在 ChatGPT(GPT-3.5)上,不需要 GPT-4 效果就已经足够好了;而文心一言目前无法做到同样的效果。
谁是麦太
我英语学得其实没有特别好,尽管我在自己的同龄人中比较少见地在学前班就请了英语家教,但现在还依然是哑巴英语,读和听都凑和,说和写就露怯。这也可能是中国成长的孩子们的通病吧。但自从谷歌翻译和必应翻译到达基本可用的水平后,我都会半蒙半猜地直接阅读机翻内容。以前为了学英语我会逼自己阅读英文原文,但现在到了用英语的时候,还是母语思维更为方便。
现在我可以先把下面这段翻译成英文:
My English proficiency is not particularly good, even though I was one of the few in my age group who had an English tutor before starting preschool. Nevertheless, I still struggle with both speaking and writing, while my reading and listening skills are passable. This may be a common problem among children growing up in China. However, since Google and Bing translations have reached a reasonably usable level, I often read machine-translated content with half-guessing and half-mumbling. In the past, I would force myself to read English originals in order to improve my English, but now, when it comes to using English, my native language thinking is still more convenient.
然后再翻译回来:
尽管在幼儿园前我就是少数接受英语家教的同龄人之一,但我的英语水平并不是特别好。尽管如此,我仍然在口语和写作方面有困难,而阅读和听力技能则勉强可以。这可能是在中国成长的孩子普遍存在的问题。然而,由于谷歌和必应翻译已经达到了一个相当可用的水平,我经常阅读机器翻译的内容,有一半是猜测,有一半是咕哝。过去,我会强迫自己阅读英语原著以提高我的英语水平,但现在,当涉及到使用英语时,我的母语思维仍然更加方便。
虽然丢失了一部分“醍醐味”的微妙,但作为一种工具沟通完全没问题了。我想过,如果六七年前我曾有这个工具,或许那时我会直接转为 TechCrunch 总站的撰稿人呢。(我现在也可以试试……)
机缘巧合,我订阅了一个在香港推介 NFT 的人的 Newsletter。最近,他也写到跟 AI 翻译有关的内容。他开头的一个观点跟我想的一样:
“建议把文章翻译成英语,发展海外市场。那是既能保持自媒体的纯粹,又能增加一个全新发展维度的‘低垂的果实’。”
中文世界有很多完全不输给英文同行的优秀写作者以及同样优秀的文字作品,但因为语言关系,没有被译介过去,而只能得到发展中国家的评价和待遇。打破“次元壁”的最好办法就是通过翻译,而所有在 ChatGPT 之前的翻译质量都会“差一点点”,或者说差了不止一点。
这“差一点点”其中一个重要的问题,就是瞎翻译专有名词和人名。英语对一个人的称呼,第一次出现的时候给出全名,此后只叫姓。而汉语的习惯是每次都用全名或至少只用名,所以谷歌翻译或必应翻译就经常出现给个姓随便套名字的奇观,比如林郑特首之前经常被翻译为“林瑞麟”,李家超特首直接就是“李约翰”。
“来自北京的24岁陈怡宁今年1月在英国罗汉普顿大学的毕业表演视频出现后,也在网上赢得了数百万粉丝。正在接受舞蹈实践和表演研究生学位的陈说,她出于兴奋而进行了翻转,并补充说她对压倒性的反应感到惊讶。回到中国,3月3日,陈婷婷在抖音上上传了毕业典礼的视频片段后,数百万人为她自信的风格鼓掌。”(必应翻译)
在很多人用东北话、河南话、闽南话等轮番测试 AI 之后,这个人用在香港年轻人之间习惯使用的广东话来测试 ChatGPT。香港粤语以广州粤语为正音,但引入了一些对同一事物的不同翻译,以及有很多语气词、专有名词是与英语有关。举个例子,麦当劳的“麦香鱼”被叫做“魚柳飽”。所以我把他的例子拿来又用 GPT-4 测了一次。
提示点:
“左膠”在 GPT-3.5 和 4 的翻译都对。
“弱弱一問”的翻译,Google 和 DeepL 上下文出现的两次翻译居然前后不一致。
“此地無銀”的意思应该是“我说的是与字面相反的意思”。没有一家的回答是正确的。
“魚蛋”的标准翻译是 Fish ball。
由此可见,GPT-3.5 已经基本可用,而 GPT-4 效果更佳。如果翻译只是作为工具,目标是不影响人与人的交流,那么 GPT-3.5 足矣。
该文作者最后举了个例子:
麥嘜漫畫有這樣一個小故事。麥太問麥兜,為甚麼總是吃很多飯。心地善良的麥兜說,吃得飯多就有力氣,就可以幫別人打開瓶子了。
谷歌翻译是:
McMug Comics has such a short story. Mai Tai asked McDull why he always eats a lot. The kind-hearted McDull said that if you eat a lot, you will have strength, and you can open bottles for others.
GPT-3.5 翻译是:
There is a little story in McDull Comics. McDull's mother asked him why he always eats so much rice. McDull, who has a kind heart, replied that by eating a lot of rice, he would have more strength to help others open bottles.
对于“麥太”,谷歌翻译完全不懂,写成“Mai Tai”;DeepL 可以翻译成不算错误的“Mrs. Mak”;但 GPT-3.5 可以翻译成“McDull's mother”,意味着它的知识帮它理解了正确的人物关系。
接下来是一个彩蛋。
我:请翻译下面这段话为英文:灰太狼又被红太狼拿平底锅打了!
文心一言:The Wolf of the Gray has been beaten with a frying pan by Red Tooth.
“傅雷再造计划”
之前人类智慧“皇冠上的明珠”被认为是国际象棋或围棋(后来的事我们都知道)。与之类似的是,在翻译当中,最考验人类智慧的,可能是那些玩弄当地语言文字特性的“文字游戏”式的写作。
这有点类似于现在的网友用“弱智吧”的问题去测试 ChatGPT 或者文心一言。大多数弱智吧问题的本质,实际上是考察语言的多义性以及逻辑的连贯。当然现有的产品在这方面都不是特别好,但是本地部署一个 GPT 或同类的模型,并且进行针对性的优化,应该很快就可以解决这种问题。其实,我甚至可以仅仅在 ChatGPT 里使用自然语言来教育它如何改正,应该针对性注意语义中哪些双关和歧义的演变。那试想如果把整本小鸡词典都喂给它,它还会怕什么?
这就是 ChatGPT 和之前所有的机器翻译,包括谷歌翻译或 DeepL 等一个最大的不同。它要想变换风格或者微调某方面的效果,比此前人类创作出的所有翻译工具都要简单。只需要对它说话就行了。
我这段时间用大量复杂的自然语言,调教 ChatGPT 做了很多不同的用途。为了验证我的想法,我准备用一些法语材料来形成相对更“有匠气”的翻译,虽然我完全不懂法语,只能机械地复制粘贴。
但首先我知道一个非常妙的例子。这就是《约翰·克里斯朵夫》第一句:
Le grondement du fleuve monte derriere la maison.
英译本是:
From behind the house rises the murmuring of the river.
许聪这样翻译:江流滚滚,震动了房屋后墙。
韩沪麟这样翻译:屋后江河咆哮,向上涌动。
而傅雷这样翻译:“江声浩荡,自屋后上升。”
前四个字就完全把人震住了。这简直是中国翻译界的传世经典,有人评价说:“傅雷这翻译,简直可以把纸钉在墙上。”
下面,我让 GPT-3.5 来翻译这段话的法文原文,没有给出任何其他的条件。
此处还有一桩公案:据说,翻译家许渊冲曾认为,江声“浩荡”是误译,英译本的“murmuring”(潺潺声、低语声)是正确的译法。他认为法语的 grondement 意思是“沉闷的声音”。
GPT-3.5 认为,“grondement”在法语中的意思是“轰鸣声”或“隆隆声”。根据其他网络搜索结果,“grondement”也被用来形容诸如火车驶来的声音,各种线索都指向傅雷的翻译似乎更准确一些。当然,我自己完全不懂法语。
接下来,我使用 prompt 让 GPT-3.5 自行比对它的翻译和人类的优秀翻译,指出其中风格不同并尽力模仿。
一位中国翻译家将这段话翻译成:“江声浩荡,自屋后上升。雨水整天的打在窗上。一层水雾沿着玻璃的裂痕蜿蜒流下。昏黄的天色黑下来了。室内有股闷热之气。” 请试着在接下来的翻译中,将语句翻译成类似这样有匠气的风格。
然后,我用其它经典法语小说的开头来测试:
在此处,我的测试其实并不严谨。可以看到 GPT-3.5 在翻译第一个《洛丽塔》时,还是非常注重文辞修饰的,最终结果也和人类翻译很接近;但越到后面,它似乎就越是忘记了我对于“有匠气”的要求,而回归到了平常的翻译水准,当然也不差了。
为了节省精力,我把以上人类翻译范文一起喂给了他,希望他最后生成一段汲取了人类翻译风格经验教训的译文。我的 prompt 是:
我将结合一些优秀的人类翻译对你的翻译提出改进意见。(在这里贴出对应的翻译段落)如果你可以对照这几段人类翻译,和你自己的翻译之间的区别,那么请说你已经准备好了。我将再给你一些新的内容让你翻译。
ChatGPT 回复:
非常感谢您的反馈和指导!我会认真学习优秀的人类翻译,并努力改进我的翻译质量。
它又给了几个自己的例子来展示改进效果,尽管这意味着它听错了我的指令。
于是我发布指令:
好的,下面用更像是人类翻译的风格来翻译这一段:
我选的是 2014 年诺贝尔文学奖得主莫迪亚诺的小说《暗店街》的开头。《文学报》的评论文章认为:
莫迪亚诺的小说代表作——《暗店街》的几个中译本有着不同的开头,鉴定译本的优劣,在我看来只需看看小说的开头即可。
这篇评论缘起于《暗店街》在最新的一个译本里更改了开头,让老读者很不习惯。不过新译本的编者说,开头原本的翻译“我的过去,一片朦胧”并不是严格对应原文,只能说因为王小波的二次传播才变得脍炙人口。他们选择的是更忠实原文的译本。
那么我们就来一起欣赏《暗店街》开头的薛立华译本(旧)、王文融译本(新)和 GPT-3.5 译本:
如果仅仅把三篇中译看作是三篇同题“洗稿”文章,那么 GPT-3.5 的版本显然支持新译本的译法“我什么也不是”,相比之下“我的过去,一片朦胧”对原文的改动可能过多。
GPT 有几处误译:“事务所”没有翻译出来。“乳白玻璃灯”给翻译成了“瓷灯”。“卷宗”变成了“文件夹”。“棕色”是用来形容头发的,它弄成了棕色的眼睛。而且,“面部浮肿、棕色头发”同时用来形容男子及男子妻子的情夫,应该在上下文中保持一致以提起读者注意。
但 GPT 一个显著的特点——我个人喜欢这种特点——就是语言更简练,特别是在前几句话里可以很明显地看出来。如果排除误译,我会更欣赏 GPT 的译本。
GPT 的另一个惊喜来自《洛丽塔》那里,它自作主张把 4 英尺 10 英寸翻译成了 1 米 48。对于文中单位的互译,我觉得多数时候都不应该变动,特别是货币单位,就算换成文中时代的汇率对于现代读者也毫无用处。然而将长度单位由英制改公制绝对可以说是一项“德政”。这个或许也应该具体问题具体分析,但这个现象说明了 GPT 可以了解一些基础的文化设定,就像它认识麦兜他妈妈。
因此,在对复杂艰深的当地语言进行“再创作”时,人类译者所需的背景资料,世界观,该国文化设定等等,可以统一扔到大模型里面去训练,然后生成一个专精于翻译培训的 bot 给人类翻译人员答疑。
结论
在翻译香港风格的粤语时,ChatGPT 对一些专有名词和表述的翻译都比较成功,至少不会因为错漏翻译阻碍交流。而且,它对上下文的理解使得它不会忘记之前已经出现过的内容,进一步保证了语义准确和完整。
这个结果证明了我们这些外行和人类专业翻译共同认可的一点——现在的 AI 翻译可以让中底层的人类翻译失业。而对此引发的进一步后果,有两种不同的预测:
一种是,因为人才断层,新的高级翻译无法从中低级翻译晋升而来,因此人类翻译将沦为小规模培训和传承的类似非遗的手艺活,失去自我造血能力。我也基本上倾向于这种预测。
一种是,人类可以跳过中低级翻译的训练,直接从教授高级别翻译能力做起,一开始做的就是最难的题。这意味着将中低级翻译工作和高级翻译工作视为两门不同的学科,尚不知道这样是否可以成功。
从结果看,似乎在“有匠气”和有独特风格方面,第二个实验不算成功。ChatGPT 的翻译虽然不失精准,但仍未能在风格化这方面赶超人类。
然而,这样的测试也让我看到了用最小化的人力来补足的希望——这也就意味着专职的人类翻译真正可以休息了。这就是让擅长中国文学的人,而不是擅长外语的人成为这部分内容的翻译家。
新时代的翻译人士可以完全不会外语。他们的作用就是把比较平直,但相对是逐字翻译的内容变得更有文采,负责“雅”的部分,然后也可以再喂给 AI 去进一步促进“信”和“达”。
其实,这就是那位一辈子不会说外语,但是翻译了 180 多部作品的翻译家林纾的经历。相信这样的事情会在未来多次重现。
题图:由 Bing 采用 DALL-E 绘制,描绘了来自世界各地的人士在纽约联合国总部参加国际会议的情景。
prompt:people from different countries and races standing and chatting in new york united nations headquarters, detailed half-body photograph, news photo, live broadcast, sony camera, twitter trend