ChatGPT4のプロンプトによる翻訳の質の比較

自動翻訳や機械翻訳のツールとしてよく用いられているものと言えば、今では DeepL と ChatGPT が二大巨塔になるのではないかと思います。そして、DeepL と ChatGPT4 を比較した場合、基本的には DeepL の方が(速度なども鑑みて)総合的には優れたパフォーマンスを発揮すると言えます。

一報、ChatGPT での翻訳は、翻訳のやり方などについてプロンプトで指示できるというメリットがあります。しかし、果たしてプロンプトによって ChatGPT の翻訳の質や内容はどのくらい変わるのでしょうか。これを調べるため、2024年1月8日時点の ChatGPT4 を用いて、複数のプロンプトを用いて同じ架空の記事の翻訳を行い、その比較分析を行いました。

実際の翻訳内容はこちらからご確認頂けます(比較として、堂本の翻訳や DeepL の翻訳も掲載しています)。以下は、これを踏まえた上での全体的なまとめとなります。


調査内容について

今回の調査では、架空の英語の記事(これも ChatGPT4 に出力させたものです)を、複数のプロンプトで ChatGPT4 に翻訳させました。翻訳結果のまとめでは、それぞれのプロンプト(英語)も掲載しています。

基本的なプロンプトの内容としては、『純粋に英日翻訳をシンプルに頼んだもの(Case 1)』、『英日翻訳をプロみたいなやり方でするように頼んだもの(Case 2)』、『プロとして英日翻訳をしつつ、かつ歴史の知識を持っている専門家になりきってもらったもの(Case 3)』、『プロとして英日翻訳をしつつ、逐語訳でなくても良く、また補足や省略をプロンプト内で明確に許可したもの(Case 4)』、『プロとして英日翻訳をしてもらい、その際、この翻訳の目的は自分のサイトに人を呼び込むためのものであると目的を明言したもの(Case 5)』となっています。

調査結果と分析

複数のプロンプトで翻訳を行わせましたが、そのクオリティに大きな違いは認められませんでした。特に、原文の内容に関連性のある知識がある専門家になりきってもらう Case 3 や、逐語訳でなくても良いと明言した Case 4、翻訳の目的(本来翻訳をする上で最も重要な要素のひとつ)が明言された Case 5 において、いずれも有意と感じられる差がなかったことは驚きです。また、それぞれの翻訳の違いは、ChatGPT に指令を出すたびに生まれる異なる結果の差分程度であり、プロンプトによって明確に生まれた違いのようなものは確認できませんでした。

こうした結果となった理由に、『知識を参照して翻訳に活かすことはできない(Case 3)』可能性や、『どのような場合に補足や省略をするべきかの判断ができない(Case 4)』可能性、『翻訳の目的から逆算して翻訳を変えることができない(Case 5)』可能性、また『プロらしい翻訳とは何か、また professionally の具体的意味が明らかでない(Case 1 と Case 2 の比較)』可能性などが考えられます。

また、今回の翻訳は原文のボリューム感があるため、文体の指定が難しかったという可能性もあります。例えば、What’s going on? を日本語にする際、“Translate the following text into casual Japanese: What’s going on?”(What’s going on? をカジュアルな日本語に翻訳してください)と “Translate the following text into formal Japanese: What’s going on?”(What’s going on? をフォーマルな日本語に翻訳してください)だと、前者は「こんにちは、何が起こっているの?」と翻訳され、後者は「こんにちは、どうされましたか?」と翻訳されます。前者は日本語表現としても違和感がありますが、それでも『訳し分け』自体は実現されていることが確認できます。

これらの情報を踏まえるに、ChatGPT4 で記事などの長文を英日翻訳をする場合には、基本的にはシンプルなプロンプトで指示を出せば良さそうです。また、プロンプトによってクオリティが変動するということは考えにくいため、翻訳に問題があると考えられる場合には何度か出力させることで良い翻訳が出てくることを期待するという使い方が良さそうだということになります。もちろんこの場合には、『良い翻訳』がどういうものであるか、ユーザー自身が判断できる・理解している必要があります。

一方、短いフレーズや表現であれば、プロンプトによって訳し分けが可能であることは確かですので、適宜活用するのが良いでしょう。

参考: CHATGPTを活用したビジネス翻訳: 文体の指定やプロンプトなど

DeepL との比較

これらの ChatGPT4 の翻訳と比較して DeepL の翻訳のクオリティを確認してみると、少なくとも ChatGPT4 のそれを大きく下回るものではなさそうです。一部、訳語に不安がある部分はあるものの、全体としては ChatGPT4 と比較すると綺麗に訳せています。

このクオリティの翻訳が数秒で得られることを鑑みるに、やはり ChatGPT4 と DeepL なら、DeepL の方が翻訳のクオリティやツールとしての使いやすさに分があると言えるでしょう。もちろん、部分的に見れば ChatGPT4 の方が良い表現になっていると言える箇所もあるため、良いところ取りをして補いながら双方を使っていくことがベストプラクティスになると言えます。

MTPE の是非について

今回の翻訳を確認すると、ChatGPT4 も DeepL も、局所的に手を加えれば体裁を整えることができそうな感があります。しかし、奇妙な日本語になっている箇所については念のため誤訳になっていないか原文を確認する必要があるため、例えば ChatGPT4 や DeepL を使って、出てきた訳文だけを参照して手直しをするというのは正しい MTPE (Machine Translation Post Edit) ではありません

また、例えば今回の ChatGPT4 や DeepL の翻訳結果を出発点として翻訳者による翻訳のような訳出を再現することは非常に困難であり、そのためには訳し直しに等しい労力が掛かります。したがって、仮に今回の ChatGPT4 や DeepL の翻訳クオリティでは不充分であるようなケースでは、最初から信頼できる翻訳者に翻訳を依頼した方がベターであるということになります。

翻訳の目的や利用用途、また翻訳が人目に触れることによる大小の影響を鑑みて、どのような場面で機械翻訳が有効で、どのような場面では有効でないかを、慎重に判断することが求められると言えます。


Akitsugu Domoto

Translator, wordsmith, speaker, author and part-time YouTuber.

https://word-tailor.com
Previous
Previous

ChatGPTとBard (Gemini) の使い分け

Next
Next

『クラウドソーシングの英日翻訳の質』調査結果(DeepLとChatGPTの比較あり)