Claude-3の翻訳能力の比較

Claude 3(クロード3)という生成AIのパフォーマンスが非常に高いと話題ですので、その翻訳能力を ChatGPT 4 や DeepL と比較してみました。Claude 3には Haiku、Sonnet、Opusの3種類があり、この中でブラウザ上で主に用いられているのがSonnetであるため、今回はSonnetで調査しています。ちなみにOpusはSonnetよりも処理に負担が掛かる分、より良い結果が出るとされています。

今回翻訳に用いた原文は、以前に ChatGPT4 や DeepL を用いて比較した際の原文と同じもので、『クラウドソーシングの英日翻訳の質』調査結果ChatGPT4のプロンプトによる翻訳の質の比較ChatGPTとBard (Gemini) の使い分けの3つと同じものを用いています。以下の Claude 3 の翻訳結果と合わせて比較すると、より分かりやすいかと思います。

結論から言えば、現時点での Claude 3 (Sonnet) の翻訳力は、ChatGPT よりも、DeepL よりも高い可能性があります。このことは、Google Translate や Bard(Gemini)を上回っていることも意味します。現在(2024年3月時点)で無料で使える Claude 3 Sonnet が有料の ChatGPT 4 を翻訳能力で上回っていることは、驚くべき事実です。

とは言え、こうした生成AIのツールは時折パフォーマンスが著しく低下する時期があったりするほか、Claude 3 は現時点(2024年3月11日現在)ではオンラインでの検索などもできないため、必ずしも翻訳について最適解とは限りません。

以下、具体的な翻訳をチェックしつつ、Claude 3 の翻訳の特徴を見ていきます。今回用いたプロンプトは、いずれも Translate the following text into Japanese: [英文] というものです。

ちなみに、本内容について動画も作成しました。合わせてご覧頂ければ幸いです。


Bard(Gemini)との比較

ChatGPTとBard (Gemini) の使い分けという記事に用いた英文を、Claude 3 に翻訳させてみました。その結果が以下の通りです。

元々の記事にあるように、Bard や Gemini はこの例文について誤訳をしてしまいました。しかし Claude 3 は、非常に素直な翻訳の印象です。強いて言えば、『誤解になってしまう翻訳は』の部分がやや固く、『誤解を与えてしまう翻訳は』や『誤解に繋がる翻訳は』のように動詞を補ってあげる必要がありそうですが、”機械翻訳にしては”という注釈付きで言うなら、かなり優れた翻訳をしていると言えるでしょう。

ChatGPT4(およびDeepL)との比較

次に、ChatGPT4 と DeepL との比較を見ていきます。この元記事では、ChatGPT4 のプロンプトを変更することで翻訳の質に有意な変化が生まれるかどうかをチェックし、参考として DeepL の翻訳とも比較しています。Claude 3 の翻訳結果を含む翻訳結果の一覧は【こちらから】ご確認ください。

全体を見てみると、やはり非常に素直な翻訳がされているように見受けられます。やや原文に引っ張られて固い印象の表現があったほか、手直しが必要な箇所も見受けられますが、非常に綺麗に訳出されている部分もあります。総合評価としては、大きなマイナスが少なく、加点に取ることができる箇所もあるというところで、それ故にこの英文での比較対象である ChatGPT4 と DeepL を上回る結果となっているように見受けられます。

ChatGPT4、DeepL、人間の翻訳との比較

最後に、ChatGPT4 と DeepL、そしてクラウドソーシング(Lancers [ランサーズ]、Crowdworks [クラウドワークス]、Coconala [ココナラ])で翻訳を依頼した際の結果の比較を見てみましょう。この元記事はクラウドソーシングにおける翻訳の質を比較するためのものでしたが、比較対象として ChatGPT4 と DeepL も用いていたため、ここに Claude 3 を加えた形となります。Claude 3 の翻訳結果を含む翻訳結果の一覧は【こちらから】ご確認ください。

元の記事では、クラウドソーシングにおける翻訳の質は玉石混淆で、平均的な翻訳料金を下回る見積もりが提示された翻訳者の翻訳はクオリティが低い傾向にあったこと、ネイティブに翻訳を任せても英日翻訳の場合にはむしろクオリティが低かったこと、こうした理由から “安価にクラウドソーシングで翻訳者を探す場合” という条件では ChatGPT4 や DeepL のクオリティと大差ない場合もあること、しかし適切な相場感のもとに翻訳料金が提示された場合には優れた翻訳を得られる場合があることが確認されていました。この中にあって、Claude 3 の翻訳は非常に高クオリティかつ良いバランスのものが出力されました。

文体自体はシンプルでやや単調ではありますが、全体的に大きなマイナスになるような箇所がほとんどありません。また、counterpart の内容が正しく訳出されており、意訳することに成功している点もこれまでの機械翻訳には見られなかった特徴です。


Claude 3の翻訳の特徴と注意点

上記に見られるように、Claude 3 の翻訳は非常に高レベルにまとまっており、日本語として読んでも違和感が少ない文に仕上がっていると言えます。また、かみ砕いた意訳に成功している点も興味深いポイントです。

ただ、日本語として読んで違和感が少ないということは、それだけ『日本語を読む』だけでは誤訳や間違った情報を見つけることが難しいということでもあります。一見してちゃんとした日本語に読めるからこそ、エラーを発見するためには原文との突き合わせが必要になり、結局原文を読む必要が出てきてしまいます。

また、意訳に成功しているということは、『前後の文や文の要素からそれらしい文を生成している』ということを表していると考えられます(生成AI は『文の内容を理解している』わけではないということは、大前提として理解され、また注意される必要があることです)。こうした意訳(あるいは文の前後の要素からの文の“生成”)は、正しいうちは良いのですが、原文にない情報や、誤った情報を生み出す原因にもなり得ます。しかもそれが『それらしい日本語』で示されるとなると、エラーへの注意力が一層求められると言えるでしょう。

加えて、最初に言及した通り、こうしたツールのパフォーマンスは安定しないことがあります。例えば私は ChatGPT4 を用いて英単語帳を作成しており、それに収録する英文は ChatGPT4 に生成させていますが、ある時期のテキストは質が低く、ある時期のテキストは質が高い、ということがありました。しかもこうしたパフォーマンスの向上・劣化について、OpenAI からの明確な公式発表はありませんでした。

以上のような現状を踏まえると、Claude 3 の翻訳はかなり良いレベルに達しており、翻訳をする人がセカンドオピニオン的に使う分には(ChatGPT や DeepL と併用するなどして)かなり有用に使える可能性があると感じる一方、誤訳に気付きにくかったり、ぱっと見で『良さそうな』翻訳をすることから表現がそちらに引っ張られてしまったりなど、優秀であるが故の使いにくさもありそうです。

Akitsugu Domoto

Translator, wordsmith, speaker, author and part-time YouTuber.

https://word-tailor.com
Previous
Previous

Grokの活用例と翻訳能力について

Next
Next

YouTube広告と翻訳字幕を用いて海外展開するには