ChatGPT 4.5やClaude 3.7の翻訳能力は向上したか?

ChatGPT の進化に追随して Claude 3.7 や Grok 3 など様々なAIが登場し、進化してきました。今では ChatGPT の一強の時代も終わり、それぞれのツールにそれぞれの強みが見出され、使い勝手や使い方、目的、あるいはそれぞれの利用コストによって使用するAIツールが選ばれるようになってきています。

では、こと翻訳については生成AIの進化はどのようになってきているでしょうか。この記事では、著しい進化を遂げたとされる ChatGPT 4.5 や Claude 3.7、Grok 3の翻訳能力について、『前モデルと比べてどれくらいレベルアップしたか』に焦点を当てて考えます。また、用いるプロンプトは極力シンプルなもので統一しています。それぞれのモデルの比較や過去のモデルとの比較、その他の比較については、過去の記事のほか、以下のまとめページをご覧ください。

ChatGPT についての記事はこちらから

Claude についての記事はこちらから

Grok についての記事はこちらから

翻訳比較まとめ1(プロンプトの比較を含む)

翻訳比較まとめ2(クラウドソーシングサイトのクオリティ調査との比較を含む)

ChatGPTやClaudeの翻訳能力について確認した動画を公開しました。よろしければ合わせてご参考ください。


翻訳のレベルは横並び

結論から述べると、それぞれの最新バージョン同士の比較としては、有意に「このAIが最も良い翻訳をする」というものは見つかりませんでした。つまり、ChatGPT も Claude も Grok も、翻訳のレベルとしてはさほど変わらないと言えます。

とは言え、例えばある言語ペアであれば特定のAIが強い、特定の分野であれば別のAIが強い、ということがあるかもしれません。この辺りについては有意な比較研究を行う必要があります。

ちなみに今回の評価では、あくまで誤訳がないかや、表現上不自然な点がないかといった点を、主に減点方式で判断しています。この評価だと、3種類のAIツールはどれも大きな誤訳をしている様子はなく、及第点に近い翻訳をしていると判断できます。

ただし、例えば「文脈を考えれば分かるはずの同音異義語を誤って翻訳してしまう」といったことは決して珍しくなく、しかも一見して読みやすく翻訳する傾向にあるため、間違いが発生し得るにも関わらずそれを見つけにくいという点には未だ注意が必要です。

また、プロンプトによって翻訳内容に変化が出るかを確認してみたところ、それぞれプロンプトによる大きな違いは見られませんでした。用いた調整を含むプロンプトは次の通りです。

Translate the following text into Japanese. The purpose of this translation is to publish the translated text on a website about flowers. The website publishes some articles about interesting facts of flowers to attract more visitors.

(以下のテキストを日本語にしてください。この翻訳の目的は、翻訳されたテキストを花に関するウェブサイトに公開することです。このサイトは、より多くの閲覧者を得るため、花に関する興味深い事実についての記事を公開しています)

翻訳の進化は頭打ち気味

ChatGPT 4.5 と ChatGPT 4/4o/1o の比較、Claude 3.7 と Claude 3.5 の比較、Grok 3 と Grok の初期バージョンとの比較を行ったところ(つまり、進化の度合いを確認したところ)、翻訳の質としては大きな進化を遂げたAIがあるように思われませんでした。むしろ中には、主観で見たときに前のモデルの方が良い翻訳をしているように思われるものもあります。

誤解のないようにつけ加えておくと、これはそれぞれの前モデルの時点である程度充分に翻訳能力が高かったことの示唆でもあります。つまり、適切に使うことで、機械翻訳を用いることにはある程度の妥当性が認められます。機械翻訳やAI翻訳ツールは、決して『役立たず』ではありません。

ただその一方で、加点要素になるような翻訳の工夫は、いずれのバージョンにも見られませんでした。AIの進化によってプログラミングやアイデア出し、調査やリサーチといった部分で言われているような大きな進化や前進は、少なくとも翻訳それ自体のタスクにおいては見られていないということになります。

AIツールとの翻訳の協業

総じて見ると、このサイトで繰り返し言及されているような翻訳ツールの使い方に大きな変化があったという事実はなさそうです。基本的には使いやすさを重視してツールを選び、セカンドオピニオンとして複数のツール(DeepL や Google Translate など)や生成AIを用いて翻訳をしてみることが使用上のベストプラクティスになるでしょう

もちろん、万全を期す場合には人間の翻訳者(あるいは生成AI以上の翻訳が可能である人物、またはそういった複数の言語知識を持つ人物)が最終的な出力内容を確認するのが最も確実であることは間違いありません。ビジネスシーンなどの誤訳への許容度が低い場面や、単に及第点の翻訳ではなく『加点要素のある翻訳』が求められる場合には、人間の翻訳者やリンギストのサポートが必要だと言えるでしょう。その意味で、よりMTPEの手順やアプローチ、求められるレベル感の合意について考えることが求められるとも言えます。その際には、MTPEに対する金額感や価格感、料金なども伴って議論されることになります。

そしてAIツールの翻訳能力が横並びになっている以上、それを上回ることができるプロによる翻訳は、『機械翻訳が当たり前』になった市場の中で一際輝くものになるかもしれません。

参考: 翻訳が機械翻訳で充分かを判断できる指標を作成しました

ただ一方でAIツールの翻訳が非常に『人間らしい』ものに近づいていることも確かで、原文の分析なども正確になっていると言うことはできそうです。このとき、例えば『自分は原文について次のように翻訳したが、問題があれば指摘して欲しい』のように、ある翻訳に対してフィードバックをさせるといった使い方ができるようになってきていると感じます(もちろん、そのフィードバックが適切かどうかは、利用者が自分で判断する必要があります)。

また、数年前に言われていた『機械翻訳のクオリティ』と現在のクオリティを比較すると大きな躍進があったことは確かです。そして残念なことに、この現在の機械翻訳のクオリティに及ばないレベルの翻訳に留まってしまっている翻訳者も珍しくはありません。これは特に、Lancers(ランサーズ)や Crowdworks(クラウドワークス)、coconala(ココナラ)、conyac(コニャック)などのクラウドソーシングサイトで顕著な傾向にあると言えます。誰でも翻訳者として活動できるハードルの低さから、どうしても玉石混淆の状態にあることは否めません。

翻訳者をどう選ぶか

機械翻訳のレベルが高くなったことで、それ未満のレベルの翻訳者が淘汰されつつある現状は、発注者側(クライアント側)にとっても難しい状況であると言えます。どのような翻訳者であれば機械翻訳の利用と比較して『雇う価値がある』のかを判断する必要があるからです。

その判断基準のひとつとしては、例えば翻訳能力(あるいは英語力など)だけでなく、マーケティングやブランディング、SEOなどの知識がある、医療分野や法律などの高度な知識に詳しい、ユニークな表現やアーティスティックな表現に長けているなど、翻訳以外の部分での能力に注目するというものがあります

もちろん、翻訳能力に関係するところとして、ローカライズ(ローカリゼーション)やトランスクリエーションといった能力に長けている翻訳者には大いに価値があります(このローカライズやトランスクリエーションには、そもそもマーケティングやブランディング、SEOなどの知識が不可欠でもあります)。

今後は翻訳というものをもっと多角的かつ複数のレイヤーで扱い、それに応じて出力言語の適切な調整をすることが、人間の翻訳者により強く求められていくことでしょう。

ちなみに、翻訳者の選び方以外に『どのようなときに翻訳者を雇うべきか』については別の記事にまとめてありますので、よろしければご参考ください。

Akitsugu Domoto

Translator, wordsmith, speaker, author and part-time YouTuber.

https://word-tailor.com
次へ
次へ

翻訳の成功事例および失敗事例のまとめ