DeepLの新モデルの翻訳能力について
2024年7月17日、DeepL が次世代モデルの導入を発表し、DeepL のPro版に登録しているユーザー向けに公開しました。堂本は仕事で DeepL を扱うことがある場合に備え、情報漏洩を避けるためにPro版に登録しているので、このクオリティの違いを確認してみました。
2024年7月25日現在、この次世代LLMモデルはブラウザ版でのみ利用可能で、アプリ版では使えないようですが、同じく DeepL のPro版を使っている人や、Pro版を検討している人の参考になれば幸いです。
これまでの別の生成AI(ChatGPT-4o や Gemini、Claude-3など)や Lancers や Crowdworks などのクラウドソーシングで依頼した翻訳との比較にも追加しておりますので、具体的な翻訳結果について確認したい方は【こちら】や【こちら】をご確認ください。
以下では、全体的な所感のほか、既存の DeepL のモデルとの比較、加えて ChatGPT-4o との比較による、総合的な評価を行っています。
また、動画も公開されました。よろしければ合わせてご参考頂ければ幸いです。
総合的な評価
今回の DeepL の新世代LLMモデルは、過去の DeepL のモデルと比較すると飛躍的に高くなっています。そのため、DeepL のPro版を使っている人で、ブラウザ版を使うことに不便がないなら、このモデルに変更して良いでしょう。
ただ、これはそれまでの DeepL が苦手としていた文構造などを取れるようになったというのが正確なところで、精度自体はさほど変わっていないか、微増した程度のような気がしています。したがって、「これまでの DeepL だと翻訳しきれなかった部分が翻訳できるようになっている、しかし精度自体に大きな差はなさそう」というのが総合評価となります。
ちなみに、ChatGPT-40 の翻訳と比較すると、新しくなった DeepL が苦手とする翻訳も上手に翻訳したりする面があります。ただ、ChatGPT はそのサービスの仕様上パフォーマンスが安定しなくなったり、単なる翻訳ではなく創作の域のハルシネーションが発生したりする可能性があったりします。また、文構造がシンプルであれば ChatGPT も DeepL も大きな差はないように感じます。
そのため、一般的なシーンで、特に英語に詳しくない人が使う分には、DeepL を使うので充分であることが多いだろうという判断は現状変わっていません。一方、原文をある程度読むことができ、機械翻訳の出力を批判的に検討・検証できる人は、ChatGPT-4o と DeepL を両方使うことでより精度の問題をクリアしやすくなると思います。もちろんこれは、ChatGPT-4o と DeepL だけでなく、例えば Claude のようなツールをプラスアルファのオピニオンとして入れても問題ありません。
まとめると、『個人利用の範疇であれば、およそ DeepL で充分なことが多い。Pro版を使っている人は新モデルにした方が良いが、精度向上はそこまで期待できない』となります。
具体的な翻訳の検討
これまで、DeepL はセミコロンやコロン、ダッシュなどの記号が含まれると著しく翻訳のパフォーマンスが落ちることが確認されていました。以下はその一例です。
small hours を「小さな時間」と訳しているのも既に失敗ですが、ダッシュ記号より後ろの部分がまったく訳出されていないのが分かります。
また、次の様な例もあります。
こちらは bur for の訳出に失敗しているほか、『戻るはずだった』のが誰なのか(イーライが戻るはずだった。and で並列されているのは complained と would have returned で、どちらもイーライが主語)が曖昧になってしまっています。
これらについて、それぞれ新モデルの DeepL での翻訳を見てみましょう。まずは最初の翻訳との比較です。
small hours を『夜中』と訳せていること、ダッシュ記号の後も訳せていること、加えて二度目の alone の、alone という言葉それ自体として使う訳出も(甘く見れば)成功していると言って良いでしょう。明らかに旧モデルよりもレベルが上がっています。
しかし、sleeper を『寝台車』と訳しているのは誤訳です。確かに前後関係のコンテキストがないと sleeper という単語だけを見れば『寝ている人』なのか『寝台車』なのかは判断できないように思われますが、『寝台車の横にいる人は本人が思っているよりも孤独だ』と『寝ている人の横にいる人は本人が思っているよりも孤独だ』を比較すれば、後者の方が妥当性が高いことはヒューリスティック的に明らかです。この辺りには、機械翻訳のシステムそのものの限界らしいものも見えてきます。
続いて、もうひとつの翻訳の新モデルバージョンを見てみましょう。
こちらでは、Eli がイーライではなく『エリ』と訳されています。これ自体は Eli に様々な読み方があるため、(実際にはイーライと発音する場面ですが)機械翻訳のエラーや間違いと言うことはできません。そして前の翻訳で失敗していた、would have returned の点について、その『エリ・リデソン』が主語であるような捉え方が可能になった翻訳となっています。
ただし、but for が without であることはまだ誤読したままのようです。また、それと関連してか、『ハンナの後任』であったのはメヒタベル・ピアースであるにも関わらず、エリ・リデソンが後任であったかのような訳調になっています(事実、この訳出ではそのようにしか読めないでしょう)。したがって、この部分は明らかな誤訳であると言えます。
このように、DeepL の新モデルは旧モデルと比較すると明らかにパフォーマンスが向上していますが、苦手な文は苦手なままで、精度が飛躍的に向上したとは言い難いところがあります。結局のところ、『どう DeepL(機械翻訳)を使うべきか』のベストプラクティスには変わりはありません。
ChatGPT-4o との比較
上記の英文について、ChatGPT-40 とも比較してみました。今回比較に用いたモデルは特別なものではありませんが、APIを利用して、MacGPT というアプリを介して処理を行っています。
プロンプトは、“Translate the following text into Japanese: [ここに英文]” です。
ひとつ目の英文の翻訳です。言い回しなどに不自然なところがありますが、全体の意味の取り方は間違っていません。
ふたつ目の英文の翻訳です。こちらも少し固いところがあり、改善の余地はありますが、意味は正しく、また bur for についても without で解釈されています。
こうして見ると、新モデルの DeepL と ChatGPT-4o を比較して、新モデルの DeepL の方が明らかに優れているとは言い難いところです。ただ、実際の使用場面やパフォーマンスの安定性などを鑑みて、総合的には『DeepL で充分なことが多いのではないか』という判断となっています。
長文の翻訳の検討
【こちら】や【こちら】のページには、これまでの機械翻訳の比較に DeepL の新モデルの翻訳を加えています。DeepL の翻訳ページから飛ぶことができるので、気になる方は是非ご参考ください。
これについて見てみると、特にこれまでの DeepL と比較して大きな変化は感じられません。そうなると、長文の翻訳については飛躍的な改善があったとは言い難いのかな、という印象です。
とは言え、分野やジャンル、長さなどによっては変化が見られるところもあるかもしれません。新しいモデルが過去のモデルに劣っているということは少なくとも(目立つ範囲では)なさそうなので、Pro版を使っている人は新モデルに変更して良いかと思います。
Pro版にする価値はあるか?
新モデルの DeepL を使うために敢えてPro版にする価値があるかと言われると、現状は特にないと思います。Pro版の翻訳精度の恩恵を受けられるのはそのエラーを指摘できる人だけですし、そういった人たちは ChatGPT などを使うことでセカンドオピニオンを得られればおよそ充分だからです。
したがって、現状、特に DeepL の使い方が大きく変わるようなことはありません。既にPro版を使っている人は新モデルにして大丈夫ですが、そうでない場合は特に気にしなくて大丈夫です。