機械翻訳4種類の比較
機械翻訳は技術向上が凄まじく、非常に流暢な翻訳が可能になっていることは間違いありません。一方、精度も同じように高くなってきていますが、こちらは平均して90%程度とされています。
この精度の問題については、一見して流暢な翻訳からそのエラーを見つけるのは難しいという課題があります。このため、機械翻訳を使いこなす上ではむしろ高い英語力や文法力などが必要となることが言われています。
しかしそれでも、機械翻訳を上手に使うことができれば非常に便利であるということは確かです。また、DeepLやみらい翻訳など様々な機械翻訳が生まれてきていて、自分にとって使いやすいもの、都合が良いものを選べるというのも良いことです。
では、実際のところ機械翻訳はどれくらいの流暢さと精度で、それぞれに違いはあるのでしょうか。これを調査し、DeepLとGoogle翻訳、みらい翻訳、meta翻訳の4つを比較した動画をYouTubeにアップロードしました。
この記事は、その動画内容の補足に関するものです。
全体の所感
当初、どれかひとつの機械翻訳が圧倒的に優れているか、あるいは劣っているかということがあるだろうか、と思いながら調査をしていたのですが、結論としては今回調査をした4つの翻訳の基本出力については大きな違いはなかったように思います。
今回はジャンル別にチェックしたというようなことがないため、ひょっとするとXXの分野は特にDeepLが強い、というようなことも可能性としてはあり得るのですが、今回の調査の限りでは、「この機械翻訳はこういった翻訳が得意だ」というような特徴までは得られなかったように思います。
実際、例えばみらい翻訳を除く3つの翻訳では訳抜けなども確認されましたが、これだけを受けて「みらい翻訳は最も原文に忠実である」とすることもできません。これを調べるには、いくつかの文を読み込ませて統計的に比較する必要があるでしょう。
全体に共通する特徴としては、思ったよりも英訳でのエラーが多かったのが意外でした。これが「日本語に比べて英語は文法的制約が多い」ということを表しているのか、それとも「和文では英文に必須の文の要素が欠けていることが多く、それを補うのに無理をしてしまうのだ」ということを表しているのか、あるいは英語という言語のビッグデータの母数の多さのために”間違った英語”も相当程度学習されてしまっているからなのか、それは分かりません。
どの機械翻訳を選べば良いのか
したがって、今回の調査では「特に劣っている性能のものはない」し、「特に秀でている性能のものもない」ということが分かりました。そうすると、動画の最後にも触れている通り、現状はユーザーにとっての使いやすさで選んで良さそうだということ、必要に応じて複数の機械翻訳を使うとそれなりに訳出のパターンを得られるということを踏まえてメインの機械翻訳を選ぶのが良いのかと思います。
また、こうして性能が横並びになったことを踏まえると、個人開発であるmeta翻訳の精度には驚くものがあります。DeepLの登場時、Googleのような大手ではない企業が作った翻訳エンジンがここまでの性能を、ということで話題になりましたが、meta翻訳はその後を追うことになるのかもしれません。
小説の翻訳について
動画ではWikipediaの記事の翻訳とこのブログのテキストの翻訳をさせていますが、もうひとつ、Catcher in the Rye(ライ麦畑で捕まえて)の原文冒頭を訳させるということも試みています。しかしこの結果、あまり全体として良い結果にならなかったので、動画としてはすべてカットとなりました。
主な問題は、「真面目に訳そうとし過ぎる」というものです。特にこの小説は口語的で軽妙な語り口になっているのですが、英語でのリズムを整える上でのちょっとした(意味が小さい)表現も真面目に意味通り訳そうとしていて、日本語で読んだときには違和感が強く、英文にあった軽快な気持ちの良さというものが失われてしまっていました。言い換えれば、魅力的な文体にはなっていなかったのです。
そうした真面目な翻訳になっていたために意味を取るだけであればおおよそは理解できそうではあったのですが、小説はエンターテイメントですから、読み手は「情報を得たい」と思っているというよりも、「楽しみたい」と思ってそれを読んでいます。これを踏まえると、エンターテイメントに機械翻訳を用いるのは、特にそれが言語依存するエンターテイメントであれば、まだまだ実用にはほど遠いと言って良いかと思います。
加えて文字通りに訳していたことから、ちょっとした大袈裟な表現や言い換え表現などもそのままになっていて、日本語で読んでいると文脈が飛んだように感じられる箇所もありました。そういったレトリックやメタファーも、特に文字通りに訳すと駄目な場合、やはり機械翻訳は苦手であるようです。
機械翻訳が向かない場面
このことから、機械翻訳は「情報のギブアンドテイク」程度であれば使えるものの、それ以上の効果を期待しようとすると実用的ではないということが言えそうであると分かります。
これはエンターテイメントにおける「楽しませるためのテキスト」としてのゲームのテキストや小説のテキストなどの翻訳はもちろん、「購買欲やインスピレーションを与えるためのテキスト」としての広告の翻訳やキャッチコピーの翻訳などにおいても、機械翻訳を用いることは避けるのが無難であるということになります。非常に雑な括りをしてしまえば、いわゆるトランスクリエーションは、機械翻訳によって代替させることはできないのです。
それ以外にも、例えばビジネスのやり取りにおいて「こちらの遺憾の意を言外に示したい」ようなときや、「直接的に言及はできないが何らかのメッセージを伝えたい」場合、「社交辞令ではなく本当の意味で”先日は楽しかった”と言いたい」場合など、言葉には情報以上の付加価値が含まれていることがほとんどです。時には情報それ自体よりも、この付加価値の方が重要度が高いこともあるでしょう。こういった場合にも、機械翻訳を使うことが悪手になる可能性があると言えます。
小説の翻訳の補足
ではここからは、実際に機械翻訳4種がCatcher in the Ryeをどう訳したのかを見ていきましょう。
DeepL
これは後に続くものにも共通しているのですが、If you really want to hear about itやif you know the truthなどの表現を文字通りに訳していることが分かるかと思います。また、”出血するだろう”がhemorrhageに当たる訳となっていて、直訳的には正しいのですが、ここでは「卒倒する」や「滅茶苦茶怒るだろう」というような訳にした方が分かりやすいはずです。
加えて、原文は「両親はそういうのに敏感で、特に父がそうだ」というように両親がどちらも個人的なことを話されるのを嫌っているということを言っているのですが、訳文では「父が特に敏感だ」というように父親にだけフォーカスを当てた訳になっています。これは状況により良し悪しですが、こうした訳抜けが起こることはユーザーとして理解しておくことが必要です。
全体を見ると、何となく落ち着いた日本語であるように思われます。原文はいかにも反骨精神旺盛の若者というような口調ですが、日本語での印象はとても大人です。例えばティーンエイジャーなら、「たわごと」というような言い方はしないでしょう。
こちらは少し誤訳が含まれています。例えば「デビッドがコッパーフィールドはくだらない話ですが」は日本語としても意味がわかりません。また、「入りたくありません」というのは don’t feel like going into it の訳出ですが、ここでは「その話をしたくない」ということであり、「入りたくない」は訳としてはかなり稚拙です。
こちらも文体としては丁寧で、元々の英文に見られる軽妙さは見る影もないと言って良いでしょう。
みらい翻訳
「私の両親がどのように占領されていたのか、彼らが私を持つ前のすべてのこと」という点は誤訳的な出力になっています。ここでは「私が話したいと思わないこと」はカンマで区切られて列挙されていると考える方が良く、occupied and allの部分は ocupied / and all […] のように区切られていると判断しない方が自然です。
また、占領というのは「どういうことに忙しかったか」ということであり、よりかみ砕けば「自分が生まれる前の両親はどうだったか」ということです。この点についてはDeepLとGoogleは自然に訳せていましたが、みらい翻訳ではそうした出力は見られませんでした。一方、「その話をする気になれません」の訳出は上手に収まっています。
文体としては、やはり読み物としての面白さが損なわれている感があるということに加え、「ですます調」なのに一部に「である調」が含まれているという問題が見られます。
meta翻訳
こちらについてもoccupiedの訳出が上手くいかなかったようです。また、「最初に知りたいのは〜カッパーフィールドのようなくだらないことですが」という文構造は、原文では「〜というようなことを知りたいのだろうが」という予測を言っているところであることを踏まえると、少し捻れた構造になっていると言えそうです。
加えて、hemorrhageについては「出血を持っている」という言い方になっていて、これは仮に文字通り出血するとしても日本語としては奇妙な言い回しと言えます(出血する、出血を経験するなどがベター)。
こちらも「ですます調」と「である調」が混在しているほか、やはり何となく、特に原文と比較すると大人っぽい日本語であるように感じます。
まとめ
以上が今回機械翻訳について比較調査を行った全貌となります。最後に、機械翻訳をこれだけこき下ろしたので、それぞれのテーマについて堂本自身がどのように翻訳したのかを掲載しておきます。
Wikipedia(NMTに関する記述)の和訳
機械翻訳における深層学習ベースのアプローチであるニューラル機械翻訳は近年急激に進歩しており、Googleは、同社の翻訳サービスはこれまでの統計モデルではなくこの技術を用いているとしている[30]。また、Microsoftのチームは、2018年のWMT-2017(EMNLP 2017 Second Conference On Machine Translation)にて人間と同等のレベルに到達したと発表、これは歴史的なマイルストーンとなった[31][32]。しかし、多くの研究者はこの主張を批判的に見ており、実験をやり直したり、内容について議論を続けたりなどしている。現時点でのコンセンサスとしては、達成されたとされる人間と同等の能力は現実のものではなく、翻訳の分野や言語ペア、また特定のテストのやり方においてのみ成り立つものであるとされ[33]、統計学的有意性に欠くとされる。NMTが真に人間と同等のパフォーマンスを獲得するまで、道程はまだ長いと言える。
イディオム的なフレーズの翻訳や複数の語からなる表現[35]、また頻度の低い単語の翻訳(out-of-vocabulary [OOV] word translation)に対処する上では、最先端のNMTモデルではその言語に特有の言語的特徴が掘り下げられている。例えば漢字を部首とそれ以外に分解することは、NMTにおいて複数の語からなる表現を翻訳することに有益であると分かっている。
小説(Catcher in the Rye)の冒頭の日本語訳
この話をするなら、多分ぼくの生まれだとかうんざりするような子ども時代だとか、ぼくが生まれる前の両親がどうだったかとか、そういう、ディケンズのデイヴィッド・コパフィールド的なことから始めた方が良いのかもしれないけど、そういう話をしようという気持ちにはぼくにはなれない、というのが本当のところだ。なぜかって? まず何よりそういうのは話していて面白くないし、それにうちの親について勝手に何か口にしようものなら、両方から二回ずつ雷が落ちることになるだろうからさ。うちの親はそういうのに凄く敏感なんだ。特に父さんの方がね。
ブログ記事の英訳
I myself love my job as a translator and think it is very delightful. It is when we want to share a message of something but can’t without changing languages that we need translation; this means that what I translate is always something worth sharing with somebody. Being an agent for it is greatly rewarding.
However, the responsibility and capability required for the position is by no means easy to take; the proficiency in English required of a translator is far from that for speaking at business scenes or having a chat in English. We can be a translator just because we are good at English with no better chance than being a novelist just because we are Japanese speakers. We should hone the skill, grow in experience to be confident and be of good imagination and sometimes creativity, too. Praising my job in a way comes with some embarrassment, but I feel that this is the case as a 9-year-experienced translator.