『クラウドソーシングの英日翻訳の質』調査結果(DeepLとChatGPTの比較あり)

以前は翻訳の発注と言えば翻訳会社に依頼することが一般的でしたが、現在では DeepL や ChatGPT といったツールのほか、Lancers(ランサーズ)や Crowdworks(クラウドワークス)、coconala(ココナラ)といったクラウドソーシングサイトでの発注も選択肢に上がるようになりました。しかし、こうしたツールやクラウドソーシングにおける翻訳の質はどれくらいのものなのでしょうか。翻訳の質を正しく判断できるのは同じく翻訳者であることから、そのクオリティをまとめた事例は非常に少ない印象です。

そこで今回、ある架空の記事の英日翻訳を匿名でランサーズ、クラウドワークス、ココナラで依頼し、また DeepL や ChatGPT-4 での翻訳も行い、そのクオリティを確認・比較しました。この調査により、クラウドソーシングにおける翻訳料金の相場も明らかとなっていますが、ここでは翻訳のクオリティにのみ着目してまとめます。

今回得られた翻訳のサンプルは【こちらから】ご確認頂けます。今後、さらに精査を進めていく中で、翻訳のレビューに対するコメントは随時編集される可能性があります。

また、この内容について動画が公開されました。およそ以下の内容と同じになっていますが、よろしければ合わせてご覧頂ければ幸いです。

調査内容

今回の調査では募集文はすべて同じものを用いました。加えて、提案に対して出された最初の見積りに対しては交渉などを行わず、その金額そのままで契約としています。

また、調査のために複数の翻訳者に依頼しましたが、その際の選考基準としては、頂いたご提案の日本語や内容に違和感がないかを最優先とし、またプラットフォーム全体の翻訳のクオリティの参考とするため、そのプラットフォーム上で翻訳者として実績があるユーザーを優先して採用しました(ユーザーの中には実績があるものの翻訳者としての実績でないこともありましたので、これは翻訳者としての実績としてはカウントしていません)。

上記の採用理由に基づいて、ココナラでは2名、クラウドワークスでは13名、ランサーズでは6名を採用しました。この中ではランサーズが最も応募数が多くなっていましたが、平均的な見積り金額が高かったため、厳選して6名を選出しました。ココナラの応募数は他の2社と比べて極端に少ないものではありませんでしたが、翻訳者としての実績があるユーザーが著しく少なかったため、2名のみの採用となりました。

調査結果として得られた翻訳はすべて目を通してコメントを追加しましたが、記事の中ですべてを扱うことはできないため、notion のページ上で公開しています。それぞれのプラットフォームと発注時の金額でタイトルをつけており、Nがついているものは英語ネイティブの翻訳者として登録しているユーザーのものです(このネイティブによる翻訳は特筆に値するものでしたので、別の記事にまとめています)。

レビュー内容は可能な限り主観ではなく客観的事実や文法的事実に基づいていますが、厳密な内容でなければ許容されるべき表現が(純粋な指摘として)含まれている場合があります。また、意訳と思われる箇所についても、翻案として妥当性が認められる可能性があれば、ネガティブな評価にはしていません。加えて、明らかな間違いではないものの、翻訳者の意図などを確認するべき内容については、要検討としてコメントに残しています。

全体の傾向

今回の依頼に対する全体の傾向を見ると、まず気になるのは日本語の不自然さです。例えば逆接(『しかし』など)で接続されている文の内容が等価でない、主述のねじれが発生している、『提供する』など英単語からの直訳を採用することによる翻訳調の文体(今回の依頼内容に対して合理的でない文体となっている)などがその一例です。このことは、英語力の問題というよりも日本語力の問題であると考えられます。

それ以外には、『猫』と『ネコ』の表記が統一されていない、ですます・である調が統一されていないなど、基本的な作文のルールが守られていない訳文も散見されました。さらには恣意的な改行や段落変更が行われている訳文もありました。読みやすさを高めるために段落を取り直すこと自体は翻案として大いにアリですが、今回の訳文ではどうやら意味のまとまりが意識されているわけではなさそうです。

加えて、一部の翻訳には DeepL や ChatGPT-4 の翻訳を流用したと思われるものもありました。ただし、今回は機械翻訳の使用を禁じてはいませんし、機械翻訳を使用することが常に悪いわけではありません。

しかし、機械翻訳を用いたということは MTPE(Machine Translation Post Edit)で作業が行われたことになります。そしてその場合には、機械翻訳における欠点を改善しなければなりません。それを踏まえた上で確認してみると、今回の訳文では、機械翻訳を用いた疑惑のある訳文についてはすべての問題が解決されていたわけではありませんでした。ChatGPT-4 については出力ごとに異なる翻訳が出力されるため正確な判断は難しいところですが、ChatGPT-4 が犯した間違いをすべてクリアしている翻訳は多くありませんでした。

クオリティに関する個人的な所感

ココナラでの依頼は2件となっており、これは400 wordsの翻訳を依頼した場合の価格相場として妥当な金額を提示したユーザー(かつ翻訳者として実績のあるユーザー)を選抜した結果です。ただし、その翻訳のクオリティは金額相当のものとは言い難いところがありました。

また、今回の調査では、ネイティブの翻訳者の英和翻訳のクオリティは金額相応のものとはなりませんでした。このことについては別の記事でまとめています。

金額面については、相場以上の金額(3200円程度以上)を提示した翻訳者のクオリティについては、クラウドワークスでもランサーズでも値段相応のクオリティである可能性が高かった一方、ココナラでの翻訳のクオリティはその限りではありませんでした。ただし、相場程度の金額で発注した Crowdworks 3300 については、DeepL の使用の疑いがあり、DeepL の翻訳の問題点についても解決されていませんでした。

全体のまとめ

自分もクラウドソーシングサイトで身を立てた翻訳者であることを踏まえると非常に残念な結果ではありますが、クラウドソーシングにおける翻訳者のクオリティの平均は低いと言わざるを得ません。特に相場感が意識されていない金額設定になっている翻訳のクオリティは、DeepL や ChatGPT の方がクオリティが高いということもありました。仮に翻訳会社のトライアルを受講させた場合、今回の翻訳であれば合格率は10%程度だと考えられます。

加えて、DeepL を使用したらしい翻訳の提出も見られました。機械翻訳を使うことが即ち悪いわけではなく、クオリティが期待に伴っていれば作業効率化のためにこうしたやり方をすることは間違ってはいませんが、機械翻訳の翻訳における問題が見過ごされていたこと(MTPE が不充分であったこと)を鑑みると、翻訳内容が真に理解されていたのかは疑義のあるところです。機械翻訳を用いる場合でも、翻訳者の目線で問題を解決し、十全な翻訳の納品が期待されます。

一方、Lancers 6000 のように、優れた翻訳者も存在することが確かめられました。このことから、プロの翻訳家に依頼したい場合は相場を意識して発注先を決めることが重要と言えます。また、今回最も優れた翻訳を行ってくれたユーザーはランサーズのユーザーであったことも、合わせてつけ加えておきます。


余談となりますが、今回の調査では DeepL と ChatGPT-4 の翻訳も比較対象に加えています。このふたつの比較では、やや DeepL の方が自然な訳であり、また訳出までの時間も短かったことから、やはり翻訳タスクに限って言えば DeepL の方が有用であることが伺えます。一方、ChatGPT-4 も例えば主語を補うなどの訳出の工夫が見られるため、両方の良いところを踏まえて取捨選択することが当面のベストプラクティスであることは変わりありません。

追記: 今回のテスト内容を、Claude 3の翻訳パフォーマンス評価にも用いました。こちらの記事からご確認頂けます。


Akitsugu Domoto

Translator, wordsmith, speaker, author and part-time YouTuber.

https://word-tailor.com
Previous
Previous

ChatGPT4のプロンプトによる翻訳の質の比較

Next
Next

MTPEの料金相場の考察まとめ