X（旧 Twitter）にて、Grok という AI ツールがリリースされました。2024年5月9日現在、このツールを利用できるのは X の Premium ユーザー、および Premium+ のユーザーです。

これが自分のアカウントでも利用可能になったので、これまで ChatGPT（特に ChatGPT4）や Claude 3、Gemini といったAIツールの翻訳能力を比較してきたので、Grok の翻訳能力についても比較してみました。翻訳能力の後に、何に利用できそうかということについて解説します。

追記（2025/07/19）

2025年7月、Grok 4がリリースされましたが、有料版 Grok でのみ利用可能で、堂本は普段のAIツールとしては Grok を使っていないので検証はできていません。現時点では Grok 3 までの傾向からすると、翻訳において敢えて Grok 4 をメインで使う妥当な理由はないと予測していますが、進捗があれば更新します。

追記（2025/04/17）

2025年4月現在、Grok のバージョンは3（Beta）です。また、Grok について、その翻訳能力を他のツール（ChatGPT、Claude、DeepLなど）と継続的に比較しております。以下の記事の中にあるリンクからは、その最新版の比較内容を確認できます。

以下の記事の内容は2024年5月の情報がメインとなっておりますが、必要に応じて追記しています。

短文の翻訳能力

まずは手始めに短文を翻訳させました。この短文は、Gemini や Claude 3 にも翻訳させたものです。

提出された翻訳を見るに、直訳というよりも、意図を読み取って翻訳をしようとしているような感が窺えます。具体的には、ends up as a misunderstanding の部分が「適切に翻訳されない」のように訳出されていることが分かります。

ただし、今回の場合は ends up as a misunderstanding を「適切に翻訳されない」と訳出すると文意がおかしくなってしまいますし、その後の bad translation を「間違った訳である」と訳出するのも拙いと言えます（間違った訳ならば誤訳であるからです）。

どうやら Grok は、『自然な翻訳』をしようとしているのであり、直訳的な翻訳のアプローチではないということが分かります。このアプローチは ChatGPT や Claude（あるいは Gemini）にも共通するものですが、他のツールと比べて抜きんでて良いという印象ではなさそうです。

追記: 2025/04/17

長文については以下に続く通りに随時アップデートしておりますが、短文についての調査を行っていなかったので改めて2025年4月時点でチェックしてみました。上記とまったく同じ内容を翻訳させた結果、次のような結果となりました。

翻訳自体は、1年前よりも正確になっています。ただしこうしたパフォーマンスの向上自体は ChatGPT や Claude、DeepL などにも継続的・持続的に見られるもので、Grok だけの特徴とは言い難いところがあります。その意味で、『翻訳のために Grok を使う』ことの優位性が特にないことには変わりありません。

一方気になるのは、この翻訳をした時点でシステムメッセージ的なものが表示されたことです。この後何度か同じ処理をさせましたが、すべて同じ翻訳になった一方、複数回、類似したシステムメッセージが表示されました。中には Grok 自体が受けている指示らしいプロンプトが（おそらく誤って）表示されてしまったケースもありました。

このことから、Grok は他の生成AIツールと比べて回答内容について制限が少ないために処理が安定しないこともあるらしいことが確認されました。今回の内容では翻訳自体は正しいものでしたが、ひとまず、翻訳のためであれば ChatGPT や Claude、DeepL を使っておく方が引き続きベターかと思います。

長文の翻訳

以前に ChatGPT や Claude 3、またクラウドソーシングサイトの翻訳者と DeepL などとの比較に用いたものと同じ原文とプロンプトを用いてみました。結果は【こちら】と【こちら】からご確認いただけます（2025年の最新版の比較もご確認いただけます）。

長文の翻訳としては、大きなミスをしているような感はないものの、どことなくぎこちなかったり、何となく不慣れな感じがしたり、といった印象です。敢えて grok で翻訳のタスクをする必要はないでしょう。

ちなみに、Grok は他のツールであれば『不適切な言葉使い』であるために処理できないような文章生成が可能であることが知られていますが、日本語訳をするにおいては、敢えて『粗雑な言い方で訳せ』というプロンプトでは特に違いは見られませんでした。

一方、原文をより粗野な書き方にリライトするように指示した際には英語でその書き換えが行われたので、英文を敢えて洗練されていない形で生成したい場合には使える面もあるかもしれません。ただしそれも、翻訳と同時に指示するのではなく、あくまでリライトとして指示させるべきのようです。

追記: 2025/04/17

粗野な翻訳が Grok3 で可能になったかどうかについて調べてみたところ、短文については次のような結果が得られました。

自然な日本語かどうかは微妙なところですが、vulgarly（粗野に・下品に）という指示の通り、言葉使いにはそういった要素が見られます。

長文でも同様に vulgarly な書き方が可能かどうか試してみましたが、類似したスタイルになりました。どちらかと言えば使う言葉によって粗野な感じを出そうとしている印象で、無理にそういった語彙を当てはめているように思われるところもありますが、これまではできなかった出力が可能になっていることは確かです。vulgarly 以外にも「お嬢様っぽく」のような翻訳も可能になっていました。

このような翻訳の種類は、例えば動画サイトの『海外の反応まとめ』のようなものを作るとき、『2ch風に』といった指示を出すことでネット掲示板のような雰囲気を再現したりするときに使える可能性がありますが、やや物足りないところもあるようです。

例えば、上記の翻訳は『煽り』っぽい感じが再現されていますが、まだちょっと固い感じがします。『クソ翻訳』という言い回しと w という記号だけでそれらしさが成り立っていると言っても過言ではありません。

改善点として、いわゆる『草』とされる w は、2chのユーザーは3つ以上続けて打つのがスタンダードで、w ひとつだけだと『単芝』とされて嫌われていたというカルチャーが存在します。敢えて相手を挑発するために『単芝』にしたならアリですが、2chの『伝統的作法』に則るなら、www のように3つ以上続ける方が、より『それらしい』と言えます。

これを踏まえて翻訳するなら、『結局誤解される翻訳って誤訳じゃなくてもクソなのに変わりなくねwwwww』あたりでしょうか。

ちなみに ChatGPT-4o も、vulgarly という指示によって翻訳を変更することができるようになっています。Grok とどちらが良いかは好みの範疇かと思います。

主な使い方のイメージ

Grok の優れた点は、情報の検索性にあるとも言えるでしょう。英語で『今日のニュースをまとめて欲しい』などの指示を出すと、それなりにまとめてくれている印象です。

また、特定のジャンルや内容についてまとめてもらうということもできるようです。例えば Apple の iPad Pro のプロモーションビデオである Crush については賛否両論ありますが、これをまとめるように Grok に指示すると次のようになりました。

日本人の反応としては「もったいない」や「ものが壊されることが単純に堪えられない」、「リスペクトに欠けている」といったものが多く、その内容はここには反映されていませんが、それでもどういった背景でどのような意見があるかについてまとめられています。

ちなみに、日本人の意見を抜粋するように指示すると次のようになりました。

おおよそ正しい反応がまとめられています。ただし、日本語のツイートは取得されず、あくまで英語でのツイートが参考として表示されていたので、取得については英語ほどスムーズではないのかもしれません。

以上のようなことから、英語で（主に X 上の）情報をまとめて確認する（また、その後に自分で情報を細かくみていく）上では、Grok は使い勝手が良さそうです。ただ一方で、いわゆる ChatGPT や Claude 3 に普段やらせるようなタスクを任せるというのは不適かもしれません。あくまで X というプラットフォームをより楽しむ（上手く使う）ためのツールとしての位置づけと考えると良いかと思います。

参考

CHATGPT、DEEPL、人間の翻訳の比較（日英）

CHATGPT、DEEPL、人間の翻訳の比較（英日）

CHATGPTやDEEPLを使用することによるSEO的影響（2023年時点）

CHATGPT4のプロンプトによる翻訳の質の比較

CLAUDE-3の翻訳能力の比較

ChatGPT-4o の翻訳能力について