翻訳横丁の裏路地

We can do anything we want to do if we stick to it long enough.


完全オフライン環境で動作する生成AIモデルの日英翻訳能力比較レポート

生成AIを翻訳支援ツールとして利用する場合、障害となるのが情報の取り扱い。従来のクラウド型生成AIでは、入力した情報がクラウド上のシステム内で内部利用される可能性があるため、守秘義務のある情報や、情報漏洩を避けたい個人情報を含むデータを入力することができず、生成AIの活用に制限がありました。

7月8日に、LM Studioの企業・団体での利用が無償化されるというアナウンスが出ました。

LM Studio is free for use at work

記事のChatGPTによる和訳要約
LM Studioは、これまで家庭での個人利用のみ無料でしたが、2025年7月8日から企業・商用利用も完全無料になりました。これにより、会社やチームでも申請や手続き不要で自由に使えるようになります。データはローカル保存のままでプライバシーも保たれ、外部送信の心配はありません。今後は、無料のチーム共有機能や、有料のエンタープライズ向けプラン(SSOやアクセス制御など)も順次提供予定です。研究開発や業務効率化を進めたい企業にとって、大きなメリットとなる方針転換です。

これにより、情報セキュリティの問題で生成AIの導入が進まなかった企業でも、LM Studioなどを利用したローカル環境だけで動作する生成AIの利用が進むのではないかと思います。また、個人翻訳者の立場で考えても、同様の理由から、生成AIを翻訳支援に利用するハードルが低くなりました。

私は以前から、翻訳(特に英訳)の相談役として ChatGPT を使い続けていますが、それはこちら求める英語に関する質問に対して、期待する回答品質を持っているからです。さて、ローカル環境だけで動作する生成AIでは、果たして期待した回答品質が得られるのか、そこが大きな問題です。ローカル環境で動作可能なモデルサイズですので、翻訳においてクラウド系生成AIのような質は期待できないかもしれません。

そこで、自分の使用目的を前提に、DeepSeek-r1、Gemma-3-12b、Gemma-3-27bの3つのモデルで、日英翻訳を行って翻訳評価を行いました。その結果をレポートにまとめたもの(簡易版)が、以下のPDFファイルです。

もしご興味がありましたら、ご閲覧ください。


日英翻訳に生成AIを使うなら原稿プリエディット

私は、日英翻訳の一次訳に生成AIをよく利用しています。その際、必ず行うことは、日本語原稿のプリエディットです。

過去の機械翻訳では、期待した出力を得るために日本語原文をプリエディットするアプローチが取られていました。このプリエディットは、以下のような視点によるものだったと思います。

  1. 主語の明示化
    日本文で省略されがちな主語を明示する。
  2. 曖昧表現の排除
    指示詞や、意味が複数取れる表現を明確化する。
  3. 簡潔で一文一義
    1文に複数の意味を含めず、1文=1意味にする
  4. 日本語独特の表現を回避
    直訳できない比喩、慣用句を避け、事実描写中心にする
  5. 語順を英語的に意識
    主語→動詞→目的語(SVO)の流れを意識して修正する。
  6. 省略の回避
    必要な情報(主語・目的語・状況説明)を補う。
  7. 一貫した用語統一
    同じ意味の語を統一し、言い換えを避ける。

これらのプリエディット作業は、日本語ネイティブが扱う自然な日本語とはかけ離れた不自然な表現になるため、一定のトレーニングを受けた人でなければ対応が難しいものでした。

一方、生成AIを翻訳へ活用する場合のプリエディットは、このような難解なものではなく、私が思いつく範囲で書いてみると、以下のようになります。

  1. 文脈を明確にする
    「何がどうなったのか」「誰が何をしたのか」を明示する。
  2. 曖昧語・ぼかし表現を避ける
    「適宜」「よろしくお願いします」など曖昧表現を具体化する。
  3. 因果関係・対比を明示
    「なぜそうなるのか」「何と何が比較されているか」を書き分ける。
  4. 固有名詞・用語の統一
    同一ドキュメント内で表記揺れをなくす。
  5. 翻訳で迷いそうな言い回しを避ける
    日本語独特の言い回し(例:「一応」「なんとなく」)を削除または明確化。
  6. 文を簡潔に整理する
    長文・複文を避け、できるだけ短い文を並列させる。

これを書きながら気づいたのは、昔、原稿作者に指示していた内容と本質的に同じだということです。たとえば、「適宜って、どれくらいだ」「お願いしますって、具体的に何をお願いしているのか」「一応って、やるのかやらないのか」「長文過ぎて言いたいことがわからない」「複数の意味に取れるが意図は何か」「前後関係が矛盾している」などなど、原稿作者を質問攻めにしていた内容そのもの。

つまり、昔の機械翻訳相手では「機械相手の修正」だったプリエディットが、生成AIでは「人間相手の修正」と本質的に同じ視点でプリエディットを行うべきだ考えています。「読者が誤解することなく、読んで容易に理解できる日本文にする」という視点ですね。