翻訳横丁の裏路地

We can do anything we want to do if we stick to it long enough.


機械翻訳システムの無責任使用

都道府県庁や市町村役場、果ては大学や病院や企業のホームページまで浸透してきている機械翻訳システム。私は、これらシステムの吐き出す機械翻訳された情報には情報価値がなく、害の方が遥かに大きいので、正確な情報伝達を必要とするサイトでの使用はやめるべきだと考えています。

こういった機械翻訳システムが吐き出す珍訳(つまり誤訳)を、あちこちのサイトを巡って調べ、その結果を紹介していたブログがありました。

何故、過去形で書くのかと言うと、昨日、そのブログ主の方から拙ブログ経由で「事情でブログ削除」の連絡を頂いたからです。事実、今アクセスしても「Not found」となって閲覧できません。このブログは毎日周回して拝読していましたし、例えば東京都内で、ホームページに機械翻訳を採用している区がどれだけあるかを示すマップなど、有用な情報が多かったので参考にしておりました。機械翻訳システムの使用場面(使用対象)について問題提起していたこのようなブログが消えてしまった事は、とても残念に思います。

ホームページと言うものは、そもそも情報発信が目的です。つまり、情報の中身や正確性が重要な訳です。その情報を多言語展開する時の選択肢として出てくるのが「(人による)翻訳」と「機械翻訳システム」でしょう。

さて、ここからは私の妄想です。決して事実ではありません。私の推測と想像の話です。

ホームページは情報発信を目的としているわけですから、当然、情報の鮮度が問われます。即ち、高い頻度で内容の更新が行われます。多言語対応をするためには、ホームページ全体の翻訳と、そう言った更新内容の翻訳が逐次必要となってきます。

多言語展開を進める上で検討されるべき事は、何故、多言語対応にするのか?と言う目的は当然として、多言語化した情報の正確性(情報の価値減衰性)、そしてコストだと思います。

まず、分かり易いコストから考えてみましょう。

「翻訳」と「機械翻訳システム」を超単純化して初期投資に関して比較すると以下のようになります。

  • 翻訳:対象全ページの全対象言語分の「翻訳」コストが発生
  • 機械翻訳システム:システム導入コストが発生

超単純化して言えば、どちらにしても初期投資が発生する点は同じです。大きく違うのはランニングコストです。都度発生するホームページの更新への対応を比較してみると以下のようになるでしょう。

  • 翻訳:更新内容の翻訳コストが対応言語分、毎回発生
  • 機械翻訳システム:費用発生なし

さて、どう思いますか? 役所のお偉さん達や企業のお偉さん達は、このコスト差に目を奪われてしまうのは明らかですね。

では、情報の正確性について考えてみましょう。

「翻訳」であれば、目的とされる情報意図が間違いなく多言語に反映され、ホームページの情報発信の目的を満足するのは間違いありません。懸念される情報の価値減衰性も小さく抑えられる筈です。
一方、機械翻訳システムの場合、その情報正確性はどうでしょうか?前述のブログでは、この情報正確性がかなり低いと言うエビデンスを多く紹介されていました。そもそも、機械翻訳システムによる他言語ページを閲覧しようとすると、「機械翻訳なので正確でない。」「本来の意味から外れた結果になる場合がある」という免責的主旨の説明ページが最初に表示されますが、これはある意味、自らで「正確性を放棄」しているのと同じ事だと思うのです。(2年前の「東北博」ホームページの誤訳問題がニュースに取り上げられて騒ぎになって以降、こういう免責ページを挟み込むのが当たり前になってきた。)

つまり、ホームページの多言語対応を考える時に検討すべき項目の1つである「情報の正確性」は、システム供給者が既に否定していると言ってもいいのかもしれません。

なぜ、こういうシステムがお役所や企業のホームページに導入されているのか?考えられるのは以下のような事でしょうか?

  1. 導入した顧客が他言語が分からず、システムが吐き出す機械翻訳文が正しく原稿の情報を伝達しているか?の評価する知識がない。従って、情報の正確性の評価など出来る筈もない。
  2. そもそも、情報の正確性など、気にもしていない。他言語サイトが出来ただけでOKと考えている。
  3. 質が悪くても、「無いよりはマシ」という風潮。
  4. 「正確じゃない」と免責メッセージ入れておけば問題ないだろ?という意識。

結局、情報の正確性なんて無視なので、導入判断材料はコストだけという事から、これだけ導入されているのだと思います。

「おたくの他言語のページ、何を書いているかわかりませんよ?間違いも多いし」
「あ、機械翻訳だから仕方がないんだ~。そう書いてあったでしょ?」
「そんな使えないページ、あっても仕方ないじゃないですか。なんで公開しているですか?」
「正確じゃなくても、無いよりマシでしょ?」

こんなやり取りが想像できてしまうのです。

ハッキリ申しますが、正しいかどうかを判断できない情報なんて、怖くて使えません。ましてや、その解釈の間違いで自分が大きな損害や不利益を被る可能性がある情報かもしれないと考えると、本当に恐ろしい。つまり、「無い方がマシ」だと思うわけです。幾らシステムが勝手に出力した結果だと言い訳しようとも、免責コメントを入れてあるでしょ?と言われても、そのページを提供しているのはそのホームページの所有者です。そこに責任がある筈です。お役所や企業がそのような情報垂れ流しをして良いものでしょうか?品格を問われかねませんよね。

きっと、導入した方々は、導入した事による効果の測定なんてやっていないのではないでしょうか?アクセス数があれば利用されている…なんて、そんなデータでは正しく測れません(上の人間を騙すには都合の良いデータでしょうが)。ホームページ利用者が、提供されている情報に価値があると判断してくれているかどうかです。結局、導入しっ放し、垂れ流しっ放しという現実が見え隠れしてきますね。

忘れてはならないのは、システムを供給している側の問題。翻訳事業を行っている会社がそういうシステムを販売しているというところもあります。ホームページのような性格の文書に、ああいう質の翻訳品をOKと判断する会社なのか?と考えてしまう。逆に言えば、そこの翻訳事業で生み出される翻訳物も心配ありだとも言える。意地悪く考えれば、そういう事になってしまう。

私が一番危惧するのは、機械翻訳による訳文がネットの世界に氾濫し始めている事で、それを助長しているのが、こういう機械翻訳システムではないかと。多くの人々の目に触れる。目に触れる頻度も高くなる。すると、目にするものが当たり前となる。ネットで裏を取りました~とか言いながら、機械翻訳みたいな訳文を課題の回答として張り付けてくる人も出てくるかもしれない。川に垂れ流されるヘドロのように、広い海にどんどん流れ込む怪しい訳文。これは公害と同じではないか?と思う事が時々あります。


[ワードマクロ] GlossaryMatch

用語集を Excel で作成している人が多いという事から作成した用語集シートの「GlossaryMatch」でしたが、その置換機能をWord版のマクロとして作成しました。(処理速度が速いので)

自分の仕事用に作成したものですが、他の人にも役立つ可能性があると思われるので、恥ずかしながら公開いたします。今回はアドインの形で供給いたします。

専用の固定ページを作成しましたので、そちらを参照してください。

GlossaryMatch

.


東北博の誤訳問題を斬ってみる

「東北博」ホームページの誤訳が報道(参照:朝日新聞サイト)されて以来、 Twitter 上の翻訳関係者の間で、この話題で賑わっています。報道によれば、「東北博」ホームページの外国語ホームページに多くの誤訳が見つかり、13日に修復の為にサイトが閉鎖されたとの事。(東北博覧会の英語サイト)

(具体的な誤訳例(出典):朝日新聞デジタル)

今回の誤訳問題の本当の原因背景は分かりません。少なくとも、問題の東北博の他言語ホームページ上に「This page is translated using machine translation. Please note that the content may not be 100% accurate.」と表記がある事から、機械翻訳を利用した翻訳物であるという事は間違いないです。また、以下に引用した記事を読むと、その機械翻訳品がそのまま最終翻訳品として使用され、当事者達のチェック・修正もされないまま公開された事が問題のようです。

翻訳業務は、HP運営を担う業者が東京都内の専門業者に再委託した。日本語版を作成すると、自動翻訳される仕組みになっていて、東北特有の固有名詞が辞書機能に無かったのが原因だという。外国語版のHPには「機械翻訳のため、100%正確でない」と断り書きを添えていたが、観光庁も業者も翻訳結果を確認していなかった。観光庁観光地域振興課は「自動翻訳の誤りを見つけるボランティアを募り、総力戦で翻訳ミスを修正し、4月下旬には外国語版を再開したい」と話している。(河北新報 4月14日(土)6時10分配信より引用)

この記事から分かる事は以下のような事です。

  • 「観光庁−HP運営業者−翻訳会社」という図式で、仕事がなされている。
  • 日本語版を自動翻訳している。つまり、機械翻訳の結果がそのままHPに表示される。
  • 地方特有な固有名詞が辞書になく、適切な訳が出力されない。
  • 依頼元の観光庁もHP運営業者、翻訳業者のどれも、翻訳結果を確認していない。

また、他の記事等を読み進めると、以下のような事も書かれています。

  • 翻訳会社が、実行委員会に固有名詞の一覧表の提示を申し入れたが、受け入れて貰えなかった。(ソース)

今回の問題は、秋田県など外部からの指摘で発覚したようですが、この事は、ホームページの最終使用者(読者)による指摘であると考えるならば、市場に受け入れられない翻訳仕様であったという事が言えます。では、この最終仕様を決める責任を持つのは誰か?というと、発注者です。今回の事態の責任という点だけを見ると、発注者の責任だと言えるのではないかと考えています。

ただ、考えなくてはならないのは、概ね発注者は「翻訳」という商品の性質も性格も理解しない場合が多いのです。「翻訳」というものを一般の人々が正しく認識できていない事が大きく関係している訳ですが、とかく言葉の「置換」であるという誤認識をされているケースが多い。そういう認識の元で最終仕様を考えた場合、どうなるでしょう?「固有名詞の一覧表の提示を受け入れて貰えなかった」という点から考えても、発注者はそこに重要性を感じておらず、一体、一覧表がないと最終翻訳物へどのような影響を及ぼすのかを認識していないのが分かります。

我々、翻訳業界側の人間として考えたとき、何よりも問題なのは翻訳会社ではないかと思うのです。「翻訳」を職業とし「翻訳のプロ」「言葉のプロ」として仕事をしている翻訳会社側が、何故、プロとして、海外に対して情報発信するホームページにふさわしい翻訳となるよう最終仕様を、発注者側に提案しなかったのだろうか?説得しなかったのだろうか?と疑問に思うのです。確かに、発注者側に押し切られる事もあります。でも、そのまま仕事を請けてしまう事によるリスクを考えたのでしょうか?ましてや、このケースは多くの人の目に触れるホームページです。いくら「機械翻訳なので100%正しくない」という但し書きを付けたとしても、市場が受け入れなければ、その責を問われるのはやむを得ないでしょう。昨今は、道義的責任も企業は問われます。そう考えていくと、発注者にそのままで良いと押し切られて「はい、そうですか、では、その仕様でやります」という判断にはならない…しては、ならないと私は思うのです。その辺りの判断を、一体、この請け負った翻訳会社はどうしたのだろうと非常に興味があります。

私はこのケース、翻訳会社側の責任も結構大きいと思うのです。

それから気になるのは、当事者が「発注者」「HP運営業者」「翻訳会社」と3者いる訳ですが、誰も最終翻訳物の確認をしていない点です。仕事として誠にお粗末です。私は昨年、JTF主催の翻訳祭で講演した際、「クライアントさんよ、翻訳会社を良きパートナーとして捉え、相談して共に良い翻訳物を作って行こうという姿勢で取り組んで下さいよ」という趣旨のメッセージ出しをしました。この背景は、まさしく上記したクライアントの認識している最終仕様を、我々翻訳のプロの意見やアドバイスを吸い上げて、最終読者(最終使用者)の満足する翻訳仕様に可能な限り近づけるために、我々をもっと積極的に使ってくれ!という意図があったからです。

今回のケースを見ると、どうも、この3者間ではそのようなコミュニケーションが取れておらず、3者とも自己完結型の仕事に終始しているのではないかと勘ぐってしまいます。

さて、ここで「機械翻訳」について、私が考えている事を書きたいと思います。

「機械翻訳」という言葉の印象は、報道等を見ていると、世間に誤解を与えているような印象が拭えません。そこで、ちょっと極論で言いますが、一般の方々に正しく理解頂きたいと思うのは、機械翻訳物は「中間完成品」だという事です。技術が進歩しているとは言え、まだまだ100%ではなく、訳間違いもあるのです。機械翻訳の後、各種のチェックと修正を経て、初めて販売できる最終翻訳品が完成します。

機械翻訳した中間完成物を最終翻訳物として利用するケースも増えてきているものの、その場合は、例えば読者が限定される社内文書であるとか、ニュースなどの即時性を求められる情報、とりあえず意味の把握に使用する文書など、その使用領域は限定されると考えています。限定読者や情報の一次的伝達という目的において機械翻訳物をそのまま利用する事ができるでしょう。

今回のケースは、観光促進を目的としたホームページの翻訳ですが、さて、その目的に機械翻訳品は正しい選択なのか?概ね「No」と判断する人が殆どだと思います。つまり、機械翻訳物は目的に適していません。やはり、機械翻訳という特性を正しく理解し、その上で適用できる文書分野、情報分野を吟味した上で「機械翻訳物」のそのままの使用可否を判断するのが大切だと思います。

最後に、この翻訳は無償で翻訳業者が請け負ったそうです。被災地復興の手助けになればという思いからだったのでしょう。まさか、そんな事はないとは思いますが「無料だから質が悪くてもいい」という意識が働いていない事だけは祈りたい。一般論として「無料、もしくは通常より低価格だから品質は悪くてもいい」は大間違い。価格に関係なく、質の悪いものを世に出すのは、その翻訳者、翻訳会社にとって命取りになります。

翻訳の手直しもボランディアを募ってやると記事には書いていますが、私の伝手で得た情報ですと、有償で翻訳者に修正作業をさせようとしているようです。ただ、その費用を観光庁が負担するのか、その翻訳会社が泣くのかは分かりません。

関連リンク:


【セミナー情報】AAMT講演会

アジア太平洋機械翻訳協会(AAMT)の講演会(参加費無料)があるようです。

“Resource sharing for research on large scale NLP, Text Mining and machine Translation”

Principal Researcher, Microsoft Research Asia
辻井潤一氏

2011年6月13日(月)15:30~16:30
会場:東京都港区海岸1-11-2 ホテルアジュール竹芝 16F 曙

詳細:http://www.aamt.info/japanese/soukai2011.htm