• ビジネス
  • IT
  • テクノロジー
  • 医療
  • 建設・不動産
  • TRENDY
  • WOMAN
  • ショッピング
  • 転職
  • ナショジオ
  • 日経電子版
  • 日経BP

深層学習AIで自動翻訳にパラダイムシフト

文脈を読みとり単語理解。精度のカギは「データ量」

2017年12月7日(木)

  • TalknoteTalknote
  • チャットワークチャットワーク
  • Facebook messengerFacebook messenger
  • PocketPocket
  • YammerYammer

※ 灰色文字になっているものは会員限定機能となります

無料会員登録

close

 翻訳AI(人工知能)に大きなパラダイムシフトが起きた。昨秋以降、米グーグルや米マイクロソフトが相次いで、ヒトの脳神経細胞の学習機能をモデルにしたディープラーニング(深層学習)をAIに導入したのだ。深層学習に適した高性能半導体の開発が進み、翻訳のような複雑な課題にも応用できるようになったためだ。これにより翻訳AIの実力はどう変わっていくのだろうか。
マイクロソフトは通話ソフト「スカイプ」などに搭載されている翻訳AIに深層学習を導入した

 初期の翻訳AIはルールベースという手法を用いていた。一般的な英語の構文から、単語が動詞なのか名詞なのか、目的語なのか述語なのかを判断するルールを多数AIに書き込み、そのルール通りにAIは翻訳する。

 ルールベースが進化したのが、直近まで利用されていた統計ベースと呼ばれる手法だ。例えば「Time flies like an arrow」の日本語訳は「光陰矢の如し」だが、「時のハエは矢を好む」でも文法上の間違いはない。ルールベースではどちらも正解になってしまう。そこで、大量の対訳例文から各単語が統計上どのように訳される可能性が高いかをAIは判断して、前者の訳が正しいと判断する。

 では、最新の深層学習による翻訳AIとはどんなものだろうか。現在のAIブームを巻き起こすきっかけをつくった深層学習の特徴は、正解を見出すためのヒントをAIが自ら見つけてくるという点にある。

  深層学習が最初に注目されたのは、猫の画像を見せて正しく猫と判断できるかという課題に挑んだAIだった。ルールベースのAIでは、「ヒゲがある」「三角の耳」といった猫の特徴をAIに覚えこませる。一方、深層学習AIは事前に大量の猫の画像を「例題」として読み込んでおくことで、ヒゲや耳などが猫と判断できるヒントであると自ら判断する。初めて見る猫の画像でも、そのヒントと照らし合わせて「応用問題」として解けるようになる。

訳のヒントをAIが発見

 先ほどの例文「Time flies like an arrow」の場合、fliesの正しい訳を判断するためのわかりやすいヒントはtimeだろう。時は「飛ぶ」ように過ぎるが、時の「ハエ」という種は存在しない。統計ベース手法で調べれば、timeとfliesが一緒に使われる文では、「飛ぶ」と訳す頻度が多いはずだ。つまりヒントは同じ文中にある。この手順なら深層学習を必ずしも使う必要はない。

 では「Your desktop is messy」はどうだろうか。「あなたの机の上は散らかっている」と「あなたのパソコンのトップ画面が散らかっている」。どちらが正しいのか。

 ヒントはこの一文の中にはない。前後の文章から探さなければならない。前語の文にpenやnoteといった単語が入っていればdesktopは机の上を意味するだろうし、iconが入っていればパソコンの画面を指すだろう。しかし、ヒントになる単語が前後の文章のどこに現れるか予測はできない。それならば、猫の画像でやったように、深層学習を利用し、ヒントを見つけて来るところからAIにすべて任せてしまう。つまり、深層学習による翻訳AIは、前後の文章まで自ら読み込み、正しい訳を考察できる。「文脈を読む」力を備えることができるのだ。

 日本マイクロソフトの榊原彰CTO(最高技術責任者)は「深層学習の導入でサチュレーション(成熟による成長の鈍化)を突破した」と語る。ただし、残念ながら現在の翻訳AIは実際に長文を正確に読み下せるレベルにはまだない。深層学習は猫の画像のように、事前に大量の「例題」を読み込んでおく必要がある。この例題は、ヒトが正しい対訳を作って準備しておかなければならない。現在はまだ深層学習AIという枠組みができたに過ぎない。これから各社は大量の長文の例題のデータを準備して、文脈を読みとるAIを成長させていくのだ。

コメント4件コメント/レビュー

たとえ膨大な類例を蓄積しようとも、またAIがコンテキストを踏まえつつ原文を解釈できるようになったところで、そこで生み出される訳文はすでになされた言表から想定される「再配列/置き換え」に過ぎないのではないだろうか。

そもそも翻訳とは単なる置き換えなのだろうか?

例えばコメントされておられた「恋って疲れるわよね~」といった発話。これには自身の苦いアイロニーが、あるいは逆に喜びの感情が、場合によっては悩んでいる友人に対する慰めの気持ちが込められているはずなのだが、そうした情緒が読み解かれるためには、「置き換え」以上の、読み手の側でのなんらかの情動的行為が伴っているはずだ。

また「恋」という一語を取り上げても、これの時代的・地域的・文化的かつ個人的な意味合いといったものは決してデータ化できるものではない。

翻訳とは、原文に込められているそうした重層的な「内容」に立脚しつつ、これを別の言語において再構成する行為であるわけだが、trans-lateが意味するのは、原文を通りつつ、同時にそれを超えていく(trans-gress)きわめて特殊な作業である。

AIに果たして可能なのだろうか?(2017/12/08 15:04)

「英語公用化の虚実」の目次

「深層学習AIで自動翻訳にパラダイムシフト」の著者

寺岡 篤志

寺岡 篤志(てらおか・あつし)

日経ビジネス記者

日本経済新聞で社会部、東日本大震災の専任担当などを経て2016年4月から日経ビジネス記者。自動車、化学などが担当分野。

※このプロフィールは、著者が日経ビジネスオンラインに記事を最後に執筆した時点のものです。

日経ビジネスオンラインのトップページへ

記事のレビュー・コメント

いただいたコメント

たとえ膨大な類例を蓄積しようとも、またAIがコンテキストを踏まえつつ原文を解釈できるようになったところで、そこで生み出される訳文はすでになされた言表から想定される「再配列/置き換え」に過ぎないのではないだろうか。

そもそも翻訳とは単なる置き換えなのだろうか?

例えばコメントされておられた「恋って疲れるわよね~」といった発話。これには自身の苦いアイロニーが、あるいは逆に喜びの感情が、場合によっては悩んでいる友人に対する慰めの気持ちが込められているはずなのだが、そうした情緒が読み解かれるためには、「置き換え」以上の、読み手の側でのなんらかの情動的行為が伴っているはずだ。

また「恋」という一語を取り上げても、これの時代的・地域的・文化的かつ個人的な意味合いといったものは決してデータ化できるものではない。

翻訳とは、原文に込められているそうした重層的な「内容」に立脚しつつ、これを別の言語において再構成する行為であるわけだが、trans-lateが意味するのは、原文を通りつつ、同時にそれを超えていく(trans-gress)きわめて特殊な作業である。

AIに果たして可能なのだろうか?(2017/12/08 15:04)

 よく調べてはあるけれど、これが「英語公用化の虚実」とどう関係しているんだろ?Aiが先へ進めば、結局は公用化(という設問)自体が意味をなさないのでは?
 さらにAiの進化?の果てが”素敵な翻訳システム”では、コスパ的にどうなんだろ?

 それに文脈データの質と量が鍵らしいけど、量はカウントできるとして、質はどうやって判断するんだろ?確かに人間に似せて応答はできるだろうけども、当然抽象度が高まれば高まるほど、機械的な翻訳では要をなさなくなる。(例えば「恋って疲れるわよね〜」と問われても答えられない。)
 そういや昔コンピュータが普及し始めた頃に、「人間のテキスト入力した質問に”人面魚”が答える」とかいうのがあった。(PC-98がまだ生き延びていた頃。)そこからどれだけ進化できているのかね。
 結局は人間の発想した新しいコンセプトやイノベーション的なものには対応できない。仮に論理的な道筋ができても、それはいつになるやら。(2017/12/07 15:30)

ウェアラブル端末を活用したデータ解析は面白そうですね。
確かに英語は前後の文脈を見ないと、同じ文章でも何通りか解釈のがある用例(たとえばaccompany~)が多いので、前後を踏まえて、というのは一つの解決策足りえると思います。

実際、各国政府が国のHPに載せている「マトモな」英語で書いた英文と、同じ記事の日本文。
自分としては英文、日本文の同じ記述を並べて「ああ、こう訳すのか」と参考にしているのですが、この英文を自動翻訳にかけると(割と高価な専用ソフトを使っても)、日本文との余りの衝撃的な落差に笑うしかないことが多々あります。

自動翻訳の機能が向上するのは自宅学習の助け、という意味でもアリですね。
大いに期待してます。(2017/12/07 08:10)

ビジネストレンド

ビジネストレンド一覧

閉じる

いいねして最新記事をチェック

閉じる

日経ビジネスオンライン

広告をスキップ

名言~日経ビジネス語録

日本の経営者は、経験を積んだ事業なら 失敗しないと思い込む傾向がある。

三品 和広 神戸大学教授