• ビジネス
  • xTECH
  • クロストレンド
  • 医療
  • TRENDY
  • WOMAN
  • ショッピング
  • 転職
  • ナショジオ
  • 日経電子版
  • 日経BP

深層学習AIで自動翻訳にパラダイムシフト

文脈を読みとり単語理解。精度のカギは「データ量」

2017年12月7日(木)

  • TalknoteTalknote
  • チャットワークチャットワーク
  • Facebook messengerFacebook messenger
  • PocketPocket
  • YammerYammer

※ 灰色文字になっているものは会員限定機能となります

無料会員登録

close

 AIが正解を判断するためのプロセスをヒトがあらかじめ整えておくルールベースや統計ベースと違い、深層学習AIは判断プロセスからすべてAIに丸投げする。つまり「開発者本人もAIの判断理由がわからない。巨大なブラックボックスになる」(あるAI研究者)。

 ではIT各社がしのぎを削るAI開発の競争力を決定づけるものは何か。最も影響力が大きいのは例題データの量と質だ。例題データの量が多いほど、AIは高度な応用問題が解けるようになるし、想定される応用問題の性質に似た例題データを揃えておく必要もある。

 このデータの集め方に、各社の戦略の差が出て来る。多種のネットサービスを展開するGAFA(=グーグル、アップル、フェイスブック、アマゾン・ドット・コム)と呼ばれる情報プラットフォーマーはこの点、群を抜くデータ量を社内に抱え込んでいる。AIの開発で明確な優位性がある。

 前出の日本マイクロソフトの榊原CTOも「データ量では到底グーグルにかなわない」と話す。彼我の差を埋めるのは、通訳AIに併せて使用する「トゥルーテキスト」と呼ばれるもう一つのAI。「Let me see」など特別に意味を持たない感嘆詞や言い間違えを省き、通訳AIを使う前に訳しやすい構文に整理する。構文を揃えて応用問題の難易度を下げることで、少ないデータ量でもAIが正解を導けるようにするのがマイクロソフトの試みだ。

 またマイクロソフトは翻訳AIの契約企業に対し、利用者自らAIを成長させることができる「ハブ」という機能を提供している。利用者はハブを通じて、社内で使われている特殊な用語や、業界用語を独自に加えることができる。全方位的にAIを成長させるのではなく、各利用者の業務内容に沿ったAIをカスタマイズするというわけだ。ハブで加えた用語は自社で使うAIにしか反映されないので、情報漏洩の懸念は少ない。

スクラムで挑む日本勢

 日本勢は、国立研究開発法人の情報通信研究機構(NICT)を中心にした共同研究で深層学習AIに挑む。このプロジェクトには東芝、パナソニック、富士通、NECなどが参画する。日英の通訳に特化して例文集を集めることで、米国の両巨頭に対抗する。特に2020年の東京オリンピック・パラリンピックに向け、観光関連の例文を重視している。

NECが開発した翻訳アプリ

 観光関連の用語は一般生活で使われる文章と似たものが多く、汎用性が高い。プロジェクトに参加する各企業は、ここから更に各産業での専門用語などを上乗せしてAIに学習させていく。富士通は医療、NECは小売業がターゲットだ。NECのSI・サービス市場開発本部の藤戸靖久マネージャーによると「英語の苦手意識を払拭するきっかけづくりにしたいという声も多い」。本来商売敵のはずの英会話教室からも利用を希望する声が寄せられているという。

コメント4件コメント/レビュー

たとえ膨大な類例を蓄積しようとも、またAIがコンテキストを踏まえつつ原文を解釈できるようになったところで、そこで生み出される訳文はすでになされた言表から想定される「再配列/置き換え」に過ぎないのではないだろうか。

そもそも翻訳とは単なる置き換えなのだろうか?

例えばコメントされておられた「恋って疲れるわよね~」といった発話。これには自身の苦いアイロニーが、あるいは逆に喜びの感情が、場合によっては悩んでいる友人に対する慰めの気持ちが込められているはずなのだが、そうした情緒が読み解かれるためには、「置き換え」以上の、読み手の側でのなんらかの情動的行為が伴っているはずだ。

また「恋」という一語を取り上げても、これの時代的・地域的・文化的かつ個人的な意味合いといったものは決してデータ化できるものではない。

翻訳とは、原文に込められているそうした重層的な「内容」に立脚しつつ、これを別の言語において再構成する行為であるわけだが、trans-lateが意味するのは、原文を通りつつ、同時にそれを超えていく(trans-gress)きわめて特殊な作業である。

AIに果たして可能なのだろうか?(2017/12/08 15:04)

「英語公用化の虚実」の目次

オススメ情報

「深層学習AIで自動翻訳にパラダイムシフト」の著者

寺岡 篤志

寺岡 篤志(てらおか・あつし)

日経ビジネス記者

日本経済新聞で社会部、東日本大震災の専任担当などを経て2016年4月から日経ビジネス記者。自動車、化学などが担当分野。

※このプロフィールは、著者が日経ビジネスオンラインに記事を最後に執筆した時点のものです。

日経ビジネスオンラインのトップページへ

記事のレビュー・コメント

いただいたコメント

たとえ膨大な類例を蓄積しようとも、またAIがコンテキストを踏まえつつ原文を解釈できるようになったところで、そこで生み出される訳文はすでになされた言表から想定される「再配列/置き換え」に過ぎないのではないだろうか。

そもそも翻訳とは単なる置き換えなのだろうか?

例えばコメントされておられた「恋って疲れるわよね~」といった発話。これには自身の苦いアイロニーが、あるいは逆に喜びの感情が、場合によっては悩んでいる友人に対する慰めの気持ちが込められているはずなのだが、そうした情緒が読み解かれるためには、「置き換え」以上の、読み手の側でのなんらかの情動的行為が伴っているはずだ。

また「恋」という一語を取り上げても、これの時代的・地域的・文化的かつ個人的な意味合いといったものは決してデータ化できるものではない。

翻訳とは、原文に込められているそうした重層的な「内容」に立脚しつつ、これを別の言語において再構成する行為であるわけだが、trans-lateが意味するのは、原文を通りつつ、同時にそれを超えていく(trans-gress)きわめて特殊な作業である。

AIに果たして可能なのだろうか?(2017/12/08 15:04)

 よく調べてはあるけれど、これが「英語公用化の虚実」とどう関係しているんだろ?Aiが先へ進めば、結局は公用化(という設問)自体が意味をなさないのでは?
 さらにAiの進化?の果てが”素敵な翻訳システム”では、コスパ的にどうなんだろ?

 それに文脈データの質と量が鍵らしいけど、量はカウントできるとして、質はどうやって判断するんだろ?確かに人間に似せて応答はできるだろうけども、当然抽象度が高まれば高まるほど、機械的な翻訳では要をなさなくなる。(例えば「恋って疲れるわよね〜」と問われても答えられない。)
 そういや昔コンピュータが普及し始めた頃に、「人間のテキスト入力した質問に”人面魚”が答える」とかいうのがあった。(PC-98がまだ生き延びていた頃。)そこからどれだけ進化できているのかね。
 結局は人間の発想した新しいコンセプトやイノベーション的なものには対応できない。仮に論理的な道筋ができても、それはいつになるやら。(2017/12/07 15:30)

ウェアラブル端末を活用したデータ解析は面白そうですね。
確かに英語は前後の文脈を見ないと、同じ文章でも何通りか解釈のがある用例(たとえばaccompany~)が多いので、前後を踏まえて、というのは一つの解決策足りえると思います。

実際、各国政府が国のHPに載せている「マトモな」英語で書いた英文と、同じ記事の日本文。
自分としては英文、日本文の同じ記述を並べて「ああ、こう訳すのか」と参考にしているのですが、この英文を自動翻訳にかけると(割と高価な専用ソフトを使っても)、日本文との余りの衝撃的な落差に笑うしかないことが多々あります。

自動翻訳の機能が向上するのは自宅学習の助け、という意味でもアリですね。
大いに期待してます。(2017/12/07 08:10)

ビジネストレンド

ビジネストレンド一覧

閉じる

いいねして最新記事をチェック

日経ビジネスオンライン

広告をスキップ

名言~日経ビジネス語録

不満や不安を明確にすると、 解決案を見つけやすくなる。

ジェレミー・ハンター 米国クレアモント大学経営大学院准教授