ロボットが自律的に動くには眼が必要だ。とはいえ、人間をはじめとするさまざまな生物が持つ眼は、素早く周囲の明るさに適応し、目の前にあるものから遠くにあるものまでを瞬時に見分けるなど、さまざまな能力を併せ持っている。現時点のテクノロジーでは、一つの能力に特化した眼はいろいろと開発されるが、どんな状況でも瞬時に適応できる汎用的な眼をロボットに持たせるのはまだ難しい。一方で、人間には見ることができないものが見える眼も開発されており、ロボットの能力拡大への期待も高まっている。

周囲の光景を光学的に捉えるなら、カメラを使えばいい。しかし、ヒトが眼でモノを見るのとまったく同じ役割をロボットに持たせようとすると、これが案外難しい。人間は眼から得られた情報から光景を認識する際に、脳を使った複雑な処理を行うからだ。ものを見ているのは、眼ではなく脳だと言われることさえあるほどだ。

例えば、自然の風景の中から自分が好きな花や動物を見つけ出したり、雑踏の中で知人の顔を瞬時に見分けたりといった行為は、私たちにとっては無意識にできるものであり、難しい作業ではない。逆に眼の前にあるのに見えないように無意識にフィルタリングしてしまうケースもある。車を運転している時も、風景の中心を詳細に見つつ、危険を察知するために周辺にも注意を向けられるように、眼に入ってくる光景を最適化している。

実はロボット、あるいはセンシングの世界でも、単に光学的な情報を得るだけのものとは違う、もっと高度な“眼”の役割を担える仕組みの研究・開発が進んでいる。空間を立体的に認識する眼、見えないものを見つけ出す眼、映像の中にある音を読む眼といったものだ。以下で、それぞれを見ていこう。

自ら光を照射して周囲の空間を立体的に認識する眼

そもそも、人間はどのようにして眼による視覚情報から空間を認識しているのか。簡単に言えば、人間が空間を立体的に認識できるのは、左右2つの眼からの情報のずれを脳が処理しているからである。ロボットにも同じように2つのイメージセンサーを左右に並べて付ければ3D映像を作り出すことはできるが、その映像を基に空間を立体的に認識することは簡単ではない。

空間を立体的に認識するためには、左右のイメージセンサーで捉えた画像の違いから距離を割り出し、そのデータから物体の特徴を抽出して3次元形状を測定する。そして、あらかじめ登録してある立体に関するデータと照合して、その物体の存在と、空間の中での位置と姿勢を認識する。人間は空間認識に必要なさまざまな物体に関するデータを、日常生活の中から自ら学んでいる。自分の足で歩き始めた乳幼児が、だんだんと目の前にあるものをよけることができるようになるのも、こういった学習を重ねているからだ。

ロボットにさまざまな物体に関するデータを学習させることは、ディープラーニングなどの機械学習によって可能になっている。しかしそこから、脳でどのように情報を処理し、空間を立体的に認識しているのかについては、実はまだ詳しく解明されていない。このため、現時点ではほとんどの自律移動ロボットが、LiDAR(Light Detection and Ranging)とさまざまなセンサーを組み合わせて眼として利用している。

LiDARはレーザーの光を周囲に照射し、対象物に当たって跳ね返ってきた光が受光素子に届くまでの時間から距離を計測して障害物を検知するセンサーである。最近では自律移動ロボット向けに、LiDARだけで広範囲の3次元距離計測が可能な3D LiDARも開発されている(図1)。

[画像のクリックで拡大表示]
(図1)3次元で広範囲の距離計測を行う3D LiDAR
ミラーを使ってレーザー光を垂直方向60度、水平方向270度に照射することで、広角度のスキャンを実現している。(パナソニックのホームページより引用)

見えないものを見つけ出すイメージセンサーの眼

ただ、レーザーの光は直線的にしか照射できない。このためLiDARを利用した眼では、障害物の裏に隠れた物体などを発見することは難しい。そこで進められているのが、デジタルカメラやスマートフォンに搭載されているCMOSのイメージセンサーを使って、人間の眼では見えないものを見る眼の研究である。

一般的にCMOSセンサーは、CCDセンサーのように画像を一度に面として記録する(「グローバルシャッター」と呼ばれる)のではなく、横一列に並んだピクセルを一つの単位とし、それを1行ずつ記録して最終的に1画面分を合成する(「ローリングシャッター」と呼ばれる)。つまり1画面の画像の上部と下部では、記録時点に微小な時間差が含まれている。この時間差を利用した、さまざまな画像解析手法が考えられている。

マサチューセッツ工科大学(MIT)で研究されている「コーナーカメラ」は、通常は壁や建物などに遮られて見ることができない、曲がった道の先に広がる景色を光学的に解析して予測する千里眼のような眼だ。

仕組みはこうだ。L字型に曲がっている廊下では、曲がった先は見えないが、曲がり角の床には反対側からの光によって照らされたその先の光景の影が映っている。反対側からの光が強ければはっきりとした影になることもあるが、通常そこに映っているのはぼんやりした影で「半影」と呼ばれている。人間の目には分からないが、半影には多くの情報が含まれており、実際は曲がり角の先の風景をリアルタイムで反射していることになる。この半影をスマートフォンのカメラなどで捉え、ローリングシャッターによって得られる画像から1次元画像を生成する。その後、画像からノイズを取り除いてオブジェクトを識別し、オブジェクトが動いた速度と軌道を決定している(図2)。

[画像のクリックで拡大表示]
[画像のクリックで拡大表示]
(図2)曲がり角に隠れた人物などを半影から見つけ出す画像処理システム
遮られた壁から床に映し出される影には、さまざまな光学的な情報が含まれている。(マサチューセッツ工科大学のホームページより引用)

この方法は自ら光を発しないので、暗闇で影ができない場所では利用できないなど、まだ課題が多くあるものの、実用化されると自律移動ロボットだけでなく、自動運転での事故を減らすことができそう。特に病院などの安全性の高さを要求される施設などで自律走行する、電動車いすや医療ロボットなどの需要がありそうだ。