機械には世界がどう見える? イスラエルの少年はゲームより「認識」がお好き

0

2020年10月02日 07:02  @IT

  • チェックする
  • つぶやく
  • 日記を書く

@IT

写真OrCam TechnologiesのYonatan Wexler(ヨナタン・ウェクスラー)氏
OrCam TechnologiesのYonatan Wexler(ヨナタン・ウェクスラー)氏

 世界で活躍するエンジニアにお話を伺う「Go Global!」シリーズ。今回ご登場いただくのはOrCam Technologiesで視覚障害のある人を支援するデバイス「OrCam MyEye」を開発した、Yonatan Wexler(ヨナタン・ウェクスラー)氏。



【その他の画像】



 小さなときからコンピュータが身近にあり、ゲームに夢中だった少年はいつしか「コンピュータそのものの可能性」に魅了されていく。聞き手は、アップルやディズニーなどの外資系企業でマーケティングを担当し、グローバルでのビジネス展開に深い知見を持つ阿部川“Go”久広。



●何にでも興味がある少年はコンピュータに夢中



阿部川 ウェクスラーさんはイスラエルのご出身ですね。



ウェクスラー氏 はい。エルサレムで育ちました。



阿部川 小さいころはどのようなお子さんでしたか。



ウェクスラー氏 何にでも興味のある活発な子どもでした。特にテクノロジーには興味がありました。当時はテレビが白黒からカラーになった時代で、HiFiオーディオなどデジタル機器が登場し、「コンピュータ」が私たちの身近になってきた時期だと思います。



阿部川 小さいころからコンピュータが近くにあったのですね。ウェクスラーさんが最初に使ったコンピュータは何でしたか。



ウェクスラー氏 「CBM64」(コモドール64)です。10歳のころだったと思います。多くの子どもがそうであるように、まずはゲームに夢中になり、しばらくしてからプログラミングを学びました。



阿部川 いいですね。当時イスラエルでは、多くの子どもたちがコンピュータを持っていたのですか。



ウェクスラー氏 そうですね、みなゲームに夢中でしたね。例えば誰かが新しいゲームを手に入れると、皆で駆け付けて一緒にやっていました。そうしている内に「コンピュータに何をやらせるか」「どう表現したらいいか」といったことに徐々に興味を持ち始めました。



阿部川 将来が楽しみな子どもですね(笑)。そのころからエンジニアになりたいと考えていらっしゃいましたか。



ウェクスラー氏 うーん、どうだったかな……芸術は好きでしたし、コンピュータも好きでした。特に機械がどのように世界を認識するか、それを人間がどのように認識するかというテーマはとても魅力的でした。



 例えば人は、他人を見たとき、その人に関してある一定の認識を得ますが、自分以外の人がその同じ他人を見たからといって、自分と同じ認識を持つわけではありません。つまり見たことと認識したことは違っている。なぜそうなるかと考えると、たくさんの面白い疑問が浮かんできました。



阿部川 そんなに小さいときから、人の視覚とか五感とか、あるいはそれに基づく行動とかに興味があったのですか!



ウェクスラー氏 いえいえ(笑)。そこに行くまでにはもう少し大きなジャンプが必要でした。PCがキーボードだけではなく、マウスが登場して進歩したような感じです。



阿部川 コンピュータ以外ではどんなことをしていましたか。



ウェクスラー氏 イスラエルは共和制国家なので、子ども時代の環境は日本とは違います。子ども同士で活動することが多く、遊びながらお互いを指揮しあったり、指導しあったりします。その中でコミュニケーションの仕方と、グローバルな視野で物事を考えることを学びます。共同体の視点と言ってもいいかもしれません。これは素晴らしいことだと思います。コミュニケーションを通して、お互いがアイデアを理解し、伝える。そのような能力は私たちが進歩していく上で欠かせませんから。



●コンピュータがもたらす「可能性」に魅了される



阿部川 小学校や中学校の時は、どの教科が得意だったのですか、やはり数学ですか。



ウェクスラー氏 基本的に、数学ですね。今思えばコンピュータ、電子工学などに関連するものが好きでした。最初は計算速度の速さに魅了されましたが、次第にコンピュータがもたらす可能性に興味を持ちました。新しいものを創りだす可能性と言ってもいいかもしれません。高校の時には、既にソフトウェアを自作していました。



阿部川 そうですか! どんなソフトウェアですか。



ウェクスラー氏 不動産ビジネスのシミュレーションソフトです。



阿部川 それはすごい。高校の時点でビジネスに興味がおありだったんですね。



ウェクスラー氏 はい。ほんの少しですが、もうかりました(笑)。



阿部川 よかったですね(笑)。大学では何を専攻されていましたか。



ウェクスラー氏 数学とコンピュータサイエンスです。メリーランド大学で博士号を取得しました。



阿部川 素晴らしい。大学ではどの分野に力を入れていましたか。



ウェクスラー氏 大学に入ってからも数学が好きでした。数学の世界の厳格な部分、「答えが1つになるまで諦めずにやり続けないといけない」というところが好きでした。ある人にとっては退屈で面白くないと映るかもしれませんが、考える過程で多くの不確実なものを取り除いていく、そのプロセスが好きでした。



 この視点は、人が「世界を見る」場合にも当てはまると思います。幾つかの事実があり、その事実に対する答えがある。その関係性が分かれば未来を予測できます。事実がはっきりしないと計画は立てられませんよね。数学そのものはドライですが、リアリティーを加えられれば、より多くのことが達成できます。それによって思考をさらに上の段階にと飛躍させることも可能でしょう。



阿部川 大学に残って、アカデミックな分野に進むということはお考えにならなかったのですか。



ウェクスラー氏 考えませんでした。話すより、行動を起こす方が好きでしたから(笑)。



阿部川 「考えるより実践」ということですね。その後、博士課程に進まれます。



ウェクスラー氏 はい。学士課程の中で、視覚に関するコンピュータの研究に興味を持ち、もっと深く学びたいと思ったんです。ただ博士課程にいる間に分かったことは、コンピュータやコンピュータを用いた視覚研究の分野で何が起こっているのかを、正しく認識して知っている人が誰もいないということでした。つまりこの分野は文献などで研究するのではなく、実際にやってみないと分からない、ということが分かりました。ですから博士号を取得した後も少しの間はリサーチを続けていました。



●読めなくても「文字かどうか」は判別できる不思議



阿部川 大学を卒業後はMicrosoftに入社されます。製品開発の部署だったとお伺いしていますが。



ウェクスラー氏 はい。それまで学んだ知識やテクノロジーを実際の製品に応用できないかと考えていましたので、そういった研究をしているチームで仕事を始めました。現実的に製品化して市場に出せるかどうかが、そのテクノロジーが本物かどうかの判断材料になると思ったからです。Microsoftには4年在籍しました。



 主にコンピュータと視覚、ビジョンの処理といったものを研究開発していました。面白かったのは「テキストの認識」がコンピュータには難しいということです。Googleの「ストリートビュー」のような映像を見たとき、その中にはテキスト情報がありますね。研究では、コンピュータにそのテキストを読み込ませたいわけですが、そのためには「そこにテキストがある」ことをソフトウェアに認識させなければなりません。人間ならすぐできますよね。私は日本語が分かりませんが、もし日本に行って何かの看板を見たら「文字が書いてある」ということは分かります。



阿部川 なるほど、確かに読めなくても「文字かどうか」は判別できますね。



ウェクスラー氏 そうです。ただ、コンピュータの場合は「どこからどこまでが画像データで、テキストデータはどれなのか」といったことを認識させる必要があります。でも人の脳は、その人がわざわざ自覚しなくとも、瞬時にそのテキスト情報を認識します。私はそれが不思議でした。



 そこで私は人の動きや思いといったものを注意深く観察しました。その結果、私たちがテキストを認識するとき「1つ1つの文字の筆順や筆致を確認する」というよりは「文字の全体情報を認識している」ことが分かりました。そこで、その認識の仕方をアルゴリズムにできないかと考え、「画像情報と文字情報を同時に参照させ、文字情報だけを瞬時に認識させる」という実験を繰り返し実施しました。



阿部川 面白いですね。



ウェクスラー氏 はい。実際の製品でもこの実験の結果は使われています。



●ユーザーが本当に欲しい情報だけをどうやって選択すれば良いか



阿部川 その後、OrCam Technologiesに入社されます。きっかけは何だったのでしょうか。



ウェクスラー氏 ヘブライ大学のAmnon Shashua(アムノン・シャシュア)教授(OrCam Technologiesの共同設立者)から直接連絡があり、一緒にやらないかと誘われたのです。



阿部川 直接スカウトされたのですね。OrCam Technologiesは2010年設立で「OrCam MyEye」を2015年に発表していますが、その前に、自動車関連の製品も開発し、市場に出しています。



ウェクスラー氏 はい、シャシュア教授は自動車の衝突回避システムを開発しているMobileyeという会社の共同設立者でもあったので自動車関連の製品も扱っています。



阿部川 ウェクスラーさんの開発した最初の製品はOrCam MyEyeということになりますか。



ウェクスラー氏 はい。「目に障害がある方に対して、ITで何か手助けができるのではないだろうか」と考えたのが始まりです。その方々が必要としているものは何だろうと考えました。一般的には、盲導犬やつえが思い浮かびますよね。ただ、実際にその方々にお会いしてお話を伺ってみると、たくさんのニーズがあることが分かりました。



 例えば「自分が今いる周りの状況を知りたい」というニーズがありました。周囲の状況が瞬時に分かれば確信を持って、次の行動に移ることができるから、という理由です。どうすれば、それに応えることができるかと考えました。



阿部川 なるほど、盲導犬やつえを利用すれば「ぶつからずに歩く」ことはできても、周囲の状況をすぐに把握することは困難です。



ウェクスラー氏 その通りです。そして、こうしたサポート機器はいつでも使えなくてはならないので、簡単に壊れない高い品質が必要ですし、片手ででも使えるようにしなければならない。そのような要求を実現し、なおかつ使いやすい製品として完成させるためには、多くの時間が必要でした。アイデアが生まれてから試作品にこぎ着けるまで3年かかりました。試験的に利用していただいた方からのフィードバックを反映し、最終的な製品として完成するまでにはさらに2年ほどかかりました。



阿部川 お話を伺っていると、以前から培われてきたモービルアイのテクノロジーとウェクスラーさんの製品に対するビジョンが、OrCam MyEyeという製品に集約されたように思います。



ウェクスラー氏 そうかもしれません。ただ、モービルアイの視覚に関するテクノロジーとOrCam MyEyeで使われている視覚テクノロジーはちょっと違います。「視覚(カメラ)の情報を基に運転のサポートをする」ことと「視覚の情報を基に状況を伝え、運転のサポートをする」ということは必ずしも同じではありません。私たちの日常生活は、車の運転以上にさまざまな状況に遭遇します。看板一つとっても生活する場所によって見える文章はさまざまで、フォントやスタイル、伝えている情報は全て違いますよね。



阿部川 確かに。しかし、それを製品に反映するのは大変そうです。



ウェクスラー氏 一番大変なことは、自然なユーザーインタフェースを構築することでした。ユーザーが欲しいと思うどんな情報でも提供できなければなりません。かといって、街の中にあるものを片っ端から喋り続け、止まらなくなっては意味がありません。「ユーザーが本当に欲しい情報だけをどうやって選択すればよいか」ということを考えなければなりませんでした。



阿部川 ユーザーが必要な情報はどれか、を判断しなければならないわけですね。



ウェクスラー氏 そうです。書いてあるものを全て読もうとすると、どこが大切なポイントなのか理解するまでに時間がかかりますから。そのため、その人が読みたいところを指さすと、指さした部分のテキストをシステムに認識させることにしました。人を指さすことが失礼にあたる文化もあることは承知しておりますが(笑)、このような人の自然な動作をデバイスが認識して必要な情報を提供すれば、多くの人の役に立つのではないかと思ったのです。



 小さいときからテクノロジーに触れ、コンピュータを用いた視覚研究に興味を持ったウェクスラー氏。「見たことと認識したことは違っている」という難問に対して同氏が出した答えは視覚障害者の支援ツールであるOrCam MyEyeだった。後編は同氏が仕事をする上で最も大切にしていることについて伺った。


    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定