AIが抱える根本的な限界とは?
2017年3月、『ベストセラーコード 「売れる文章」を見きわめる驚異のアルゴリズム』(日経BP社)という本が日本で翻訳され、話題になった。著者のジョディ・アーチャー氏とマシュー・ジョッカーズ氏らは、文章を解析するテキスト・マイニングなどの手法を駆使して、ニューヨーク・タイムズ紙のベストセラーとなった小説を調査。ヒットする小説に共通する特有のパターンを導き出し、コンピューターが8割以上の確率でベストセラーかどうか見分けることに成功したという。まさに、未来の「編集」だ。しかし、ここで使われている評価の指標は、ベストセラー、つまり売れているかどうかであり、売れているからといって「良質」と言えるのかという疑問は残る。Webメディアでは、多くの読者から興味を集めたかどうかを示すPV(ページビュー)が重要な指標の一つとなっているが、「PV=質」だとは必ずしも言えない。
翻って、ベストセラーの場合はお金を払って購入している分、PVよりは信頼できると判断することもできそうだが、専門家はどのように考えているのだろうか。
東京工業大学未来産業技術研究所の奥村学教授は、「たとえば、受動態が多い本がベストセラーになっていたとしても、当たり前ですが、『受動態が多いからベストセラーになった』という因果関係までは証明できたとは断定できません。ベストセラー作家が、たまたま受動態を多用していただけという可能性が捨てられないからです。もちろん、大量にデータを集めれば、ベストセラーになる本の傾向は掴めるかもしれない。しかし、それはあくまで確率の問題であり、その傾向どおりに書いたからといって、必ずベストセラーになるとは限らないのです」と語る。
|
|
たとえば、「炎上」しそうな記事を判定するAIを作ったとする。ネガティブなコメントが多くつけられた記事を「炎上した記事」と定義して解析し、炎上する記事の共通性を見出すことはできるかもしれない。記事を配信する前に、炎上する可能性をAIに示してもらえれば、編集者の参考になることは間違いないだろう。
しかし、このとき、「どういったコメントがネガティブなのか」「何を炎上とみなすのか」という評価基準は、人があらかじめ何かしらの正解やルールを与えていることになる。ネガティブコメントの量といった定義以外にも、その割合や単位時間当たりのコメント数、Badボタンが押された数など「炎上」の定義はさまざまであり、その定義ごとに学習される炎上記事の特徴は変わる。評価基準の決定を人間に頼らなければいけないのが、今のAIが抱える限界なのである。
曖昧な「良かった/悪かった」にかわる評価基準
さらに、人間の評価にはバラつきがある。たとえば、「ウケる」という言葉を良い意味で使うか、悪い意味で使うかは人それぞれだし、良い意味で使っているとわかった場合でも、どれだけ良いかは、それぞれの主観によって変わってくる。指標として使うためには、こうしたバラつきがあってはならない。だから、PVや売れ行きなどの定量的なデータは評価の指標にしやすいという事情がある。ただし、バラつきのある主観的な良し悪しの判断を「定量化」することは不可能ではない。首都大学東京のソーシャルビッグデータ研究センター長を務める石川博教授は、こう話す。
|
|
このような読む前、読後の差分を測る指標が定着すれば、極端な見出しで煽ることがなくなるかもしれないし、「思ったより良かった」と判定された記事は、見出しなど“入口”の部分を工夫したほうがいいという改善点を得られることになる。
さらに、脳波や心拍数、視線などの生体反応をコンテンツの改善に活かす動きも出てきている。国立研究開発法人情報通信研究機構の傘下にある脳情報通信研究センター、NTTデータ、NTTデータ経営研究所の3者が共同で研究開発している視聴覚情報による脳活動パターンの解読技術がその一つだ。NTTデータグループは、この技術を活用したサービス「DONUTs(ドーナツ)」によって、テレビコマーシャルなどの動画広告に、新しい評価基準を導入している。
生体反応を「評価」の基準にする取り組み
DONUTsは、fMRIで計測した脳活動パターンを解読し、動画広告を視聴中の視聴者の無意識的な反応を取得するサービス。計測結果を「名詞・動詞・形容詞」の三パターンで言語化することにより、動画広告作成側の意図がどれだけ反映されているか比較することができる。すでに多くの企業が、同サービスを利用している。つまり、「美味しい」と感じてほしいと制作側が意図した場面で、視聴者が本当に「美味しい」というイメージを思い浮かべているかがわかるというわけである。脳の活動データを直接取得しているため、事後に主観的な評価をする場合と違ってバイアスがかからないのが大きな利点だ。
画像:NTTデータ 「DONUTs」紹介ページ より
動画視聴中の脳活動を場面ごとに計測。知覚内容を推定し、「名詞・動詞・形容詞」として表示する
動画視聴中の脳活動を場面ごとに計測。知覚内容を推定し、「名詞・動詞・形容詞」として表示する
こうした生体反応を「評価」に利用する取り組みは、別のジャンルでも行われている。 前回の記事にも登場した首都大学東京の笠松慶子教授らが実施した新宿駅での研究がその一つだ。この研究は、新宿駅の構内で目的地にたどり着くまでの「迷うプロセス」を調査したもの。自律神経の活動を測ることによってリラックスしているかどうか、視線を計測することによってどこで迷っているかどうかを調べた。調査の結果をもとに、新宿駅の経路誘導を評価し、改善しようというわけである。
|
|
さらに、NTTデータ経営研究所の情報未来研究センター長・萩原一平氏は、「ウェアラブル端末が普及すれば、生体反応だけではなく、その人がいる周囲の環境の情報も取得できるようになります。たとえば、同じ喉が渇いている状況でも、気温が32度と18度とでは、飲みたいものが変わってきますよね。環境によって意思決定がかわってくるのが人間の脳の特徴なので、究極的には記事を読んでいる人の状況、朝か夜かなどの時間帯、体調、気分、スマートフォンかPCかなどの閲覧環境によって、配信する記事を変えるようになるかもしれません。これからは、脳情報を含むヒトの生体情報と環境情報、さらにはその人の過去の行動結果(意思決定、選択の結果として起こった行動)などの情報を総合的に活用し、読者、消費者の脳がもっとも満足する記事、商品、サービスを提供することができるようになるのではないでしょうか」と語る。
総務省の「平成27年版 情報通信白書」によると、37.8%の人がウェラブル端末の利用に積極的である。これは「健康管理サービス」に限ったことであるため、実際にはもっと利用率は下がるかもしれないが、将来的には、自分にとってよりよい情報を得るために、Webメディア側に生体反応を提供する読者が出てくるかもしれない。そうした生体反応がビッグデータとしてたまり、コンテンツ制作に活用されるのだ。生体反応が、Webメディア、そして編集の未来を変える可能性は広がる。
●文・構成/宮崎智之
【関連記事】