ホーム > mixiニュース > IT・インターネット > IT総合 > スマートスピーカーで話題の「音声技術」 専門家が語る課題と“体験”の重要性(前編)

スマートスピーカーで話題の「音声技術」 専門家が語る課題と“体験”の重要性(前編)

0

2018年07月23日 18:02  新刊JP

  • チェックする
  • つぶやく
  • 日記を書く

新刊JP

写真『音声に未来はあるか?』著者の河野道成さん
『音声に未来はあるか?』著者の河野道成さん
2018年上半期のトレンドといえば「Amazon Echo」や「Google Home」といった「スマートスピーカー」は欠かせません。人工知能(AI)が内蔵されていることから、いよいよ近未来のテクノロジーが本格的に日常に入り込んできたと期待している人も多いでしょう。

私たちの生活を変えるかもしれない「音声インターフェース」。その可能性と課題はどこにあるのでしょうか?
ソニー株式会社でユーザーインターフェースやネットワークに関する研究開発に携わり、音声UXデザインチームを作り統括。2014年に独立し、音声UIやUXデザイン(顧客体験設計)に関するコンサルティングや研究開発に携わる河野道成さんは、『音声に未来はあるか?』(日経BP社刊)で丁寧に現状を分析しながら、「課題は山積み」だと指摘します。詳しくお話をうかがってきました。

(新刊JP編集部)

――河野さんが上梓された『音声に未来はあるか?』は、音声インターフェースの現状についてまとめられていますが、その中で課題を指摘する記述も多く見受けられました。

河野:スマートスピーカーの発売以来、音声インターフェースは注目を集めているのですが、ある意味スマートスピーカーという商品の比較に終始してしまっていて、音声認識の技術まで踏み込んだ話ってあまり出ないんですよね。だから、技術の話とUIやUXデザインの話を絡めた本を書ければと思っていました。

――河野さん自身は以前勤められていたソニーで音声UXデザインチームを率いていたそうですね。

河野:そうです。ソニーの中には、音声に関する技術を研究するプロフェッショナルたちがいるのですが、技術先行になりがちなところがあって、技術を前提にサービスを作るという流れになりがちでした。

もちろん研究開発は最も大事です。ただ、ユーザーにサービスとして提供する場合、ユーザーが快適に使ってもらうために適した形にしなくてはいけません。要素技術の研究者はそれぞれ専門性が高く独立しているだけに、他の技術との組み合わせ(統合)や体験設計までしっかり考えるのは難しい状況にあります。

だから、体験設計からサービスやプロダクトのプロデュースをする人が必要だということで、音声UI/UXデザインというのを私が受け持っていました。

――当時、河野さんが認識していた音声インターフェースの「課題」とはどのようなものでしたか?

河野:やはり「音声認識」にフォーカスされがちだったということですね。例えば音声で指示をしてテレビがつけば「すごい!」となる。だけれども、手元のリモコンの電源ボタンを押せばテレビはつくわけですから、結局慣れている方に行きますよね。

UX(ユーザーエクスペリエンス/顧客体験)とはそういうもので、実際に使ってもらうには、体験的なデザインが必要です。音声の場合、体験よりも技術が先行していたこともあり、体験が追いつかずにいくら良い技術もちゃんと活かすことができていなかった。これがブレイクしない原因でもありました。

だから、UXデザインについてしっかり考えないと、また技術先行のサービスやプロダクトができてしまい、同じ轍を繰り返してしまうのではないか…。そういう思いがありましたね。

――サービス側からのアプローチということで、技術開発者と意見がぶつかることも多いのではないですか?

河野:それはありますね。こういう体験を創り出すことがベストだということを伝えないといけませんから。

例えば、スマートスピーカーやスマホに「アレクサ!」とか「Siri!」と呼びかけるってハードル高くないですか? 恥ずかしいと思う人もいるでしょう。だからそういう呼びかけがなくなるのは私としてはベストだとは思います。ただ、呼びかけをなくしてしまうと、自分が発した声以外に勝手にシステムが反応して、予期せぬ動作が起こるかもしれない。そういうせめぎ合いもあります。

私はソニー時代、技術者の皆さんに「技術を洗練してください」と伝えていました。一方で、私は「ユーザーにとってこれが良い」という優先度付けをして、もし技術ではなくUXデザインでごまかせるところがあれば、その方法を取ったりもしていました。

――「ごまかす」というのは?

河野:音声の面白さはやはりコミュニケーションです。だから、エンジニアリングで不足している部分をコミュニケーションで逃げることができるんですね。

例えば、ユーザーの好みの季節を知りたいときに、「好きな季節はなんですか?」と聞くと確実に失敗します。季節って春夏秋冬以外にもたくさんありますよね。「初夏」「秋と冬の間」とか。ほかに「春と夏」と2つ答える人もいます。

――答えは確かに4つではないですね。

河野:そうです。だからその返答に対する応答のシナリオをたくさん作らないといけません。そうすると、システムがすごく複雑化するんですね。ならば、シンプルに「春夏秋冬どれが一番好きですか?」と聞く。こうすればシナリオは4つの選択肢プラス1つで終わります。「プラス1」というのはたとえば「4つのうちで答えて下さい」という例外処理対応です。

聞き方は変わるけれど、ユーザーは嫌な気持ちにならないでしょう。つまり、システムの都合がいいように答えを誘導することも、UXデザインのキモなのです。

――それらの応答や質問はシナリオライターが書いているわけですか。

河野:はい、大半はそうです。ただ、やはり(シナリオ作りは)難しいですから、音声UXデザイン特化のシナリオライターが出てくるかもしれませんね。

シナリオ作りに向いている人は声優、役者や脚本家です。彼らは自分の言い方によって反応を変える術を知っています。「こういう言い方をすると突っ込まれやすくなる」というテクニックですね。コミュニケーションを作って見せている人たちはテクニックを持っていますから、それを応用することができます。

やってしまいがちな良くないコミュニケーションの代表例は「オープンクエッション」です。「何でもお申し付けください」って言われても、「何を話せばいいんだろう」「こんなこと言ったら大丈夫かな」と困ってしまう。

――それが山積みとなっている課題の一つですね。他に課題をあげるとすると?

河野:例えば音声を処理して返答を考えているときの微妙な「間」もユーザーを不安にさせてしまう課題の一つです。こっちから話しかけていいのかなという「間」に、人間は不安を覚えてしまうんです。

――コミュニケーションを前提で考えていると、すぐにレスポンスがないと不安になりますよね。

河野:そうですよね。電話をしているとき、相手からのレスポンスが5秒でも無音だったら「おーい?」と呼びかけますよね。それと似ている状況です。人間って音声によるコミュニケーションを小さい頃から使い込んでいるので、システムが考えるために間があくという前提になかなか立てないんです。

――ウェブで少しでも表示に時間がかかるとイライラするという人も少なくないですが…。

河野:まさにそれです。だからスマートスピーカーにこういう言葉が返ってきたらこう返答してくださいとあらかじめ組み込んでおけば、即時のレスポンスはできますが、思い付きのような言葉に対応するのは難しくなるんです。

人間は想像をしながらコミュニケーションをしますが、スマートスピーカーはまだそこまでの領域にいっていません。AIが搭載されていて、できることばかりが喧伝されていますが、「賢いんだ」と思って使うとがっかりするユーザーも多いはずです。

(後編に続く)

    あなたにおすすめ

    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定