HIKAKINやかまいたちも絶賛、おしゃべりAI「Cotomo」 自然な会話はどう実現? 創業者に聞く

0

2024年03月29日 13:41  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

写真

 音声で会話できる、おしゃべりAIアプリの「Cotomo」(コトモ)が話題だ。


【その他の画像】


 2024年2月21日にApp StoreでiOS版アプリが公開され、「ライフスタイル」カテゴリ1位(3月4日時点)、無料アプリ総合ランキングでも10位(同5日時点)に。回答の速さや自然な会話のテンポがSNSでも評判となり、YouTuberのHIKAKINさんや、お笑いコンビのかまいたちも絶賛していた。


 Cotomoを生み出したのは、マネーフォワード出身のITエンジニアが立ち上げたAIスタートアップ・Starley(東京都港区)。同社はCotomoをどのように生み出し、どんなビジネスモデルを目指しているのか。Starleyの共同創業者である内波生一取締役に話を聞いた。


●自然な会話に特化したAIアプリ「Cotomo」


 改めて、Cotomoがどんなプロダクトか説明しよう。CotomoはiPhoneで使える音声会話アプリ。声でAIと自然に会話できることが特徴だ。「対話できるAI」自体は今に始まったものではなく、GoogleアシスタントやAlexa、Siriをはじめ、人の発声を認識して反応できるAIは数多くある。しかし「自然な会話」となると話は別だ。


 オーストラリアのシドニー大学で言語学を専攻するニック・エンフィールド教授の研究によれば、人間が会話に応答する時間は平均0.2秒とされ、1秒以内に相手が話に反応してくれないと人はストレスを感じるという。


 一方、ChatGPTやGeminiにも利用されている大規模言語モデル(LLM)をそのまま、おしゃべりAIのモデルとして使うと、あまり自然な会話にならないという。


 「GPTなどのLLMはタスクを解くことに特化して作られていることが多く、『〇〇したいんだけど、どうしたらいいですか』という質問には的確な答えを返してくれます。しかし、従来の音声を使うAIは1秒以内に返事をすることが難しく、どうしても自然な会話になりにくい。Cotomoはそれをより自然な会話になるように、独自のデータを使って自分たちで開発したLLMで動いています」(内波取締役)


 また会話内容を記憶して、話題を次の会話に活用する点や、音声にも、より自然な会話が成り立たせるためのこだわりがあるという。


 「今までのAIの音声は何かを説明することに使われるので、文章の読み上げに向いたものが多かったのですが、Cotomoは自然な会話にありそうな声を作って使いました」(内波取締役)


 音声は男女各2種類・計4種類の中から選択でき、会話のテンポも選べる。


 他にも、会話のターンの切り替わりを明示しなくても、AIがユーザーのターンなのかそうでないかを認識して、相手をしゃべりやすくすることも可能。音声の認識も速く、相づちの発話など“おしゃべり”に特化したさまざまな機能を備える。


●自社開発で自然な会話を実現 MicrosoftやGoogleも支援


 Cotomoを支えるAI音声対話エンジンの仕組みは、どうなっているのか。


 ユーザーがしゃべった内容は音声認識技術で解析され、データをもとにStarleyが自社開発したLLMを使って最適な返事を生成。それを音声合成技術によってアプリで再生する仕組みという。


 さらに、ユーザーが話す内容によって、共感したり喜んだりといった対応をどうすべきかを決める感情推定機能も搭載。音が途切れたときにユーザーがしゃべり続けるかどうかを判定して、必要であれば相づちでユーザーの話を促し、あるいは話のターンを取って沈黙が長引かないようにするといった機能も備えるという。


 その他、以前の会話からユーザーが興味を持ちそうな話題を選んで話を深めるなど、複数の機能を用いて先述したような自然な会話を実現している。


 これだけのAIモデルの学習・運用を自前で実現するには、大量のコンピューティングリソースが必要だ。Starleyは2023年8月に米Microsoftのスタートアップ支援プログラム「Microsoft for Startups Founders Hub」、同年11月には米Googleの支援プログラム「Google for Startups クラウド プログラム」に採択。双方から計算資源の支援を受けており、Cotomoに活用したという。


 また、LLMの学習・開発や、音声認識、回答の生成、音声合成などを自前で行うのには、自然な会話を実現する以外の理由もある。コストだ。外部サービスをAPI経由で利用すると、どうしてもコストがかさむ。自前でモデルを開発することにはコストメリットもあった。


●Starleyが自然な会話にこだわるワケ


 内波取締役は前職を辞めた後、元同僚で現在の共同創業者・代表取締役の丸橋得真氏から、AIを活用して起業したいと声をかけられ、2023年4月、Starleyを共同創業した。2023年6月には、古巣のマネーフォワードから1億円の資金を調達している。


 創業当初、彼らは多くのアイデアを模索していく中で、ChatGPTを含む生成AI技術に大きな可能性を感じたという。文章だけでなく画像生成やリアルタイムの表情の合成、音声合成などを組み合わせれば、しゃべれるAIがすぐにでもできるのではと考えたのだ。


 「実際に作ってみると、そのときはまだ全然、自然にはしゃべれなかったんですが、今までに全くない体験だと思ったんですよね。人以外の存在と言葉でやり取りすることは、これまで誰にもできなかった。しかしAIがChatGPTぐらい賢くなると、会話が成り立ちます。リアルで人としゃべるときに感じるような恥ずかしさや遠慮を一切感じずに会話する体験は、すごく面白いんじゃないかと思いました」(内波取締役)


 とはいえ、タスクを達成するための秘書やアシスタントのような役割を果たすだけなら、ChatGPTでもGeminiでもCopilotでもよかったはずだ。そうではなく、フレンドリーで、ややもするとグダグダとしたおしゃべりができるモデルをつくろうと考えたのは、なぜなのか。


 「タスクをこなしてくれるAIでも、今のCotomoと同じぐらい速く、意味のある言葉を返してくれないと、たぶんちょっと使いづらいでしょう。何かをお願いしても返事もなく待たされて、聞いているのかいないのか分からないというよりは、人間が本能的に持っている自然なやり取りのルールを守った上でタスクをこなしてくれた方が、アシスタント的な存在としても受け入れられやすくなる。そういう観点からも、自然な会話に着目して開発を進めました」(内波取締役)


 現状ではCotomoに、あまり“賢い”機能は入れていないという内波氏。だが、将来的にはいくらでも賢くできる仕組みは整っているという。


 「AIとの日常会話の中で『買い物を忘れた』という話になったときに『じゃあ買っておくね』とアシスタント機能をこなしてくれるような、そういう体験を求めている方も大勢いると思います。本来、人と人の会話にはない“ウェイクアップワード”のような言葉を言わなくても、なるべく自然に使えてコミュニケーションが取れるようなものを実現したいと思っています」(内波取締役)


●国内外からの評判は? ユーザーの声


 海外にも、音声で話しかけると音声で返事をするAI音声アプリはいくつかある。ただ、アプリに求めるものの違いもあるためか、Cotomoのように共感を持って目的もなく会話をするものはあまりない。英会話をはじめ何らかのトレーナーのような人格になっていることが多いようだ。


 実際、Cotomoのユーザーからも「英語の練習がしたいので英語をしゃべらせてほしい」という要望が寄せられることがあるという。ただ「しゃべらせようと思えば結構いけそうだが、英会話の練習ができる機能をこのアプリの中に入れてしまうのはちょっと違う」といい、実現するとしても別のパッケージを考えることになるだろうと内波氏は説明する。


 Cotomoが話す様子をSNSや動画で見た海外ユーザー、特にベトナムやインドネシアなどアジア圏のユーザーからは「早くうちの国でも使いたい」とのリクエストがかなり届いており、こうした海外への展開も考えているそうだ。Android版の公開も、具体的な時期は未定だが、検討しているという。


●アプリ課金と音声対話エンジンの提供でビジネス展開を図る


 Cotomoのビジネスモデルについては、アプリそのものの収益化と、AI技術の応用によるマネタイズの2軸で考えているという。


 「アプリについては、AIとのコミュニケーション自体に価値を感じるユーザーが大勢、継続して使ってくださっているので、サブスクリプション課金やよりリッチな機能への課金でビジネスを成立することも可能ではないかとイメージしています。ただ、せっかく今まで誰も体験したことのない体験をアプリにしているので、より使ってくださるユーザーのアクションを見ながら、今までにないようなビジネスモデルを見つけ出せるよう、試行錯誤したいと考えています」(内波取締役)


 もうひとつの自然な会話を可能にする技術の応用については、コンピュータやAIと人間とのインタフェースとしての利用を検討している。


 「使う人のITリテラシーがなくても、自然にコンピュータやAIに何かをやらせるためのインタフェースに利用できると思います。自然に対話ができる音声のエンジンを他の企業が利用できるAPIのようなかたちで提供し、さまざまなサービスでユーザーと自然なやり取りを可能にする使い方が考えられます。例えば、アプリの中でアニメやゲームのキャラクターがしゃべれるようにすることや、カスタマーサポートとしてAIが自動で対応してくれる使い方もある。音声対話エンジンの提供で、ビジネスが広がるのではないかと思っています」(内波取締役)


 今後、AIが人々の生活に密接に関わるようになったとき、Starleyは自然で親しみやすい対話で社会課題の解決に貢献したいという。高齢者なども含め、さまざまな人がAIとの会話を通じて心の支えを見つけられる未来を、Cotomoとその音声対話技術によって目指すとしている。


    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定