Alibaba、視覚的推論可能なAIモデル「QVQ-72B-Preview」を公開

　中国Alibabaは12月25日（現地時間）、高度な視覚的推論能力を持つ新しいオープンウェイトAIモデル「QVQ-72B-Preview」を発表した。複雑な問題を解決するために視覚情報を理解し、推論する能力において大きな進歩を遂げたとしている。

　視覚的推論能力とは、画像や動画などの視覚情報を解釈し、その情報に基づいて論理的な結論を導き出す能力。

　QVQ-72B-Previewは、画像内のオブジェクトを認識するだけでなく、オブジェクト間の関係性を理解し、文脈に基づいて推論する。例えば、複雑な物理の問題を、段階的に推論して解決策を導き出すことができるという。

　医療診断で画像診断の結果を解釈して医師の診断をサポートしたり、日常では大型家具の仮想配置などに役立てられるとしている。

　MathVista、MathVision、OlympiadBenchなどの数学・科学分野のベンチマークで優れた成績を収めた。特に、MathVisionでは、米OpenAIの最先端の推論モデル「o1」に迫る性能を示した。

　QVQ-72B-PreviewはHugging Faceで公開されており、誰でもアクセスできる。

　まだプレビュー段階であるため、課題も残されている。例えば、再帰的な推論ループに陥り、最終的な答えにたどり着かない冗長な応答を生成することがある。また、異なる言語を混在させたり、予期せず言語を切り替えたりすることがあり、応答の明瞭さに影響を与える可能性もあるとしている。

　このモデルを試したオープンソース開発者のサイモン・ウィルソン氏のブログでテスト例を見ることができる。

ピックアップ