Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始

0

2025年03月07日 09:21  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

 仏AI企業のMistral AIは3月6日(現地時間)、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。


【その他の画像】


 生成AIの基盤となるLLMは、プレーンなテキストデータに特化しており、PDFに含まれる画像や複雑なレイアウトを十分に理解することができない。Mistral OCRがPDFのようなマルチモーダルドキュメントを抽出、出力することで、PDFを直接理解するのが困難なLLMでも、PDFに含まれる情報を効果的に活用できるようになる。


 Mistral OCRは、PDFの内容を単にテキスト化するのではなく、Markdown(リンクやヘッダなどの書式設定要素を追加するための書式設定構文)でフォーマットする。


 PDFからデータを抽出するサービスは既にあるが、画像や表組み、数式も高精度で理解するのがMistral OCRの特徴だ。以下のようなベンチマークを紹介している。なお、比較している他のLLMには画像抽出機能はない。


 APIでの提供は、1000ページ当たり1ドル。Mistralの他、AWS、Azure、Google Cloud Vertexなどのクラウドパートナーを通じても提供する。また、機密性の高いデータを扱う企業向けに、オンプレミス展開も提供する。


 公式ブログに、数式やヒンディー語の文書など、OCR前後の文書の比較例が掲載されている。



    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定