ホーム > mixiニュース > IT・インターネット > IT総合 > PDFから構造化テキスト抽出に成功 岩波新書をEPUB化 イースト

PDFから構造化テキスト抽出に成功 岩波新書をEPUB化 イースト

3

2019年07月25日 07:42  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

写真写真

 イーストはこのほど、テキストPDFから、構造化されたマークダウン(簡易HTML)テキストを取り出すことに成功したと発表した。同社は、「日本語で複雑に組版されたPDFからの正確な構造化テキスト抽出は世界初と思われる」としている。PDFから簡単にEPUBを生成できるクラウドサービスとして、「EPUBpack」という名称で出版社向けに販売する。第一弾として岩波書店が、このサービスを使って岩波新書のEPUB化を始めた。



【その他の画像】



 日本語や欧文、中国語などで利用でき、縦組みや縦中横など、複雑な日本語組版にも対応したツール。



 PDFファイルを読み込むと、目次や大見出し、小見出しなどのマークを付け、構造化されたマークダウン形式のテキストを出力。画像や表、グラフなどの図版は、キャプション文字を組み込んだ画像ファイルが生成される。ルビや窓見出し、ページ単位の縦組み・横組み混在なども正しく抽出できるという。



 このマークダウンファイルを、独自のCMS(コンテンツ管理クラウド)に入れてEPUBファイルを制作する。EPUBは、日本電子書籍出版社協会が定めたEPUB制作のためのガイド「電書協ガイド」に沿っており、EPUB 3.2にも対応した。書籍の改訂もCMSから簡単に行える。コンテンツの履歴管理にはGitを使用した。



 同社は2004年からAdobe PDFライブラリの販売を始めており、15年間蓄積してきたPDFドキュメント技術で、抽出アプリを開発したという。新書や文庫、一般書、学術書、学術論文の他、AIに学習させる社内ドキュメントの構造化などさまざまな分野への応用を期待できるとしている。

このニュースに関するつぶやき

  • あー、ついにできるようになったのか...PDFからのテキスト化って元データの作り方で全く違うので最終的には新規に手打ちで起こした方が早かった、とかザラにあるからなぁ(苦笑)
    • イイネ!0
    • コメント 1件

つぶやき一覧へ(1件)

あなたにおすすめ

ランキングIT・インターネット

前日のランキングへ

ニュース設定