静岡で進む図書館DX! 自治体サイト上のPDFを自動収集するクローリングシステム開発

0

2022年05月23日 09:01  Techable

  • チェックする
  • つぶやく
  • 日記を書く

Techable

写真写真
静岡県立中央図書館は、2021年度から静岡県立中央図書館がおこなっている「図書館DX実証実験」の一環として、静岡県内の自治体WebサイトにアップロードしたPDFを自動収集するクローリングシステムを株式会社Geolocation Technology(以下、Geolocation Technology社)と共同開発しました。

クローリングシステムにより、これまで人手で収集していたPDFを自動で収集することが可能になります。なお、公共図書館におけるクローリングシステムの開発は、全国初の取り組みとのことです。
45万件ものPDFを自動で収集静岡県立中央図書館らが開発したクローリングシステムは、これまで収集が難しかったとされる、静岡県内の自治体Webサイトのドメイン内に格納されているPDFを自動収集するというものです。

収集したたPDFの数は45万5133件。収集範囲はドメイン以下5階層目までですが、5階層内のHTMLにPDFへのリンク(<a href=”*.pdf”></a>)があれば、収集範囲の対象階層外であっても収集します。

収集したPDFはリネームし、Googleドライブで収集した日付ごとに、収集元のドメインと同じディレクトリ構造(Webサイトの「トップページ」「コンテンツページ」などのつながりや構造)で保存。また、過去の複数の時点のデータを保管する「世代管理」もおこなっているとのことです。
過去には貸出カードのスマートフォン表示も今回のクローリングシステムの開発は、2021年度から静岡県立中央図書館がおこなっている「図書館DX実証実験」の一環です。

静岡県立中央図書館は、図書館DX実証実験の第1弾として、2021年9月から貸出カードのスマートフォン表示を開始しました。

スマートフォンの画面が貸出カードの代わりになるため、貸出カードを持ち歩かなくても、図書館の資料を借りることができます。

続く第2弾では静岡県の電子申請サービス「ふじのくに電子申請サービス」を用いて利用者登録を可能とする「利用者登録等Web申込」、第3弾では株式会社紀伊國屋書店の電子書籍サービス「KinoDen」を活用して電子書籍を提供する「電子図書館」を展開しました。

そしてこのたび、Geolocation Technology社とともにクローリングシステムを開発。今後は、収集したPDFをもとにしたサービスの可能性を検証していく方針です。

PR TIMES(1)(2)
静岡県立中央図書館「【事前告知】図書館DX実証実験について 第2弾利用者登録等Web申込・第3弾電子図書館」

(文・Haruka Isobe)

    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定