日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。

KuroNetくずし字認識サービスは、「KuroNetくずし字認識ビューア」と「ダッシュボード」の2つのツールを利用します。「KuroNetくずし字認識ビューア」でくずし字OCRを行う領域を指定し、「ダッシュボード」でくずし字OCRの進行状況を管理します。

ログイン後にダッシュボードへ移動
(クリックしても何も反応しない場合は、ログインして下さい

利用方法

  1. 利用登録の後、ログインします。なおログインについては、「KuroNetくずし認識ビューア」と「ダッシュボード」の両方に、同じアカウントでログインする必要があります。
  2. 「KuroNetくずし認識ビューア」に、認識したい本のIIIFマニフェストをドラッグ&ドロップしてください(注意:IIIFの利用)。そして、ページ移動やサムネイル表示などを用いて、認識したい画像を表示してください。これはIIIF Curation Viewerの一般的な操作ですので、IIIF Curation Viewerのマニュアルなどをお読みください。
  3. 右上の「■」ボタンをクリックして、くずし字認識したい領域を指定します。一般的には、見開きの半分を指定することを想定しています。小さな領域を指定すると、領域が自動的に拡大します。
  4. 領域を指定した後にクリックすると、ポップアップウィンドウが表示されます。その中の「KuroNetくずし字認識サービス」をクリックしてください。
  5. ログインしていれば、画像登録の後にダッシュボードが表示されます。ログインしていない場合は、「KuroNetくずし認識ビューア」でログインしてください。
  6. ダッシュボードの「OCR予約」リンクをクリックします。OCR予約に成功すると、OCRシステムは先着順でくずし字OCRを実行していきます。なおOCR実行に要する時間は入出力処理も含めて約3秒(*1)ですので、順番待ち件数×3秒程度の待ち時間を想定してください。
  7. ダッシュボードを再読み込みすると、「OCR結果」に結果が表示されます。「OCR成功:閲覧」リンクの場合、クリックするとIIIF Curation Viewer上にくずし字認識結果が表示されます。「OCR失敗:消去」の場合、何らかの原因でKuroNetが認識できない画像ですので、リンクをクリックして結果を消去してください。
  8. IIIF Curation Viewerの左下には、文字の表示位置や大きさ、透明度などを調整する設定機能があります。またこのOCR認識結果は、誰でもアクセスできるデータですので、URLを共有すれば他者でも閲覧できます。

その他、以下のページにも説明があります。

  1. 「KuroNetくずし字認識サービス」の使い方(@yhkondo 氏のレクチャー)【IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できる!】

お試し利用

日本古典籍データセットの各ページ、および日本古典籍くずし字データセット 書名一覧のページに、KuroNetをお試しできるリンクを用意しました。

IIIFの利用

このサービスを使う際の大きなハードルは、「IIIFマニフェストをドラッグ&ドロップ」という操作にあります。この操作を簡単にするためのツールとして、Open in IIIF Viewerがあります。ブラウザ拡張機能としてこれをインストールし、オプションの「Open IIIF manifest link in (URL)」に「http://codh.rois.ac.jp/kuronet/iiif-curation-viewer/?manifest=」を設定すると、ボタン一つで開けるようになります。

また、KogumaNetくずし字認識サービスは、非IIIF画像に対する「一文字認識サービス」を提供します(準備中)。

現在のところ、非IIIF画像にKuroNetを適用するには、IIIFへの対応が必要です。第一に、自分が保有する画像やオープンデータであれば、Omekaなどのツールを用いてIIIF形式に対応した画像を作成し、それを使うことができます。第二に、図書館や博物館などの組織であれば、自館のシステムをIIIFに移行することを検討してください。世界の多くの図書館や博物館もIIIF形式による公開に移行しつつあり、長期的なトレンドとしてIIIF対応画像はますます増えていく見込みです。

将来的には、オープンソース版KuroNetも公開する予定です。ディープラーニング実行環境を自力でインストールするスキルがあれば、どんな画像にも利用できるようになります。

制限

  1. 日本古典籍くずし字データセットを学習しているため、このデータセットに存在する文字しか認識できません。旧字と新字の統合などはこのデータセットの作成方針にしたがいます。
  2. データセットで出現頻度が低い文字は、認識が困難となる場合もあります。
  3. 版本に比べて写本、古文書は、書き手ごとの字形の変異が次第に大きくなるため、認識もより難しくなります。
  4. 石碑などの文字は3次元構造を持つため、紙の上の文字とは文字輪郭の特徴が異なり、認識が難しくなります。

こうした問題点を解決するには、より多くの種類の資料から字形を収集してデータセットを構築し学習する必要があります。

本サービスの利用は無料ですが、他の方々の利用をさまたげるような利用状況となった場合、利用制限などを行う可能性もあります。あらかじめご了承下さい。

参考文献

KuroNetの参考文献のページをご覧下さい。

関連ページ

  1. AIによるくずし字認識

ポリシー

KuroNetくずし字認識サービスのポリシー

ニュース

2020-03-25

KuroNet Text Editorを公開しました。また、これと合わせてKuroNetくずし字認識サービスを改良し、自動テキスト化、手動テキスト化の機能を加えました。これにより、KuroNetくずし字OCRによる文字単位の認識結果を連結して文字列(テキスト)として出力し、コピーペーストして使えるようになりました。

文字の読み順を指定するツールは2種類あります。第一にKuroNet Text Editorは、複雑なレイアウトでも読み順を正確に手動で指定できます。第二に自動読み順推定アルゴリズムは、割書などを含まない単純な縦書きレイアウトであれば、読み順を瞬時に自動で推定できます。また、最初に自動読み順推定アルゴリズムを利用し、その結果をKuroNet Text Editorで修正する、という2段階の作業も可能です。レイアウトの複雑さに応じて、2つのツールを併用して下さい。

また一部の認識結果において、文字の表示位置が左上方向にずれるバグがありましたが、この問題を修正しました。

さらに、サービスにログインできない場合がある問題についても、一部対応して状況を改善しました。

2019-11-11

AIくずし字OCRサービスの一つとして、KuroNetくずし字認識サービスを公開しました。

支援

KuroNetに関する研究は、科研費などの研究費の支援を受けています。

  1. ディープラーニングによるEnd-to-End日本古典籍くずし字認識の研究
  2. 歴史ビッグデータ研究基盤による過去世界のデータ駆動型復元と統合解析

(*1) 本サービスは旧式のGPU(Tesla M40)を活用しています。最新式のGPUを使えば、処理時間を半分以下(1.5秒程度)に短縮できます。