日本古典籍くずし字データセットを用いたAIくずし字OCRサービスとして、「KuroNetくずし字認識サービス」を公開しました。IIIF (International Image Interoperability Framework)に準拠した画像であれば、世界中で公開されるくずし字画像を翻字できます。
KuroNetくずし字認識サービスは、「KuroNetくずし字認識ビューア」と「ダッシュボード」の2つのツールを利用します。「KuroNetくずし字認識ビューア」でくずし字OCRを行う領域を指定し、「ダッシュボード」でくずし字OCRの進行状況を管理します。
本サービスは無料ですが、利用状況の把握と過度な利用の防止のために、ログインを必須としています。ログインサービスの実装には、Google社のFirebase認証を活用しており、Google、Facebook、Twitterのアカウントと連携するか、電子メールアドレスを入力することで、ログインが可能となります。
「KuroNetくずし認識ビューア」と「ダッシュボード」は、両方とも同じアカウントでログインする必要がありますのでご注意下さい。ログイン機能は、いずれの場合も画面の右上にあります。なお、アカウント連携はログイン機能の実現のみに利用し、取得した情報はそれ以外の目的には活用いたしません。
一方、ログイン不要なサービスとしては、多文字OCRの「みを(miwo)」スマホアプリや、一文字OCRのKogumaNetくずし字認識サービスもありますので、そちらもご利用下さい。
その他、以下のページにも説明があります。
日本古典籍データセットの各ページ、および日本古典籍くずし字データセット 書名一覧のページに、サービスをお試しできるリンクを用意しました。
このサービスを使う際の大きなハードルは、「IIIFマニフェストをドラッグ&ドロップ」という操作にあります。この操作を簡単にするためのツールとして、Open in IIIF Viewerがあります。ブラウザ拡張機能としてこれをインストールし、オプションの「Open IIIF manifest link in (URL)」に「http://codh.rois.ac.jp/kuronet/iiif-curation-viewer/?manifest=」を設定すると、ボタン一つで開けるようになります。
現在のところ、非IIIF画像の場合はIIIFへの対応が必要となります。第一に、自分が保有する画像やオープンデータであれば、Omekaなどのツールを用いてIIIF形式に対応した画像を作成し、それを使うことができます。第二に、図書館や博物館などの組織であれば、自館のシステムをIIIFに移行することを検討してください。世界の多くの図書館や博物館もIIIF形式による公開に移行しつつあり、長期的なトレンドとしてIIIF対応画像はますます増えていく見込みです。
将来的には、オープンソース版KuroNetも公開する予定です。ディープラーニング実行環境を自力でインストールするスキルがあれば、どんな画像にも利用できるようになる予定です。
こうした問題点を解決するには、より多くの種類の資料から字形を収集してデータセットを構築し学習する必要があります。
本サービスの利用は無料ですが、他の方々の利用をさまたげるような利用状況となった場合、利用制限などを行う可能性もあります。あらかじめご了承下さい。
KuroNetの参考文献のページをご覧下さい。
AIくずし字認識システムを、KuroNetからRURI(瑠璃)に変更し、くずし字認識精度が向上しました。この変更によりKuroNetというモデル自体は引退となりますが、歴史的な経緯も踏まえて、サービス名称としてはこのままKuroNetの名前を残すこととします。
KuroNet Text Editorを公開しました。また、これと合わせてKuroNetくずし字認識サービスを改良して、自動テキスト化、手動テキスト化の機能を加えることで、文字単位の認識結果を連結して文字列(テキスト)として出力し、コピーペーストして使えるようになりました。
文字の読み順を指定するツールは2種類あります。第一にKuroNet Text Editorは、複雑なレイアウトでも読み順を正確に手動で指定できます。第二に自動読み順推定アルゴリズムは、割書などを含まない単純な縦書きレイアウトであれば、読み順を瞬時に自動で推定できます。また、最初に自動読み順推定アルゴリズムを利用し、その結果をKuroNet Text Editorで修正する、という2段階の作業も可能です。レイアウトの複雑さに応じて、2つのツールを併用して下さい。
また一部の認識結果において、文字の表示位置が左上方向にずれるバグがありましたが、この問題を修正しました。
さらに、サービスにログインできない場合がある問題についても、一部対応して状況を改善しました。
AIくずし字OCRサービスの一つとして、KuroNetくずし字認識サービスを公開しました。
KuroNetに関する研究は、科研費などの研究費の支援を受けています。