みんなで翻刻OCRについて
概要
「みんなで翻刻OCR」は、くずし字で書かれた歴史資料を対象としたAI-OCRシステムです。歴史資料の市民参加型翻刻プラットフォーム「みんなで翻刻」で入力された5,700万字の翻刻文(honkoku-data)と、みんなで翻刻上の資料画像から切り出された120万行の行画像を用いてくずし字の読み方を学習しています。
くずし字認識AIには既に miwo・古文書カメラ・NDL古典籍OCR など数々の優れたシステムが公開されています。その中でみんなで翻刻OCRの特徴は、ふりがなや漢文の訓点などの注釈情報を識別できることです。みんなで翻刻ではふりがなや漢文の訓点を表記するために「Koji」という簡易マークアップ言語が用いられており、みんなで翻刻OCRもこの形式でふりがなや訓点を出力します。
使い方
- 「画像を追加」ボタンなどからテキスト化したい画像を登録してください(複数登録可能)。
- 「レイアウト認識」を実行し、行の位置や読み順を確定してください。手動で調整することもできます。
- 「OCR実行」ボタンを押し、処理が完了するまでお待ちください。結果は右側の翻刻パネルに表示されます。
注意
低解像度画像では認識精度が大きく下がる場合があります。できるだけ高解像度の画像をご使用ください。
お問い合わせ
みんなで翻刻サポート窓口: support[at]honkoku.org
免責事項
本アプリが出力するOCR結果はAIによる推定であり、誤りを含む可能性があります。研究・出版など重要な用途で利用される際は、必ず人手による校正を行ってください。本アプリの利用により生じたいかなる損害についても、開発者および関係機関は一切の責任を負いません。
本アプリはONNX Web Runtimeを用いてWebブラウザ内で完結して動作します。選択した画像とOCR結果は外部に送信されません。
謝辞
- 本システムは全面的にみんなで翻刻の入力データに依存しています。みんなで翻刻上で翻刻作業に参加してくださっているすべての方々に御礼申し上げます。
- NDL古典籍OCR-LiteなどのAI-OCRツールをオープンソース公開してくださっているNDLラボの皆様に感謝申し上げます。
開発: 橋本雄太(国立歴史民俗博物館、国立国会図書館 非常勤調査員) / GitHub ↗
About Minna de Honkoku OCR
Overview
Minna de Honkoku OCR is an AI-OCR system for historical documents written in kuzushiji (cursive Japanese). It is trained on the citizen-driven transcription platform Minna de Honkoku: 57 million characters of transcribed text (honkoku-data) and 1.2 million line-level images cropped from its corpus.
Several excellent kuzushiji OCR systems exist (miwo, Kobunsho Camera, NDL Kotenseki OCR, etc.). What sets this system apart is that it recognizes annotation information such as furigana and kanbun reading marks (kunten). Minna de Honkoku uses a lightweight markup language Koji for these annotations, and this OCR outputs them in the same format.
How to use
- Register images via the “Add images” button (multiple images supported).
- Run “Layout” to detect line positions and reading order. You can adjust them manually.
- Click “OCR” and wait for processing to finish. Results appear in the transcription panel on the right.
Notes
Recognition accuracy may drop significantly on low-resolution images. Please use high-resolution images whenever possible.
Contact
Minna de Honkoku support: support[at]honkoku.org
Disclaimer
OCR results produced by this app are AI estimates and may contain errors. Always perform human proofreading when the output will be used for research, publication, or other critical purposes. The developer and affiliated institutions assume no responsibility for any damage arising from use of this app.
This app runs entirely in your browser using ONNX Web Runtime. Your images and OCR results are never transmitted externally.
Acknowledgments
- This system relies entirely on transcription data contributed by volunteers on Minna de Honkoku. We sincerely thank every participant who continues to make this corpus possible.
- We are also deeply grateful to NDL Lab for openly releasing AI-OCR tools such as NDL Kotenseki OCR-Lite, which made important parts of this work possible.
Developed by Yuta Hashimoto (National Museum of Japanese History / NDL) / GitHub ↗