新聞

NIKKEI OCR

紙情報をデジタルで生かすOCR

世の中には、デジタル化されていない印刷物などアナログデータが数多く存在しています。
学会誌、論文、広報誌、議事録、契約書など、企業・団体が保有している多くの紙資料を生かすためには、デジタルデータ化が欠かせないのではないでしょうか。
「書庫」から「フォルダ」へ。埋没している紙の貴重な「資産」を活用可能な「データ」とするため、日経では独自の技術を用いたOCRを開発しています。

紙の「資産」をOCRで検索可能に

私たちの手元には、膨大な文字情報があふれてインターネットクラウド環境の整備により、デジタルデータは、情報端末で簡単に検索・処理を行うことができます。しかし、デジタル環境が整備される前の印刷物を中心としたアナログデータは、複合機などで、画像ファイルとしてデジタル保管はできるものの、画像ファイル内にある文字はテキストデータとして解析することができず、画像データ自体も内容を表すキーワードを付加しないと検索することも難しい状況です。
OCRを利用することで、これまで紙でしか保管されていなかった「資産」が、デジタル化され、いつでもどこでも簡単に情報端末で検索可能なデータへ生まれ変わり、貴社の持つ資産をより生かすことができます。

AIを使用し、レイアウトを自動解析へ

日経では様々な文字資料をスムーズにテキストデータ化するため、0CR解析が難しい新聞紙面のような「段組み原稿」「縦書き、横書きが混在する原稿」を解析する人工知能(AI)を使用したエンジンを構築。複雑なレイアウトの解析力を強化した独自システムの開発を進めています。
OCRシステムに搭載した「レイアウト解析エンジン」で、原稿のレイアウトを自動解析。その後、抽出したレイアウトごとに、文字をデータ化する仕組みを開発した。これにより、解析が難しい段組み原稿や縦書き、横書きが混在する原稿も容易に解析できる道筋ができました。
OCRは、紙資料のデジタルアーカイブ化だけでなく、資料作成業務、印刷物などのチェック業務など様々なオフィス業務の効率化に役立てることが可能です。社会的、文化的価高い「埋もれた知」を生かし、また、業務の効率化を進めるためOCRの開発を続けていきます。

※本システム開発は日本経済新聞社が行い、運営は日経・インテッククラウドサービス有限責任事業組合(NICS)が担当します。

本システムの特徴について

・縦書きや横書きの混在、また段組みをしているレイアウトに対する解析能力を強化
・複数の解析エンジンを選択が可能
・解析結果のファイル出力が可能

※本システムは活字を解析対象としています。

UI イメージ

UIイメージ

このサイトではCookieなどを使用してアクセスデータを取得・利用しています。
データ収集の設定詳細は「」のリンクからご確認ください。

同意して閉じる