ホーム > ドキュメントソリューション > WEB版ドキュメント情報管理システムFullWEB > OCRソリューション

WEB版ドキュメント情報管理システムFullWEB

オプション:OCRソリューション

スマートに紙から情報を抽出して活用支援する - Smart Paper Information Extraction System -

製品概要

当OCRソリューションは、手書きの注文書や請求書などの紙帳票からスマートに文字を自動認識し、その情報をルールベースのAIで補正しながら、FullWEBなどの他のシステムと連携するソリューションです。

紙帳票からデータ抽出 → FullWEB連携までの流れを体験できます

OCRソリューション体験セミナーのご案内

全体の流れ

  1. 紙書類スキャン
    複合機・スキャナ・タブレット端末などで、さまざまな紙書類をスキャンし、PDFや画像ファイルにします。
  2. OCR処理
    PDFや画像ファイルをOCR処理し、テキスト情報を生成します。
  3. 自動情報抽出
    テキスト情報を解析・補正しながら必要な情報を自動抽出します。
  4. 外部システム連携
    FullWEBなどの外部システムと連携し、情報活用を支援します。

図:紙書類スキャンから外部システム連携までのフロー。その中で「OCRソリューション」は、PDFや画像をOCR処理→情報抽出/ルールベースのAIによる補正→CSVファイル生成や文書管理DBへの登録、までのフローを提供いたします。

(注)サーチャブルPDF:PDFイメージに検索用テキストを目に見えない状態で埋め込んだもの

このページのトップへ

特長機能概要

ポイント1 情報抽出設定が簡単

  • 必要な情報(=抽出ワード)の目印となる検索ワードを指定するだけで、近くの関連情報を自動で抽出します。(非定型帳票対応)

    例)「金額:\237,956」と印刷されている場合、検索ワードとして「金額」と指定するだけで、関連情報「\237,956」を自動抽出します。

  • 正規表現(注)での抽出ワード指定や表形式の帳票も簡単に設定できます。
  • 設定ツールのシミュレータで自動抽出結果を本作業前に事前確認し、意図しない抽出結果になった場合でも、手動で簡単に微調整できます。

(注)正規表現:いくつかの文字列を一つの形式で表現するための表現方法。

例)3桁の数字を抽出したい時、正規表現で「\d{3}」とだけ指定することで、「000」「123」「581」…など、全パターンの3桁の数字を抽出できます。

ポイント2 正確な情報に補正抽出

  • OCR処理で生成されたテキスト情報に対し、ルールベースのAI(注)を使ってテキスト解析し、OCR誤変換などの補正をします。確認ツールで手動補正もできます。
  • 自社帳票にあわせて補正ルールを定義し、自動抽出処理を進化させることができます。

    例)検索ワードを探す際、「金額計」「合計金額」などもすべて「合計」として認識するよう、補正ルールを定義できます。

  • 自社のマスター情報を利用した補正抽出もできます。

    例)顧客マスターに「顧客コード」と「顧客名」の情報がある場合、「123」などの顧客コードを抽出し、「ABC商事」などの顧客名に変換できます。

(注)ルールベースのAI:AIには「ルールベース」と「機械学習」という2つのアプローチがありますが、OCRソリューションは「機械学習」ではなく「ルールベース」を採用しています。

ポイント3 運用が簡単

  • FullWEB連携オプションで属性情報と文書イメージをFullWEBに自動登録します。
  • 処理したいPDFや画像ファイルを特定フォルダに保存するだけで自動処理します。
  • 自動帳票認識により、様々な書類を同時に処理できます。
  • 標準でCSV出力可能です。RPA等と連携できます。
  • OCR処理に使うツールを選択できます。本システム標準OCRを使う以外に、他のツールで事前にOCR処理したPDFデータをOCRソリューションで処理することもできます。

    例)標準OCRでは対応してない、英数以外の手書きに対応したOCRツールを使う、等

このページのトップへ

特長機能:FullWEB連携

OCRソリューションのオプション「FullWEB連携オプション」は、FullWEBとの連携に必須のオプションです。

画面:設定パラメーター表示画面。

このページのトップへ

特長機能:情報抽出設定が簡単

検索ワードを指定するだけで抽出ワードを探索

必要な情報(=抽出ワード)の目印となる検索ワードを指定するだけで、近くの抽出ワードを自動で抽出します
(非定型帳票対応)

帳票:発注書を例にした、検索ワードと抽出ワードの例。帳票自動判定の設定で、検索ワードとして「発注書」を指定した場合、実際の帳票上で「発 注 書」と文字間が離れていても検索可能です。「発注No.」のラベルの下に記載された値「20180600123」を抽出できます。「ABC商事 御中」との記載があれば、検索ワードを「御中」と指定して左の会社名「ABC商事」を抽出できます。「件名:X社製パソコン」との記載があれば、検索ワードを「件名」と指定して右の値「X社製パソコン」を抽出できます。年月日「2018年6月22日」、会社名「XYZ株式会社」、郵便番号「〒581-8585」、住所「大阪府八尾市北亀井町」、電話番号「TEL: 06-1234-5678」など、近くに目印となる検索ワードがない場合でも、特定形式指定だけで抽出できます。検索ワード「合計」を指定した場合、類義語認識して「合計金額」の記載も検索し抽出対象にします。

表形式の帳票も簡単に設定

表明細の最大行数を「繰り返し数」として指定すると、表によって明細数が変わっても、印刷されている明細のみ抽出します。

◆検索ワードを指定し、抽出範囲と繰り返し数を指定

帳票:表形式帳票の設定例。見出し行に記載される項目名(「金額」など)を検索ワードとして指定し、明細行の抽出範囲と繰り返し数を指定します。情報抽出時、「金額」を検索し、その下の「¥123,450」「¥9,870」…を連続抽出します。

◆構成する項目を指定し、繰り返し数とピッチを指定

帳票:1レコードが複数行で構成される表の設定例。項目と、対応する値の行間(ピッチ)を指定する事で正しい位置の値を抽出します。

抽出ワードを自動抽出 → シミュレータで確認 → (必要な場合)手動調整

設定ツールで検索ワードを指定するだけで自動抽出します。シミュレータで自動抽出結果を本作業前に事前確認し、意図しない抽出結果になった場合でも、手動で簡単に微調整できます。

◆抽出ワード自動抽出

抽出ワードの目印となる検索ワードを指定します。パラメータ(検索ページ、マッチ率、データ型等)を設定することで微調整も可能です。
また表などの複数行抽出や、抽出ワードに対応した目印となる検索ワードが無い場合にはエリア指定や特定形式指定で対応します。書類別抽出テンプレートにより、書類の種類ごとに異なるパターン指定も可能です。
画面:設定ツール詳細。この画面には設定項目が沢山ありますが、最低限設定が必要なのは抽出ワードの目印となる「検索ワード」だけです。検索ワード例:「御中」「受付No」「住所」「受付日」「品名」など。この指定だけで抽出ワードを自動抽出します。特殊な帳票で自動抽出が想定通りいかない場合でも、他の設定項目の微調整で正しく抽出させることができます。

◆シミュレータで設定結果を画面確認

画面:設定ツール詳細のシミュレータ。画面が左右に分かれ、左に帳票画像、右にOCR抽出処理実行結果が表示されます。帳票画像では抽出ワードの位置が赤枠で表示されます。右の結果表示には検索ワードと抽出ワードが対で表示されます。検索ワードが表見出し行の項目名の場合、それに対応して抽出ワードが複数行分表示されます。

このページのトップへ

特長機能:正確な情報に補正抽出

OCR結果をルールベースのAIで補正

PDFや画像をOCR処理しただけでは誤変換は避けられません。OCR処理で生成されたテキスト情報に対し、ルールベースのAIを使ってテキスト解析し、OCR誤変換などの補正をします。

◆OCR誤変換の補正機能
  • 検索ワードのルール補正
    検索ワード(OCR誤変換有):合言十ルール追加→「合計」として検索
  • 抽出ワードのルール補正
    抽出ワード:\15,000ルール追加→数値のみに補正:15000
    抽出ワード(OCR誤変換有):2014707726ルール追加→フォーマット補正:2014/07/26
    抽出ワード(OCR誤変換有):10o6ルール追加→数値に補正:1006
◆非定型帳票毎の補正機能
  • 検索ワードの類似ルール補正
    検索ワード:合計追加ワード:金額計ルール追加→「合計」として検索
◆特定形式の抽出機能
  • 年月日、住所、電話番号、会社名、郵便番号ほか(正規表現)(注)
    • %年月日%ルール追加→2018年7月10日
    • %住所%ルール追加→大阪府八尾市亀井町
    • %電話番号%ルール追加→06-1234-5678
    • %会社名%ルール追加→QWE株式会社

    (注)上記例の「%~%」は本ソリューション独自の記法で、内部的には通常の正規表現に変換して処理しています。例えば「%年月日%」は「\d{4}年\d{1,2}月\d{1,2}日」と同じ意味です。「%~%」表記ではなく通常の正規表現も使用できます。

OCR誤変換補正のカスタマイズ

自社帳票にあわせて自動抽出処理を進化させることができます。

◆ルール:分類、類似、定型、特定形式
  • 分類ルール:数字、英語、記号、固定フォーム、金額、年月日
  • 類似ルール:御中(様、殿)、合計(金額計、合計金額)
  • 定型ルール:検索ワードの各パラメータ初期値
  • 特定ルール:年月日、電話番号、郵便番号、住所、会社名ほか(正規表現)
◆その他補正抽出機能
  • 固定出力ワード:帳票毎に決まったワードをCSV出力することができます

    例)XX会社の発注書を処理した場合、CSV出力に固定出力ワード「XX会社」を必ず含める、といったことができます。

  • マスター変換 :抽出したワードからマスター参照させて関連ワードをCSV出力することができます

    例)顧客マスターに「顧客コード」と「顧客名」の情報がある場合、「123」などの顧客コードを抽出し、「ABC商事」などの顧客名に変換できます。

画面:固定出力ワード、マスター変換設定。固定出力ワードは複数指定できます(出力1、出力2、出力3…)。例えば出力1に「XX会社」と指定すれば、この帳票のCSV出力に必ずワード「XX会社」を含めることができます。またマスター変換も複数指定できます(抽出1、抽出2、抽出3…)。例えば抽出1にCSVファイルパス「顧客マスター」を指定すれば、帳票をOCR処理するごとに、「抽出1」で抽出されたワードをCSVファイル「顧客マスター」に追記していくことができます。

このページのトップへ

特長機能:運用が簡単

自動処理フォルダ

特定フォルダにデータを保存するだけで自動処理します。

図:紙書類からスキャン→PDF・画像ファイル→OCR処理→抽出結果確認/修正までのフロー。その中のイメージデータからOCR処理の流れは、特定フォルダにPDF・画像ファイルを置くだけで自動処理されます。

◆連携ツール: 自動処理フォルダを監視して、一連の処理を実行/モニタリングできます

画面:連携ツール。画面下部に処理状況が1行1処理単位で表示されます。1行は処理日時、処理内容が表示されます。画面上部に抽出済件数、エラー件数が表示され、抽出済件数をクリックすると確認ツールが起動します。

◆確認ツール: 帳票イメージを見ながら抽出結果を確認/修正できます

画面:確認ツール。画面が左右に分かれ、左にOCR処理した帳票画像、右にOCR抽出処理実行結果が表示されます。帳票画像では抽出ワードの位置が赤枠で表示されます。右の結果表示には検索ワードと抽出ワードが対で表示されます。誤抽出がある場合、この画面で修正できます。

帳票種別の自動認識

自動帳票認識により、様々な書類を同時に処理できます。

帳票:様々な種類の帳票を自動認識して、指定された帳票ごとの検索ワードで検索を行います。(例では出張作業報告書では御中・発行日・品名を検索、請求書では発行日・No・会社で検索など)

抽出結果はCSVファイルに出力

  • CSVファイル名を抽出データから生成することもできます。

    例)発注書の場合、抽出データの発注No.「2018060012」と顧客名「ABC商事」から「発注書2018060012_ABC商事.csv」などの名前のCSVファイルを出力できます。

イメージ:CSVファイル

↓

業務システムやRPAツールなど、他のシステムと連携できます(注)。
例)WinActor®(WinActor®はNTTアドバンステクノロジ株式会社の登録商標です。)

ロゴ:WinActor®

(注)OCRソリューションのオプション「連携APIオプション」が必要です。

本システム標準OCRツール

  • OCR未処理のPDFイメージデータや画像データが入力された場合、本システム標準OCRツールでサーチャブルPDFデータを生成します(自動判定)。
  • 標準OCRツール: ABBYY FineReader Engine(ABBYY社製)
    • スキャンした紙文書、PDF、画像ファイルなどから文字やバーコードを読み取り、文字検索可能なPDFファイル(サーチャブルPDFデータ)を生成
    • 日本語/英語 含む132言語のOCRに対応、英数手書きOCR(オプション)に対応
    • 年間数千社がABBYYの技術を使用して、93億ページ(注)以上の文書と帳票を処理している

    ロゴ:ABBYY®

    (注)ABBYY社の社内データに基づく値

OCR処理ツールを選択可能

本システム標準OCRツールを使う以外に、他のツールで事前にOCR処理したPDFデータをOCRソリューションで処理することもできます。

◆他のツールでOCR処理したPDFデータの例
  • 複合機等でスキャンすると同時に内蔵OCR機能で生成したサーチャブルPDFデータ
  • スキャンした後に他のOCRツールで生成したサーチャブルPDFデータ

    例)標準OCRでは対応してない、英数以外の手書きに対応したOCRツールを使う、等

写真:複合機

  • CADツール等で生成したPDFデータ(テキストオブジェクト)

図:CAD図

このページのトップへ

構成図

図:構成図。「基本パッケージ」と「標準OCRツール:ABBYY FineReader RT」は必須で、1台のPCにインストールします。「連携APIオプション」は基本パッケージと同じPCにインストールします。「FullWEB連携オプション」はFullWEBとの連携に必須で、FullWEBと同じPCにインストールします。入力デバイスとなる複合機、スキャナ等は既にお使いの物をご利用になるか、別途ご用意頂きます。また出力先となる基幹システム、RPA他も同様です。

このページのトップへ

ダウンロード

FullWEBオプション「OCRソリューション」のパンフレットをダウンロードできます。

FullWEBオプション「OCRソリューション」 PDF 1.55MB新しいウィンドウを開きます 2019年1月

このページのトップへ

  • FineReader Engineは、ABBYY社の製品です。
  • WinActor®は、NTTアドバンステクノロジ株式会社の登録商標です。
  • その他記載されている会社名、製品名は各社の商標または登録商標です。