OCRとは

 OCR(Optical Character Recognition)とは光学式文字認識技術のことで、紙の書類をスキャンしたドキュメントなどからテキストなどのデータを抽出する技術のことをいう。

 OCR技術を搭載したOCRソフトは、さまざまな種類のドキュメントからデータを抽出できるように設計されており、文章を主体としたドキュメントの電子化だけでなく、請求書や領収書といった紙帳票から会計処理に必要な数値データを取り出して関連システムに読み込ませるといった使い方もされている。これにより、手動でのテキスト判別や数値入力に費やす時間を大幅に削減しつつ、紙ベースのドキュメントの検索や分類/整理、各種処理を行えるようになる。

 最近では高度な画像認識や自然言語処理に加えて、機械学習などの技術も活用するAI OCRといわれる製品も増えてきており、読み取りエラーに関しては継続的に改善を図ることで最小限に抑えられるようになっている。

OCRの定義
・さまざまな種類のドキュメントのスキャンデータや撮影データを処理する
・ドキュメント内の関連データを特定して抽出する
・組織内の適切なシステムにデータをルーティングする
・キャプチャされたドキュメントファイルの分類と並べ替えをサポートする


OCRの機能


基本機能

機能 解説
テキスト編集 ドキュメントからテキストを抽出して編集可能にする
多言語サポート さまざまな言語のドキュメントや画像からテキストを抽出して読み取ることができる
メタデータ抽出 ドキュメントや画像からメタデータ(ドキュメント自体に関する情報)を抽出して、スキャンされたライブラリ全体の検索に役立てられる
画像補正 スキャンした画像の歪みなどを補正しデータ抽出の精度を向上させられる
PDF変換 スキャンされたドキュメントをPDFに変換できる
バッチ処理 大量のバッチドキュメントを処理できる


OCRの基礎知識

 OCR(Optical Character Recognition)とは光学式文字認識技術のことで、紙の書類をスキャンしたドキュメントなどからテキストなどのデータを抽出する技術のことをいう。

 OCR技術を搭載したOCRソフトは、さまざまな種類のドキュメントからデータを抽出できるように設計されており、文章を主体としたドキュメントの電子化だけでなく、請求書や領収書といった紙帳票から会計処理に必要な数値データを取り出して関連システムに読み込ませるといった使い方もされている。これにより、手動でのテキスト判別や数値入力に費やす時間を大幅に削減しつつ、紙ベースのドキュメントの検索や分類/整理、各種処理を行えるようになる。

 最近では高度な画像認識や自然言語処理に加えて、機械学習などの技術も活用するAI OCRといわれる製品も増えてきており、読み取りエラーに関しては継続的に改善を図ることで最小限に抑えられるようになっている。

OCRの定義
・さまざまな種類のドキュメントのスキャンデータや撮影データを処理する
・ドキュメント内の関連データを特定して抽出する
・組織内の適切なシステムにデータをルーティングする
・キャプチャされたドキュメントファイルの分類と並べ替えをサポートする


OCRの機能


基本機能

機能 解説
テキスト編集 ドキュメントからテキストを抽出して編集可能にする
多言語サポート さまざまな言語のドキュメントや画像からテキストを抽出して読み取ることができる
メタデータ抽出 ドキュメントや画像からメタデータ(ドキュメント自体に関する情報)を抽出して、スキャンされたライブラリ全体の検索に役立てられる
画像補正 スキャンした画像の歪みなどを補正しデータ抽出の精度を向上させられる
PDF変換 スキャンされたドキュメントをPDFに変換できる
バッチ処理 大量のバッチドキュメントを処理できる