歴史コンテンツの制作において、元データとなる数万文字の歴史論文や古文献のPDFから正確な事実を抽出することは非常に工数が発生してしまいます。昨今の生成AI系ツールは便利ですが、歴史の専門用語において微妙な誤植やハルシネーション（嘘の生成）が混ざることが課題でした。docparserは、設定したルール通りにテキストや表データを、そのまま正確に抽出（パース）してくれるため、他のAIツールの出力と突き合わせて差分を確認するトリプルチェックの基盤として利用しております。歴史WEBメディアの運営社として、信頼性を担保する上で、非常に頼りになるツールです。

改善してほしいポイント

古い歴史論文や、スキャンされた文献のPDFを読み込ませる際、かすれた文字や旧漢字、あるいは日本特有の縦書きレイアウトの文書は、テキストの抽出精度（OCR部分）が少し落ちてしまうことが多々あります。現状は横書きの近代的な論文をメインに処理していますが、今後の期待として、アジア圏の古い文献や縦書きドキュメントに対する認識アルゴリズムが標準で強化していただけると幸いです。

どのような課題解決に貢献しましたか？どのようなメリットが得られましたか？

1本の深い歴史系コンテンツ（記事や解説動画）を作るために、平均5〜10本の長大な論文を読み解く必要があり、内容の確認とファクトチェックだけで丸1週間を費やしていました。docparserを導入し、論文の重要データ（西暦、登場人物、事件名、統計）を爆速で自動抽出して構造化し、生成AIの要約と突き合わせるダブル検証フローを構築しています。結果、文献確認の時間が従来の約70%削減され、制作リードタイムが10日から3日へと大幅に短縮。AI単体運用で懸念されていた誤植や事実誤認のトラブルも0に抑え込めています。

閉じる

0コメント
レビューをシェア
0 参考になった

中本達也

エクセルブートキャンプ｜情報通信・インターネット｜経営・経営企画職｜20人未満｜ユーザー（利用者）

企業所属確認済利用画像確認

投稿日： 2019年05月28日

PDFファイルから自動でデータを取得

その他コンテンツ管理で利用

この製品・サービスの良いポイントは何でしょうか？

毎回送られてくる固定フォーマットのPDFファイルの特定の部分を自動でデータだけ抽出してくれる点。選択範囲を指定すれば後は新しいファイルを読み込んでも自動で取得してくれます。読み取りの精度も申し分ないので、安心して読み込ませることができる。ただしく読み込んでいるか一つ一つチェックすることもできるので、心配な場合はデータを調査することができます。

続きを開く