非公開ユーザー
情報通信・インターネット|デザイン・クリエイティブ職|20人未満|導入決定者|契約タイプ 無償利用
膨大な歴史文献を構造化をした後、歴史系コンテンツ制作時に利用
その他 コンテンツ管理で利用
良いポイント
歴史コンテンツの制作において、元データとなる数万文字の歴史論文や古文献のPDFから正確な事実を抽出することは非常に工数が発生してしまいます。昨今の生成AI系ツールは便利ですが、歴史の専門用語において微妙な誤植やハルシネーション(嘘の生成)が混ざることが課題でした。docparserは、設定したルール通りにテキストや表データを、そのまま正確に抽出(パース)してくれるため、他のAIツールの出力と突き合わせて差分を確認するトリプルチェックの基盤として利用しております。歴史WEBメディアの運営社として、信頼性を担保する上で、非常に頼りになるツールです。
改善してほしいポイント
古い歴史論文や、スキャンされた文献のPDFを読み込ませる際、かすれた文字や旧漢字、あるいは日本特有の縦書きレイアウトの文書は、テキストの抽出精度(OCR部分)が少し落ちてしまうことが多々あります。現状は横書きの近代的な論文をメインに処理していますが、今後の期待として、アジア圏の古い文献や縦書きドキュメントに対する認識アルゴリズムが標準で強化していただけると幸いです。
どのような課題解決に貢献しましたか?どのようなメリットが得られましたか?
1本の深い歴史系コンテンツ(記事や解説動画)を作るために、平均5〜10本の長大な論文を読み解く必要があり、内容の確認とファクトチェックだけで丸1週間を費やしていました。docparserを導入し、論文の重要データ(西暦、登場人物、事件名、統計)を爆速で自動抽出して構造化し、生成AIの要約と突き合わせるダブル検証フローを構築しています。結果、文献確認の時間が従来の約70%削減され、制作リードタイムが10日から3日へと大幅に短縮。AI単体運用で懸念されていた誤植や事実誤認のトラブルも0に抑え込めています。