改善してほしいポイント
古い歴史論文や、スキャンされた文献のPDFを読み込ませる際、かすれた文字や旧漢字、あるいは日本特有の縦書きレイアウトの文書は、テキストの抽出精度(OCR部分)が少し落ちてしまうことが多々あります。現状は横書きの近代的な論文をメインに処理していますが、今後の期待として、アジア圏の古い文献や縦書きドキュメントに対する認識アルゴリズムが標準で強化していただけると幸いです。
どのような課題解決に貢献しましたか?どのようなメリットが得られましたか?
1本の深い歴史系コンテンツ(記事や解説動画)を作るために、平均5〜10本の長大な論文を読み解く必要があり、内容の確認とファクトチェックだけで丸1週間を費やしていました。docparserを導入し、論文の重要データ(西暦、登場人物、事件名、統計)を爆速で自動抽出して構造化し、生成AIの要約と突き合わせるダブル検証フローを構築しています。結果、文献確認の時間が従来の約70%削減され、制作リードタイムが10日から3日へと大幅に短縮。AI単体運用で懸念されていた誤植や事実誤認のトラブルも0に抑え込めています。