npm i -g
→ 登場人物一覧が全ての小説に欲しい!
OCR済み書籍が沢山ある
→ 低コストで大量の書籍を処理可能
安価なモデルはコンテキストが小さい → 分割して処理
分割処理の3ステップ:
文章の途中で切れないように、少し頁をオーバラップさせる
160 頁の書籍を、5 頁オーバーラップで 4 チャンクに分割
処理の流れ:
各チャンクで以下を抽出:
→ 文脈を維持し、人物情報を蓄積するための情報を構造化
使用モデル: GPT-4o mini
コスト
実際の処理例
→ 平均 約10円/1000ページ
原文(京極夏彦「魍魎の匣」) 「オカルトとは本来<隠された>と云う意味だと云われる。《中略》当初は、オカルトサイエンスと呼ばれた」
読み取り結果 「大阪府大阪市西淀川区西条1丁目10番2号-100万円以上のお店で、お店はmorenのアクリエンスと呼ばれた。」
→ この読取結果を見て、原文が予測できるヤツは人間ではない (バージョンアップしたので試したら、正しく読み取れた)