金融でRAGを成功させるデータ整備チェックリスト

はじめに：AI導入の成否は「データの質」で9割決まる

金融業界において、生成AIの活用はもはや実験段階を超え、実務への適用競争へと突入しています。特に注目されているのが、社内の膨大なマニュアルや規定集、市場レポートをAIに読み込ませて回答させる「RAG（検索拡張生成）」という技術です。

「この顧客の属性で、適用可能な住宅ローンの金利プランは？」

「最新のコンプライアンス規定に基づくと、この取引は承認できるか？」

こうした問いにAIが即座に、かつ正確に答えてくれる未来。業務時間は劇的に短縮され、人間はより付加価値の高い判断業務に集中できるようになります。

しかし、多くの金融機関がPoC（概念実証）で壁にぶつかっています。その最大の原因は、AIモデルの性能ではありません。「読み込ませるデータの整備不足」です。

金融データは特殊です。複雑な表組みを含むPDF、スキャンされた古い紙文書、独特な専門用語。これらをそのままAIに投げ込んでも、AIは混乱し、間違った回答（ハルシネーション）を出力してしまいます。金融実務において、0.1%の数字の誤りも許されません。

この記事では、金融業界特有の事情を深く理解した上で、RAGを成功に導くための「データ整備」の極意を、具体的なチェックリスト形式で解説します。これを読めば、あなたのチームが次に打つべき手が明確になるはずです。

1. RAGと金融データの「相性の悪さ」を知る

具体的なチェックリストに入る前に、なぜ金融データでRAGを行うのがこれほど難しいのか、その背景を非エンジニアの方にもわかるように噛み砕いておきましょう。

RAG（検索拡張生成）とは何か？

RAG（Retrieval-Augmented Generation）とは、AIに「カンニングペーパー」を持たせる技術のことです。

通常のChatGPTなどは、過去に学習したインターネット上の知識だけで答えようとします。これを「暗記でテストを受ける」状態だと想像してください。一方、RAGは「社内ドキュメントという教科書を見ながらテストを受ける」状態です。これにより、社内固有のルールや最新の市場情報に基づいた回答が可能になります。

金融機関が直面する「3つの壁」

しかし、教科書（データ）が汚れていたり、ページがバラバラだったりしたらどうでしょうか？AIは正しい答えを見つけられません。金融機関には以下の3つの壁があります。

非構造化データの山多くの重要情報はExcelやデータベースではなく、「PDF」や「PowerPoint」の中に閉じ込められています。特に「2段組みのレイアウト」や「複雑な結合セルを持つ表」は、AIが読み順を間違えやすい代表格です。
厳密性が求められる文脈「Aの場合はBだが、Cの特約がある場合はDになる」といった、条件分岐が非常に多いのが金融商品の特徴です。文脈が途切れると、意味が逆転してしまうリスクがあります。
セキュリティと権限管理役職によって閲覧できる情報が異なります。AIが平社員に役員報酬の規定を答えてしまっては、大問題になります。

これらをクリアするために必要なのが、徹底的な「データ前処理（データプレパレーション）」です。

2. 実践！金融データ整備チェックリスト

ここからは、実務で使える具体的なチェックリストを紹介します。このリストをエンジニアチームやベンダーと共有し、「この処理は済んでいますか？」と確認するだけで、プロジェクトの成功率は格段に上がります。

フェーズ1：ファイル収集と選定（Garbage In, Garbage Outの回避）

AIに入れるデータは「多ければ良い」わけではありません。質の低いデータはAIを混乱させるノイズになります。

[ ] 最新版管理はできているか？金融規定は頻繁に改定されます。「2022年版」と「2024年版」が混在していると、AIは古い情報を参照する可能性があります。ファイル名だけでなく、更新日時や管理台帳と突合し、最新の正本のみを対象フォルダに集約してください。
[ ] 重複ファイルを除外したか？「コピー～〇〇規定.pdf」のようなファイルは削除します。同じ情報が複数あると、検索精度が分散してしまいます。
[ ] スキャンデータ（画像PDF）のOCR精度は検証したか？紙をスキャンしたPDFの場合、OCR（光学文字認識）でテキスト化する必要があります。金融用語特有の漢字や、数字の「3」と「8」、「1」と「7」の誤認識は致命的です。必ず人間が目視チェックを行うか、高精度なOCRエンジンを選定する必要があります。

フェーズ2：テキスト抽出とクリーニング（AIが読める言葉にする）

PDFからただテキストを抽出しただけでは、意味不明な文字列の羅列になりがちです。人間が読むときと同じように「整形」する必要があります。

[ ] ヘッダー・フッターの削除全ページに記載されている「株式会社〇〇 2024年度レポート」やページ番号。これらがテキストの途中に挟まると、AIは「文脈が切れた」と勘違いします。これらをノイズとして削除する処理が必要です。
[ ] 「表組み」の構造化処理これが最大の難関です。例えば、有価証券報告書の財務諸表。単に左から右にテキスト化すると、項目名と数字の対応関係が崩れます。（悪い例）：売上高営業利益 100億円 20億円（良い処理）：Markdown形式やHTML形式などで、表の構造（行と列の関係）を維持したままテキスト化します。
[ ] 不要な改行の削除PDFのレイアウト上の都合で入っている「文中の改行」を削除し、一つの文章として繋げる処理を行います。日本語の場合、単語の途中で改行が入ると検索にヒットしなくなる恐れがあります。
[ ] 専門用語の辞書登録（シソーラス）社内用語や略語の定義です。「AML（マネー・ローンダリング対策）」や「KYC（本人確認）」など、略語が何を指すのか、AIが理解しやすいように補足情報を付与するか、フルスペルに置換する処理を検討します。

フェーズ3：チャンキング（最適なサイズに切り分ける）

AIは本を一冊丸ごと一度に読むことはできません。「チャンク」と呼ばれる小さな単位（数百文字〜数千文字）に分割して処理します。この「切り方」にセンスが問われます。

[ ] 意味のまとまりで切っているか？（セマンティック・チャンキング）単に「500文字で切る」という機械的な分割は危険です。重要な規定の条件部分で切れてしまう恐れがあります。「章」や「節」、「見出し」の単位で分割するように設定します。
[ ] オーバーラップ（重複部分）の設定分割する際、前のチャンクの後ろ部分と、次のチャンクの頭部分を少し重複させます。これにより、文脈の分断を防ぎます。金融文書では、10〜20%程度のオーバーラップを持たせることが一般的です。
[ ] コンテキスト情報の埋め込み分割されたチャンク単体だと、主語がわからなくなることがあります。（例）「当行はこれを原則禁止とする。」これだけでは「何」が禁止なのかわかりません。各チャンクに「ドキュメントのタイトル」や「親見出し」のテキストを自動で付与する処理を行います。

フェーズ4：メタデータ付与（検索精度を高めるタグ付け）

AIが答えを探す際、ヒントとなる「タグ」をつける工程です。金融RAGではここが勝負を分けます。

[ ] 属性タグの付与（日付・部署・商品カテゴリ）「2024年4月1日制定」「法務部管轄」「住宅ローン関連」といったタグをデータに付与します。ユーザーが「最新の住宅ローンの金利は？」と聞いた時、AIは「住宅ローン」タグかつ「日付が新しい」データを優先して検索できるようになります。
[ ] アクセス権限レベルの付与「役員限定」「管理職以上」「全社員」といった権限情報をメタデータとして埋め込みます。検索システム側で、ユーザーのIDに応じて検索対象をフィルタリングするために必須です。

3. 金融ならではの注意点：数字と日付の罠

一般的なビジネス文書と異なり、金融データには特有の落とし穴があります。

和暦と西暦の混在

契約書や古い規定では「平成」や「令和」、あるいは「R5年」といった表記が混在します。AIによってはこれらを時系列順に正しく認識できない場合があります。

データ整備の段階で、すべて「西暦（YYYY-MM-DD）」形式に統一するか、メタデータとして西暦情報を付与することを強く推奨します。

金額単位の曖昧さ

表の中に「（単位：百万円）」と小さく書かれているケースです。テキスト抽出時にこの単位情報が欠落すると、AIは「売上高は100円です」と誤回答してしまいます。表のデータを抽出する際は、必ず表外にある「単位情報」もセットで認識させるロジックが必要です。

4. 運用を見据えたデータ整備体制

データ整備は「一度やって終わり」ではありません。新しい通達が出るたびに、データは更新されます。

自動化パイプラインの構築

毎回手作業でクリーニングするのは不可能です。

「指定のフォルダにPDFを入れる」→「自動でテキスト抽出・クリーニング」→「AI用データベース（ベクトルDB）へ登録」

という一連の流れ（パイプライン）をシステム化しましょう。

人間による定期的な品質チェック（Human in the Loop）

AIの回答精度が落ちてきたと感じたら、多くの場合、原因は「新たに追加されたデータの質」にあります。月に一度は、抽出されたテキストデータを目視で確認し、変な改行が入っていないか、文字化けしていないかをチェックする運用フローを確立してください。

まとめ：急がば回れ、データ整備こそが最短ルート

「高性能なAIモデルを使えば、魔法のように何とかしてくれるだろう」

この期待は、金融実務においては危険です。金融の高い信頼性を支えているのは、これまで皆様が蓄積してきた正確なドキュメントです。そのドキュメントをAIが正しく理解できる形に翻訳してあげること、つまり「データ整備」こそが、RAGプロジェクト成功への最短ルートです。

地味で泥臭い作業に見えるかもしれません。しかし、ここを丁寧に作り込んだ金融機関だけが、AIによる真の業務変革、圧倒的な生産性向上という果実を手にすることができます。

まずは、社内で最も頻繁に使われる「マニュアル一冊」からで構いません。今回ご紹介したチェックリストを使って、データを磨き上げてみてください。AIの回答精度が見違えるように向上する瞬間を、ぜひ体験していただきたいと思います。

ヘルスケアの生成AI活用事例50連発：現場で成果が出た使い方

保険の生成AI活用事例50連発：現場で成果が出た使い方