Ai

ナレッジベースの作り方:RAG品質を上げるドキュメント整備

企業での生成AI活用が進む中、「RAG(ラグ)」という言葉を耳にする機会が増えてきました。社内のマニュアルや日報、技術資料などをAIに読み込ませ、自社独自の回答をさせるこの技術は、業務効率化の切り札として期待されています。

しかし、実際にRAGを導入した多くの担当者が、ある壁にぶつかります。

「思ったような回答が返ってこない」

「マニュアルにあるはずなのに、AIが『分かりません』と答える」

「まったく関係のない資料の内容を引用してしまう」

これらの原因の9割は、実は「AIの能力不足」ではなく、「読み込ませるドキュメント(ナレッジベース)の整備不足」にあります。どれほど優秀なAIモデルを使っても、参照する教科書が乱丁・落丁だらけでは、正しい答えを導き出すことはできません。

本記事では、エンジニアではないビジネスパーソンに向けて、RAGの精度を劇的に向上させるための「ナレッジベースの作り方」と「ドキュメント整備の極意」を徹底解説します。これを読めば、あなたの会社のAIは「気の利いた優秀なアシスタント」へと生まれ変わるはずです。


そもそもRAGとは?なぜドキュメント整備が必要なのか

具体的な手順に入る前に、なぜドキュメントの整備が重要なのか、その仕組みを少しだけ噛み砕いて理解しておきましょう。

RAG=「持ち込み可の試験」

生成AI(ChatGPTなど)をそのまま使うのは、いわば「暗記だけで試験を受ける」ようなものです。AIが学習済みの一般的な知識だけで回答します。一方、RAG(Retrieval-Augmented Generation:検索拡張生成)は、「教科書持ち込み可の試験」です。質問が来たら、まず手元の資料(社内データ)を検索し、その内容をもとに回答を作成します。

「ゴミ」を入れたら「ゴミ」が出てくる

IT業界には「Garbage In, Garbage Out(ゴミを入れればゴミが出てくる)」という格言があります。これはRAGにおいて最も重要な真理です。

人間なら、多少レイアウトが崩れたPDFや、主語が抜けた議事録を読んでも、文脈で意味を補完できます。しかし、AIは機械的に文字情報を処理します。例えば、複雑な表組みが崩れてテキストとして認識されたり、ヘッダーの「2024年版」という文字が本文の途中に混ざり込んだりすると、AIは混乱し、誤った回答(ハルシネーション)の原因となります。

つまり、RAGの品質を上げる最短ルートは、高価なシステムを導入することではなく、足元の「データの掃除」を行うことなのです。


AIが読みやすい「理想的なデータ」の3条件

では、AIにとって「読みやすいドキュメント」とはどのようなものでしょうか。人間にとっての見やすさ(装飾やレイアウト)とは、実は真逆であることが多いのです。

1. テキストデータであること

多くの企業では、情報はPDFや画像化されたPowerPointで管理されています。しかし、AIにとって最も理解しやすいのは「プレーンなテキストデータ」です。特に、スキャンしただけのPDF(画像データ)は、OCR(光学文字認識)を経由する必要があり、誤認識の温床となります。可能な限り、元のテキスト情報を保持した形式を用意する必要があります。

2. 構造化されていること

「ここが見出し」「ここからが本文」「これはリスト」といった文書の構造が明確であることです。人間は文字の大きさや色で判断しますが、AIにはそれが伝わりにくい場合があります。Markdown(マークダウン)という形式を使うのが世界的な標準です。

3. 文脈が完結していること

人間向けの資料では「前述の通り」や「詳細については別紙参照」といった表現が多用されます。しかし、RAGの仕組み上、文章は細切れ(チャンク)にされてAIに渡されるため、分割された断片だけで意味が通じる状態が理想です。


実践!RAG品質を上げるドキュメント整備の5ステップ

ここからは、実際に社内ドキュメントをAI用ナレッジベースに変換するための具体的な手順を解説します。

ステップ1:情報の選別(断捨離)

まず行うべきは、AIに読ませるデータの選定です。「とりあえず全部読ませよう」は失敗の元です。

  • 重複情報の削除古いマニュアルと新しいマニュアルが混在していませんか? 「2022年版」と「2024年版」が両方あると、AIはどちらを信じていいか迷い、古い情報を回答してしまうリスクがあります。最新版のみを残し、古いものは削除するか、アーカイブとして隔離してください。
  • ノイズの除去社内報の雑談コラムや、挨拶文だけのメールなど、業務回答に不要なデータは除外します。

ステップ2:不要な要素のクリーニング

PDFやWordファイルからテキストを抽出する際、AIのノイズになる要素を徹底的に削ぎ落とします。

  • ヘッダー・フッターの削除全ページに入っている「社外秘」「株式会社○○」「ページ番号」などの情報は、文章の途中に割り込んで文脈を分断してしまいます。これらを削除するだけで、回答精度は大きく向上します。
  • 装飾的な改行の削除人間が読みやすいように、文の途中で改行を入れることがよくあります。しかし、AIにとっては「ここで文が終わった」と誤認する原因になります。段落の変わり目以外は、改行を削除して一行に繋げる処理が有効です。

ステップ3:Markdown形式への変換

これが最も効果的なテクニックです。Markdown記法を使って文書の構造を明示します。プログラミングの知識は不要です。以下のルールを守るだけで十分です。

  • 見出しを付ける大見出しには「#」、中見出しには「##」を行頭につけます。これにより、AIは「このセクションは何について書かれているか」を強力に認識できます。
  • 箇条書きを使う手順やリストには「-」を行頭につけます。

例:

# 経費精算の方法

経費精算は以下の手順で行ってください。

– 1. 領収書の受領

– 2. システムへの入力

– 3. 上長承認の依頼

このように整形するだけで、AIは「経費精算の手順」という構造を完璧に理解します。

ステップ4:テーブル(表)のテキスト化

RAGが最も苦手とするのが「表」です。複雑に結合されたセルや、レイアウト目的で使われた表は、AIには意味不明な文字の羅列に見えてしまいます。

表データは、以下のように「文章」または「Markdownの表」に書き換えることを推奨します。

修正前(複雑な表):

| 製品名 | 価格 | 特徴 |

| — | — | — |

| A | 100円 | 安い

※ただし条件あり |

修正後(テキスト化):

製品Aの価格は100円です。特徴として安価であることが挙げられますが、条件があることに注意が必要です。

このように文章化することで、AIは文脈として情報を保持できるようになります。

ステップ5:Q&A形式の追加作成

既存のマニュアルだけではカバーしきれない「現場の暗黙知」や「よくある質問」については、あえて「Q&Aリスト」を作成してナレッジベースに追加します。

  • 質問:PCが起動しない場合はどうすればいいですか?
  • 回答:まず電源ケーブルを確認し、次に電源ボタンを5秒以上長押しして強制再起動を試みてください。それでも改善しない場合は情シス(内線1234)へ連絡してください。

この形式は、ユーザーの質問とマッチしやすく、RAGにおいて非常に高い検索ヒット率を誇ります。マニュアルからQ&Aを自動生成するAIツールなどを活用するのも一つの手です。


よくある落とし穴と対処法

ここでは、多くの企業が陥りがちな失敗パターンと、その回避策を紹介します。

「代名詞」の罠

マニュアルの中で「これ」「その手順」といった指示語が多用されている場合、AIが文書の一部だけを切り取って読んだときに、何・どれを指しているのか理解できなくなります。

  • 対策指示語を具体的な名詞に置き換えます。「その申請を行ってください」ではなく、「交通費精算の申請を行ってください」と書き換える手間を惜しまないでください。このひと手間が、精度の差となって現れます。

「画像のみ」の解説

操作マニュアルなどで、スクリーンショットだけを貼り付け、「このボタンを押す」とだけ書いてあるケースです。現在の標準的なRAGシステムでは、画像の中の意味までは深く理解できないことが多いです。

  • 対策画像の下に、必ずテキストで説明を加えます。「画面右上の『設定』アイコン(歯車のマーク)をクリックし、プルダウンメニューから『ユーザー設定』を選択します」のように、文字だけで操作が完結するように記述してください。

専門用語・略語の未定義

社内だけで通じる略語(例:「PM」がプロジェクトマネージャーなのか、午後なのか、プロダクトマネージャーなのか)は、AIの混乱を招きます。

  • 対策ドキュメントの冒頭や、専用の「用語集ファイル」を作成し、「PMとはプロジェクトマネージャーを指す」と明記して読み込ませておくと、AIはその定義に従って回答してくれるようになります。

運用フェーズ:ナレッジベースを育て続ける

ドキュメント整備は「一度やれば終わり」ではありません。AIの導入は、社内のナレッジ管理を見直す絶好の機会です。

ユーザーからのフィードバックを活用する

RAGシステムには、必ず「Good / Bad」の評価ボタンや、フィードバック欄を設けましょう。ユーザーが「この回答は役に立たなかった」と評価した場合、その原因は十中八九、ドキュメントの不備か不足です。

  • どのマニュアルを参照すべきだったのか?
  • 情報が古かったのか?
  • そもそもドキュメントが存在しなかったのか?

これを分析し、ドキュメントを修正・追加していくサイクル(MLOps的な運用)こそが、最強のAIアシスタントを作る唯一の道です。

「AIに読ませる前提」で業務フローを変える

これからの資料作成は、「人間が読むため」だけでなく、「AIが読むため」という視点を持つことが重要です。

  • 議事録は整ったフォーマットで残す
  • マニュアル作成時はMarkdownを意識する
  • ファイル名に具体的な内容を含める(例:「manual.pdf」ではなく「2024年度_経費精算マニュアル_v1.pdf」とする)

このように、日々の業務フローの中に「ドキュメント整備」の意識を組み込むことで、特別な時間を割かなくても、自然と高品質なナレッジベースが蓄積されていきます。


まとめ:ドキュメント整備は「資産」になる

AI技術は日進月歩で進化していますが、「正確な情報を入力しなければ、正確な答えは返ってこない」という原則は変わりません。

今回解説したドキュメント整備の手法は、一見地味で泥臭い作業に見えるかもしれません。しかし、整備されたドキュメントは、AIのためだけでなく、新入社員の教育や、業務の引き継ぎにおいても極めて有用な「企業の資産」となります。

  1. 古い情報の断捨離
  2. ヘッダー・フッターの削除
  3. Markdownによる構造化
  4. 指示語・表のテキスト化

まずは、最もよく使われるマニュアル1つからで構いません。この手順で整備し、RAGに読み込ませてみてください。今まで「分かりません」と答えていたAIが、「はい、その手順はこちらです」と的確に回答し始めたとき、その効果に驚くはずです。

さあ、あなたの会社の眠れるデータを、使える知識へと変えていきましょう。ドキュメント整備という最初の一歩が、業務効率化の大きな未来を切り拓きます。

TOP