製造業でRAGを成功させるデータ整備チェックリスト

導入：AI活用の成否は「事前の準備」で9割決まる

製造現場において、ベテラン社員が長年培ってきた「匠の技」や、過去に発生したトラブルの「対処記録」は、企業の競争力を左右する極めて重要な資産です。しかし、これらの貴重な情報は、工場のキャビネットにある紙のファイルや、個人のパソコン内のExcel、あるいはサーバーの深い階層にあるPDFの中に埋もれてしまっていないでしょうか。

「あの時のトラブル、どうやって解決したっけ？」

「この設備のメンテナンス手順、最新版はどこにある？」

こうした情報を探すために、エンジニアや現場担当者が毎日何十分も費やしている現状があります。この課題を解決する切り札として注目されているのが、生成AIを活用した「RAG（ラグ）」という技術です。

RAGを使えば、ChatGPTのような高度なAIに対し、自社のマニュアルや過去のトラブル報告書を学習（参照）させ、現場の質問に対して即座に、かつ自社の文脈に沿った回答をさせることが可能になります。

しかし、多くの製造業企業が意気揚々とRAGの導入に踏み切るものの、期待通りの成果が出ずにプロジェクトが頓挫してしまうケースが後を絶ちません。AIが「分かりません」と答えたり、全く見当違いな回答（ハルシネーション）をしたりするからです。

その最大の原因は、AIの性能ではありません。「読ませるデータの質」にあります。

AIは魔法の箱のように思われがちですが、実際には非常に正直な「読書家」です。私たちが渡したデータが整理されていなければ、AIも内容を理解できません。つまり、RAGを成功させるためには、AIが読みやすいようにデータを整備する「お膳立て」が不可欠なのです。

この記事では、製造業の現場を知り尽くした視点から、RAG導入を成功に導くための「データ整備」に特化した具体的なチェックリストを解説します。専門用語には分かりやすい解説を加えながら、今日から着手できる実践的な手順をご紹介します。これを読めば、あなたの工場の埋もれたデータが、最強のアシスタントへと生まれ変わる準備が整うはずです。

そもそも「RAG」とは？製造業になぜ必要なのか

まずは、なぜ今「RAG」が製造業でこれほどまでに叫ばれているのか、その仕組みとメリットを整理しておきましょう。

RAG ＝ AIに「カンニングペーパー」を渡す技術

RAGとは、Retrieval-Augmented Generation（検索拡張生成）の略称です。専門用語のように聞こえますが、仕組みは非常にシンプルです。

通常、ChatGPTなどの大規模言語モデル（LLM）は、インターネット上の一般的な知識は持っていますが、あなたの会社の「A工場の第3ラインのプレス機の調整方法」については何も知りません。そこで、AIに質問を投げかける際に、社内のデータベースから関連するマニュアルや日報を検索（Retrieval）し、その情報をヒント（カンニングペーパー）としてAIに見せながら回答を生成（Generation）させる。これがRAGです。

例えるなら、記憶力の良い新人（AI）に、社内の巨大な書庫（データベース）へのアクセス権と、必要な資料を瞬時に見つけ出す能力を与え、「この資料に基づいて答えて」と指示するようなものです。

製造業が抱える「情報の断絶」という課題

製造業、特に歴史の長い企業ほど、RAGの恩恵は計り知れません。なぜなら、製造業は他業界に比べて「形式の異なるデータ」が大量に、かつバラバラに存在するからです。

紙で保管された20年前の設備図面
担当者ごとに書き方が違うExcelの作業日報
ワードで作成された標準作業手順書（SOP）
PDF化されただけの画像データ

これらは、人間であればなんとか読み解けますが、デジタルデータとしては「非構造化データ」と呼ばれ、コンピューターが最も苦手とする形式です。この情報の断絶が、技術伝承や業務効率化の大きな足かせとなってきました。

RAGを適切に導入できれば、新人オペレーターが「異音がする」とタブレットに入力するだけで、AIが過去10年分のトラブル報告書から類似事例を探し出し、「ベアリングの摩耗の可能性があります。確認手順は以下の通りです」と回答してくれる未来が実現します。

RAG導入が失敗する最大の原因：「Garbage In, Garbage Out」

データ分析の世界には「Garbage In, Garbage Out（ゴミが入ればゴミが出る）」という有名な格言があります。これはRAGにおいても絶対的な真理です。

どれほど高性能なAIモデルを使っても、参照する元データ（ドキュメント）が不正確だったり、読み取りにくい形式だったりすれば、AIは正しい回答を導き出せません。

製造業でよくある失敗パターンを見てみましょう。

スキャンしただけのPDFを読ませてしまう複合機でスキャンした図面や文書は、人間には文字に見えても、コンピューターにとっては単なる「画像（ドットの集まり）」です。OCR（光学文字認識）処理をしてテキストデータに変換しなければ、AIは中身を一切読めません。
Excelの「セル結合」がAIを混乱させる人間が見やすくするために多用するExcelの「セル結合」や複雑なレイアウトは、AIにとっては悪夢です。行と列の関係性が崩れ、どの数値がどの項目に紐づいているのか理解できなくなります。
社内用語や略語の多用「AS」「特採」「チョコ停」といった業界・社内特有の略語が、定義なしに使われていると、AIは一般的な意味で解釈してしまい、文脈を取り違えます。

これらを解決するのが「データ整備（データクレンジング）」です。次章から、具体的なチェックリストを見ていきましょう。

【保存版】製造業向け・RAGデータ整備チェックリスト

ここからは、実際に社内データをRAGに投入する前に確認すべき項目を、重要度順に解説します。このリストに沿ってデータを準備することで、回答精度は劇的に向上します。

チェック項目1：ファイル形式とテキスト抽出可能性

まずは、AIが物理的に文字を読める状態にあるかを確認します。

画像PDFのテキスト化（OCR処理）スキャンしただけのPDFファイルには、必ずOCR処理を施してテキストデータを埋め込んでください。最近の複合機やAdobe Acrobat、あるいはAI搭載のOCRツールを使用すれば可能です。ただし、図面の中の手書き文字などは誤認識が多いので、重要な数値は人の目でのチェックが必要です。
「紙」の文化からの脱却まだ紙でしか存在しないマニュアルは、この機会に電子化しましょう。RAG導入は、社内のペーパーレス化を推進する絶好のチャンスでもあります。
独自ファイル形式の変換特定のCADソフトや古い生産管理システムでしか開けない独自形式のファイルは、CSV、Markdown、テキストファイル、あるいはPDFなど、汎用的な形式に変換しておく必要があります。

チェック項目2：Excelデータの「脱・人間用レイアウト」

製造業で最も多いのがExcelデータの整備です。ここが最大の難所と言っても過言ではありません。

セル結合の解除見出しなどでセルを結合している場合は、すべて解除し、各セルに値を埋めてください。データは「1行1レコード」のデータベース形式になっているのが理想です。
「方眼紙Excel」の廃止セルを正方形にして方眼紙のように使い、自由に文字や図を配置しているExcelファイルは、AIが構造を理解できません。文章はWordやテキストファイルに、データ表はシンプルなCSV形式に移行することを検討してください。
空白セルの処理人間は「上のセルと同じ」という意味でセルを空欄にすることがありますが、AIにはそれが伝わりません。面倒でも、すべてのセルに正しい値を入力してください。

チェック項目3：ノイズ情報の除去（クリーニング）

AIに読ませる文章の中に、回答に不要なノイズが含まれていると、精度が下がります。

ヘッダー・フッターの削除全ページに入っている「社外秘」「2024年度版」「ページ番号」などの情報は、AIが文脈の一部だと誤認する可能性があります。テキスト抽出の段階でこれらを除去する処理（スクリプト処理など）を入れるのが定石です。
目次や索引の扱い目次は単語の羅列であり、文章としての意味を成さないため、検索のノイズになりがちです。学習データからは除外するか、区別できるようにします。
意味のない記号や文字化けの修正システムが出力したログファイルなどに含まれる無意味な記号の羅列や、文字化けは削除・修正しておきます。

チェック項目4：ドキュメントの「チャンク化（分割）」戦略

RAGでは、長いドキュメントをそのままAIに渡すのではなく、適切な長さの「チャンク（塊）」に分割してデータベースに登録します。この分割方法がセンスを問われます。

意味のまとまりで切る単純に「500文字ごと」に切ってしまうと、文章が途中で途切れて意味が通じなくなることがあります。「章ごと」「節ごと」「トラブル事例ごと」など、意味のまとまりで分割するようにします。
文脈の欠落を防ぐ（オーバーラップ）分割する際、前後の文脈を失わないように、前のチャンクの最後の一部を次のチャンクの冒頭に含める「オーバーラップ（重複）」処理を行うのが一般的です。
指示語の補完分割された文章の中に「その手順は～」とあっても、AIには「その」が何を指すか分かりません。データ整備の高度なテクニックとして、「その」を具体的な「洗浄工程の」といった言葉に置き換えてから登録すると、検索精度が格段に上がります。

チェック項目5：メタデータの付与

メタデータとは、「データに関するデータ」のことです。これを付与することで、AIはより的確に情報を絞り込めます。

属性情報のタグ付け各ドキュメントに、「対象機種（例：Model-A）」「工程（例：組立）」「作成年（例：2023年）」「文書種別（例：トラブル報告）」といったタグを付けます。
検索時のフィルタリング活用ユーザーが「Model-Aの組立トラブルについて教えて」と聞いた時、AIはまずメタデータで「Model-A」「組立」のタグがついた文書に絞り込んでから検索を行えるため、関係のないModel-Bの情報を参照するミスを防げます。

実践！データを「AIが読める形」に変換するステップ

チェックリストの内容を理解したところで、実際にプロジェクトを進める際の手順を解説します。いきなり全社のデータを投入するのではなく、スモールスタートが鉄則です。

Step 1：対象ドキュメントの棚卸しと優先順位付け

まずは社内にどんなデータがあるかをリストアップします。その上で、「RAGで解決したい課題」に直結するデータを選定します。

おすすめは「トラブルシューティング（過去の不具合対応録）」や「QA集」です。これらは「問題」と「解決策」がセットになっており、RAGの効果が出やすい形式だからです。逆に、体系的でない議事録や、最新性が保証されていない個人的なメモは、最初は避けるべきです。

Step 2：前処理（データ加工）の実施

選定したデータを、先ほどのチェックリストに基づいて加工します。

ツールを活用する手作業ですべて修正するのは不可能です。Pythonなどのプログラミング言語を使えば、PDFからテキストを抽出したり、不要なヘッダーを一括削除したりする処理を自動化できます。社内にエンジニアがいない場合は、データ整備を代行してくれるサービスや、前処理機能が充実したRAGツールの利用を検討してください。
Markdown形式への変換AIにとって最も読みやすい形式の一つが「Markdown（マークダウン）」です。見出しを「#」、箇条書きを「-」で表現するシンプルな形式です。WordやExcelのドキュメントをMarkdownに変換することで、文書の構造（親子関係）をAIが正しく理解できるようになります。

Step 3：テストとフィードバック（アノテーション）

データを投入したら、実際に質問を投げてテストします。

「回答がおかしい」と感じたら、その原因を突き止めます。

「参照しているデータが古いのか？」

「データの分割場所が悪くて文脈が切れているのか？」

「専門用語を理解できていないのか？」

原因に合わせて、データの修正や、専門用語集（辞書）の追加登録を行います。この地道な「テスト」→「修正」のサイクル（フィードバックループ）こそが、使えるRAGを育てる唯一の道です。

製造業ならではの注意点：図面と画像の扱い

製造業において避けて通れないのが「図面」や「写真」です。現状のテキストベースのRAGでは、図面の形状そのものを理解して「この穴の径は？」と答えるのは困難です。

現時点での現実的な解

図面内の注記をテキスト化する図面の中に書かれている「注記」や「特記事項」は重要なノウハウの塊です。これらをOCRでテキスト抽出し、どの図面のどの部分の注記かを紐づけて登録します。
マルチモーダルAIへの期待と準備最新のAI（GPT-4VやGeminiなど）は、画像を認識する能力（マルチモーダル機能）が飛躍的に向上しています。将来的には、図面をそのまま読み込ませて解説させることが可能になるでしょう。その時に備えて、図面データを高解像度でデジタル化し、ファイル名やフォルダ構成を整理しておくことが、今できる最善の準備です。

セキュリティと運用ルールの策定

データ整備と同じくらい重要なのが、セキュリティです。

技術流出を防ぐアクセス権限管理

RAGは社内の全データを検索する能力を持ちますが、一般社員に見せてはいけない「役員会議事録」や「未発表の新製品情報」「人事評価」などが検索結果に出てしまっては大変です。

データソース（参照元）ごとにアクセス権限（ACL）を設定し、「誰がどの情報を検索できるか」を厳格にコントロールする必要があります。RAGツールを選定する際は、この権限管理機能が自社のセキュリティポリシーに合致しているかを必ず確認してください。

データの鮮度を保つ更新フロー

製造現場は常に変化しています。マニュアルは改訂され、新しいトラブル報告が日々追加されます。一度データ整備をして終わりではありません。

「新しいマニュアルができたら、誰がいつRAGのデータベースに追加するのか」

「古いデータはいつ削除するのか」

こうした運用ルール（データパイプライン）を最初に決めておかないと、AIはすぐに「過去の古い情報」を自信満々に答える嘘つきになってしまいます。

まとめ：データ整備こそがDXの本丸である

「RAGを導入すれば、明日から業務が劇的に楽になる」

そう夢見て導入したものの、精度の低さに幻滅してしまう企業が多いのは、今回解説した「データ整備」という泥臭い工程をスキップしてしまうからです。

逆に言えば、このデータ整備にしっかりとリソースを割き、自社の資産である情報を「AIが理解できる形」に翻訳してあげることができれば、製造業の現場は劇的に変わります。

過去数十年分のトラブル対応履歴が一瞬で呼び出され、熟練工の頭の中にしかなかったノウハウが、新入社員のタブレットに表示される。そんな未来を実現するための第一歩は、目の前にあるExcelファイルのセル結合を解除し、キャビネットの書類をスキャンすることから始まります。

AIは魔法ではありませんが、磨き上げられたデータを与えれば、魔法のような成果を返してくれます。まずは、最も頻繁に参照される「トラブルシューティングマニュアル」一冊から、データ整備を始めてみませんか？その小さな一歩が、御社の製造現場における大きな変革の始まりになるはずです。

製造業の生成AI活用事例50連発：現場で成果が出た使い方

小売の生成AI活用事例50連発：現場で成果が出た使い方