Chroma APIで作る業務自動化：実装サンプルと設計の勘所

生成AIの活用が進む中で、多くの企業が直面する壁があります。それは、「AIは賢いが、自社のことは何も知らない」という事実です。ChatGPTなどの大規模言語モデル（LLM）は、インターネット上の一般的な知識は豊富ですが、あなたの会社の就業規則や、先週の会議で決まったプロジェクトの詳細は知りません。

この壁を突破し、AIを真の「業務パートナー」へと進化させる鍵となる技術が、今回解説する Chroma（ChromaDB）です。

Chromaを使えば、膨大な社内ドキュメントやマニュアルをAIに記憶させ、必要な情報を瞬時に引き出して回答させることが可能になります。いわば、AIに「専用の脳」を外付けするようなものです。これにより、社内問い合わせの自動化や、過去のナレッジに基づいた企画立案など、業務効率化のレベルが劇的に向上します。

本記事では、エンジニアでなくても理解できるようにChromaの仕組みを解説しつつ、実際に業務自動化ツールを構築するための設計の勘所と、コピー＆ペーストで動かせる実装サンプルをご紹介します。AI活用の次のステップへ進みたい方にとって、必読の内容となっています。

Chroma（ChromaDB）とは？なぜ今、業務活用で注目されるのか

Chromaは、一言で言えば「AIのための記憶保管庫」です。専門的にはベクトルデータベースと呼ばれますが、まずはこの難しい言葉を噛み砕いて理解しましょう。

従来のデータベースと何が違うのか

私たちが普段Excelや業務システムで使っているデータベースは、キーワード検索が基本です。「契約書」と検索すれば、その文字が含まれるファイルが見つかります。しかし、「顧客との約束事」と検索しても、ファイル内に「約束事」という単語がなければヒットしません。

一方、Chromaのようなベクトルデータベースは、言葉の「意味」を理解して検索します。「契約書」と「顧客との約束事」は意味が近い、とAIが判断できるのです。

これを実現しているのがベクトル化（Embedding）という技術です。

専門用語解説：ベクトル化（Embedding）

ベクトル化とは、文章や単語を「数字の列（座標）」に変換することです。

例えば、AIの世界では以下のように言葉が配置されているとイメージしてください。

「リンゴ」という言葉の座標：[0.1, 0.5, 0.9]
「ミカン」という言葉の座標：[0.1, 0.6, 0.8]
「自動車」という言葉の座標：[0.9, 0.1, 0.2]

「リンゴ」と「ミカン」は数字が似ている（距離が近い）ので、意味も似ていると判断されます。逆に「自動車」は数字が離れているので、全く別の意味だとわかります。

Chromaは、社内の膨大なドキュメントをすべてこの「数字の列」として保存し、ユーザーの質問に対して「意味が最も近い情報」を瞬時に見つけ出すことに特化したデータベースなのです。

Chromaが選ばれる3つの理由

市場には多くのベクトルデータベースが存在しますが、Chromaはその中でも特に人気があります。

オープンソースで無料から始められる誰でも自由に使えるオープンソースソフトウェアであるため、初期コストがかかりません。まずは手元のPCで試作し、軌道に乗ったらサーバーに載せるといったスモールスタートに最適です。
Pythonとの親和性が高いAI開発の標準言語であるPythonで簡単に扱えます。複雑な設定ファイルを書かなくても、数行のコードでデータベースを立ち上げることができます。
開発スピードが速いAIアプリケーション開発を支援する「LangChain」や「LlamaIndex」といった主要なライブラリと標準で連携しており、組み合わせるだけで高度なシステムが作れます。

業務自動化の設計：RAG（検索拡張生成）の仕組み

Chromaを使って業務を自動化する際、最も一般的な構成が RAG（ラグ：Retrieval-Augmented Generation）と呼ばれる手法です。

RAGの流れ

AIに社内知識を回答させる仕組みは、以下の3ステップで成り立っています。

検索（Retrieval）ユーザーが質問を投げかけると、システムはまずChroma内を検索し、質問に関連する社内ドキュメントの抜粋を探し出します。
拡張（Augmented）見つけ出したドキュメントの情報を、ユーザーの質問文にくっつけます（プロンプトに含めます）。（例：「以下の社内規定を参考にして、質問に答えてください。[検索した規定文]… 質問：有給休暇の申請期限は？」）
生成（Generation）情報を付加されたプロンプトを受け取ったAI（ChatGPTなど）は、その情報に基づいて正確な回答を作成します。

どのような業務に適しているか

この仕組みは、以下のような業務で威力を発揮します。

社内ヘルプデスクの自動化就業規則、経費精算マニュアル、IT機器のセットアップ手順などをChromaに入れておけば、「Wi-Fiが繋がらない」「結婚休暇は何日？」といった質問に自動回答できます。
過去のプロジェクト参照過去数年分の議事録や提案書を保存しておけば、「過去にA社へ提案した際、どのような課題があったか？」といった質問に対し、当時の資料を要約して回答してくれます。
契約書チェックの補助大量の契約書ひな形を学習させ、「この条文は当社の標準的なリスク管理基準に合致しているか？」を判断させる材料として使えます。

【実践編】Chroma APIを使った自動化システムの構築手順

ここからは、実際にPythonを使ってChromaを動かす手順を解説します。ここでは、「社内マニュアルを読み込ませて、質問に答えられる検索システム」の核となる部分を作成します。

前提として、Pythonがインストールされている環境（Google Colabなどでも可）を想定しています。

ステップ1：必要なライブラリのインストール

まずは、Chromaの操作に必要なライブラリをインストールします。また、文章をベクトル化するためにOpenAIの技術を使うのが一般的で精度も高いため、OpenAIのライブラリも入れておきます。

pip install chromadb openai

ステップ2：Chromaクライアントの初期化

Chromaを使う準備をします。以下のコードは、データを一時的にメモリ上に保存する最もシンプルな設定です。PCを再起動すると消えてしまいますが、テストには最適です。

import chromadb
from chromadb.utils import embedding_functions
import os

# OpenAIのAPIキーを設定（環境変数から読み込むか、直接記述）
# 実際の運用では環境変数を使用することを強く推奨します
os.environ["OPENAI_API_KEY"] = "あなたのAPIキー"

# データを保存するクライアントを作成
client = chromadb.Client()

# Embedding関数（文章をベクトル化する機能）の準備
# ここではOpenAIのtext-embedding-3-smallを使用
openai_ef = embedding_functions.OpenAIEmbeddingFunction(
    api_key=os.environ["OPENAI_API_KEY"],
    model_name="text-embedding-3-small"
)

# コレクション（テーブルのようなもの）を作成
collection = client.create_collection(
    name="internal_manuals",
    embedding_function=openai_ef
)

ステップ3：社内データの登録

ここで、AIに覚えさせたいデータを投入します。今回は例として、架空の「経費精算ルール」を登録してみましょう。

# ドキュメント（本文）、メタデータ（カテゴリなど）、IDをリストで用意
documents = [
    "交通費の精算は、利用した翌月の5営業日までに申請する必要があります。",
    "5000円以上の接待交際費には、事前申請と参加者リストの添付が必須です。",
    "リモートワーク手当は一律月額3000円が支給され、領収書は不要です。"
]

metadatas = [
    {"category": "交通費", "page": "12"},
    {"category": "交際費", "page": "15"},
    {"category": "手当", "page": "8"}
]

ids = ["rule_001", "rule_002", "rule_003"]

# Chromaに追加
collection.add(
    documents=documents,
    metadatas=metadatas,
    ids=ids
)

print("データの登録が完了しました。")

この処理が実行されると、Chromaは自動的に文章をOpenAIのAPIに送信してベクトル化し、データベースに格納してくれます。

ステップ4：検索の実行

いよいよ検索です。ユーザーからの質問に対して、最も関連性の高いドキュメントを探します。

# ユーザーの質問
query_text = "接待で飲み会をしたんだけど、何か手続き必要？"

# 検索実行（上位1件を取得）
results = collection.query(
    query_texts=[query_text],
    n_results=1
)

# 結果の表示
print(f"質問: {query_text}")
print("-" * 30)
print(f"検索結果: {results['documents'][0][0]}")
print(f"カテゴリ: {results['metadatas'][0][0]['category']}")

実行結果イメージ：

質問: 接待で飲み会をしたんだけど、何か手続き必要？

検索結果: 5000円以上の接待交際費には、事前申請と参加者リストの添付が必須です。

カテゴリ: 交際費

このように、質問文に「事前申請」や「5000円」という単語が含まれていなくても、意味的に近い「接待交際費のルール」が正しくヒットします。これがChromaの力です。あとはこの結果をChatGPTに渡して、「このルールに基づき、優しく回答して」と指示すれば、立派なAIチャットボットの完成です。

現場でハマらないための「設計の勘所」

コード自体はシンプルですが、実務で使えるレベルにするには「設計」が重要です。多くのプロジェクトが直面する失敗と、その対策（勘所）を解説します。

1. チャンク分割（Chunking）の戦略

最も重要なのが、長いドキュメントをどう区切るか（チャンク化）です。

例えば、全100ページのPDFを丸ごと1つのデータとして登録してしまうと、検索結果として100ページ分が返ってきてしまいます。これではAIがどこを読めばいいかわからず、処理コストも膨大になります。

勘所：

適切なサイズ（例えば500文字〜1000文字程度）に分割しましょう。また、単に区切るだけでなく、文脈が途切れないように前後の文章を少し重複させる（オーバーラップさせる）のがコツです。

悪い例：機械的に500文字でぶつ切りにする（文の途中で切れる可能性がある）。
良い例：段落ごとに区切り、前の段落の最後の50文字を含めて次のチャンクを作る。

2. メタデータの活用

Chromaはベクトル検索だけでなく、メタデータによる絞り込みも可能です。これが業務システムでは必須になります。

勘所：

例えば、複数の部署のドキュメントを同じデータベースに入れる場合、「部署タグ」をメタデータとして付与しておきましょう。

「営業部の人が質問したときは、営業部のドキュメントだけを検索対象にする」というフィルタリングを行うことで、無関係な情報が混ざるのを防ぎ、回答精度を高めることができます。

where={"department": "sales"} のようにフィルタ条件を追加するだけで実現可能です。

3. ハイブリッド検索の検討

ベクトル検索は「意味」には強いですが、実は「型番」や「正確な名前」には弱いことがあります。「A-123」という型番と「B-123」という型番は、意味的には似ていませんが、文字としては似ています。ベクトル検索ではこれらを区別するのが苦手な場合があります。

勘所：

製品コードや社員番号など、完全一致が必要なキーワードについては、Chromaの機能だけに頼らず、従来のキーワード検索も併用する「ハイブリッド検索」を設計段階で想定しておくと、後のトラブルを防げます。

4. データの鮮度管理

一度登録したデータも、社内規定が変われば古くなります。古い情報のままAIが回答すると、業務ミスにつながります。

勘所：

データの追加（Add）だけでなく、更新（Update）や削除（Delete）の仕組みを最初に作っておくこと。例えば、ドキュメントの更新日時をIDの一部に含めたり、定期的に全データを洗い替えるバッチ処理を組んだりする運用設計が、システムの寿命を決めます。

導入事例と応用アイデア

Chromaを活用すれば、単なるQ&Aボット以外にも様々な自動化が可能です。

新入社員オンボーディング支援

新入社員に読ませたい膨大な資料をChromaに学習させます。「PCのパスワードを忘れたら？」「名刺の発注方法は？」といった質問に対し、即座に社内Wikiのリンク付きで回答するボットを作成。人事部の問い合わせ対応時間を大幅に削減できます。

顧客の声（VOC）分析

お客様からのメールやアンケート回答をすべてChromaに保存します。「最近、価格に関する不満は増えているか？」とAIに問えば、関連するクレームや要望を抽出して分析レポートを作成できます。定量的な数値だけでなく、定性的な「お客様の温度感」を分析するのに役立ちます。

個人の「第二の脳」として

個人の業務日報やメモ、気になったWeb記事の要約などを自分専用のChromaに貯めておきます。「先月、自分が悩んでいたタスクは何だっけ？」と聞けば、忘れていた自分の思考を呼び起こすことができます。

まとめ：まずは小さなデータセットから始めよう

Chroma APIを使った業務自動化は、決して魔法ではありません。データの質、分割の方法、検索のパラメータなど、泥臭い調整が必要な技術です。しかし、正しく設計されたシステムは、あなたの業務時間を確実に削減し、組織の知的生産性を底上げします。

まずは、よくある質問を10個〜20個程度用意し、本記事のコードサンプルを使って小さな検索システムを作ってみてください。「あ、本当に意味で検索できるんだ」という感動が、業務改革の第一歩となるはずです。

今すぐできるアクション

今使っているPCで、ターミナル（コマンドプロンプト）を開き、pip install chromadb と打ち込んでみてください。その数秒のインストールが、あなたの仕事を未来へ進めるきっかけになります。

Weaviate APIで作る業務自動化：実装サンプルと設計の勘所

Milvus APIで作る業務自動化：実装サンプルと設計の勘所