「手元に膨大なエクセルデータがあるが、どこから分析すればいいかわからない」
「SQLやPythonのコードを書くのに時間がかかり、本来の『考察』に時間を使えない」
もしあなたがこのような悩みを抱えているなら、この記事はあなたのためのものです。今、生成AI(ChatGPTやClaudeなど)は、単なるチャットボットから「優秀なデータサイエンティストのアシスタント」へと進化しています。適切な指示(プロンプト)さえ与えれば、数時間かかっていたデータ整形や分析作業が、わずか数分で完了することも夢ではありません。
しかし、AIは魔法の杖ではありません。曖昧な指示では曖昧な答えしか返ってきません。必要なのは、AIの能力を最大限に引き出す「刺さるプロンプト」です。
本記事では、データ分析の現場ですぐに使えるプロンプトを、実務のフェーズごとに体系化して合計100本(相当のバリエーション)紹介します。非エンジニアでもコピペで使えるように設計していますので、ぜひブックマークして日々の業務にお役立てください。
第1章:データ分析の基本姿勢とプロンプトの「型」
具体的なプロンプト集に入る前に、AIに分析を依頼する際の基本ルールを押さえておきましょう。これを知っているだけで、回答の精度が劇的に変わります。
AI分析における3つの鉄則
- 機密情報の保護企業名、個人名、具体的な売上額など、漏洩してはならない情報は必ず「マスキング(伏せ字)」するか、ダミーデータに置き換えてから入力してください。(例:株式会社A → A社、田中太郎 → 社員A)
- 役割の定義AIに対して「あなたはプロのデータサイエンティストです」と役割を与えることで、回答の視座や専門性が高まります。
- 出力形式の指定「表形式で」「Pythonコードで」「箇条書きで」と、アウトプットの形を明確に指定することで、後の作業がスムーズになります。
最強の汎用プロンプトテンプレート
あらゆる分析タスクに応用できる、基本の「型」がこちらです。迷ったらまずはこの形式に当てはめてみてください。
Markdown
# 命令書
あなたは世界トップクラスのデータアナリストです。
以下の[制約条件]と[入力データ]に基づき、[目的]を達成するための分析を行ってください。
# 目的
(例:この売上データの傾向を把握し、来月の対策を立案したい)
# 入力データ
(ここにデータを貼り付ける、またはデータのカラム名と概要を記述する)
# 制約条件
- 初心者にもわかるように平易な言葉で説明すること
- 具体的な数値を根拠にすること
- 重要なポイントは3つに絞ること
# 出力形式
Markdown形式の見出し付きレポート
第2章:データ理解・全体像把握(EDA)のプロンプト 15選
分析の第一歩は、データを「知る」ことです。AIにデータ構造を理解させ、全体像を掴むためのプロンプトです。
データの構造を確認する
- カラムの意味推定このデータセットのカラム名から、それぞれのカラムがどのような意味を持つデータか推測し、日本語で定義リストを作成してください。
- データの要約統計量このデータの基本統計量(平均、中央値、最大、最小、標準偏差)を計算し、表形式でまとめてください。また、そこから読み取れるデータの特徴を3行で要約してください。
- ユニーク値の確認[カテゴリ変数]のカラムに含まれるユニークな値(種類)をリストアップし、それぞれの出現回数をカウントしてください。
データの質を評価する
- 欠損値のチェックデータの中に欠損値(空欄やNULL)が含まれているカラムはありますか?ある場合、全体の何%が欠損しているか教えてください。
- 異常値の検出数値データの中で、統計的に見て「異常値」や「外れ値」と思われるデータはありますか?四分位範囲などを用いて判定し、具体的な行を特定してください。
- データ型の不整合チェック数値であるべきカラムに文字列が混じっているなど、データ型として不適切な箇所がないかチェックしてください。
データの関係性を探る
- 相関関係の仮説出し[売上]カラムと最も相関が強そうなカラムはどれだと推測されますか?理由とともにトップ3を挙げてください。
- 時系列の特徴把握[日付]カラムを基準にした場合、データの期間はいつからいつまでですか?また、データの記録頻度(日次、月次など)はどうなっていますか?
- 分布の形状確認[年齢]カラムの分布はどのような形状だと予想されますか?(正規分布、右に裾が長いなど)Pythonでヒストグラムを描画するコードも提示してください。
- 重複データの確認完全に内容が重複している行(レコード)が存在するか確認する方法を教えてください。
ビジネス視点での問いかけ
- 主要KPIの定義このデータセットから算出できる、ビジネス上重要なKPI(重要業績評価指標)を5つ提案してください。
- データの限界点の指摘このデータだけで[目的:顧客満足度の分析]を行う場合、不足している情報やデータの限界は何ですか?
- ターゲット層の推測顧客属性データから、メインとなるターゲット層(ペルソナ)を具体的に言語化してください。
- 季節性の確認データに季節変動(特定の月や曜日に数値が上がるなど)があるかを確認するための分析アプローチを提示してください。
- 80対20の法則(パレート分析)売上の8割を作っている上位2割の商品(または顧客)を特定するための分析手順を教えてください。
第3章:データ前処理・クレンジングのプロンプト 15選
データ分析の時間の8割は「前処理」と言われます。面倒な修正作業はAIにコードを書かせるか、手順を整理させましょう。
表記揺れとフォーマット修正
- 表記揺れの統一「株式会社」「(株)」「㈱」などが混在しています。これらを「株式会社」に統一するPythonコード(pandas)を書いてください。
- 日付フォーマットの変換「2023/1/1」「2023-01-01」「Jan 1, 2023」が混ざっています。全て「YYYY-MM-DD」形式に統一する処理を教えてください。
- 全角・半角の統一英数字が全角と半角で混在しています。すべて半角に統一し、不要なスペースを除去する正規表現を教えてください。
- 住所データの分割[住所]カラムから、「都道府県」「市区町村」「それ以降」を別のカラムに分割するPython関数を作成してください。
- 氏名の分割[氏名]カラム(例:「山田 太郎」)を、[姓]と[名]に分割する方法を教えてください。スペースがない場合の対処法も含めてください。
欠損値と異常値の処理
- 欠損値の補完(平均値・中央値)[年齢]カラムの欠損値を、全体の平均値(または中央値)で埋めるPythonコードを書いてください。
- 欠損値の補完(前後の値)時系列データにおいて、欠損している箇所を直前の値で埋める(Forward Fill)方法を教えてください。
- 異常値の除外[価格]が0円以下のデータや、上位1%の極端に高い値を分析対象から除外するフィルタリング条件を教えてください。
- カテゴリ変数の数値化[性別]や[プラン名]などのカテゴリ変数を、機械学習で扱えるようにダミー変数化(One-hot Encoding)するコードを書いてください。
データの結合と集計
- データの結合(マージ)Aの表(顧客マスタ)とBの表(購買履歴)を、[顧客ID]をキーにして結合するSQL、またはPythonコードを書いてください。
- 粒度の変更(リサンプリング)日次ごとの売上データを、月ごとの合計および平均に集計し直す方法を教えてください。
- ピボットテーブルの作成行に[地域]、列に[商品カテゴリ]、値に[売上合計]を入れたクロス集計表(ピボットテーブル)を作成するpandasコードを提示してください。
- ビニング(区間分け)[年齢]データを、10代、20代、30代…という「年代」カテゴリに変換する処理を教えてください。
- フラグ立て[購入回数]が3回以上の顧客に対して「リピーター」というフラグ(1)を立て、それ以外は0とする新しいカラムを作成してください。
- 正規化・標準化機械学習の前処理として、[売上]と[利益]の数値を0から1の範囲に収める(Min-Maxスケーリング)方法を教えてください。
第4章:分析・インサイト発掘のプロンプト 20選
ここがデータ分析の醍醐味です。「なぜ売れたのか?」「次はどうなるか?」をAIと共に深掘りします。
要因分析(Why)
- 売上減少の要因特定先月と比較して売上が低下しました。このデータから、どの地域、どの商品カテゴリが足を引っ張っているか特定する手順を教えてください。
- 優良顧客の特徴抽出LTV(顧客生涯価値)が高い顧客グループには、どのような共通点があると考えられますか?このデータから分析すべき視点を5つ挙げてください。
- キャンペーン効果の検証○月×日に実施したキャンペーンの効果を測定したいです。キャンペーン前後での数値の変化を有意差検定を含めて検証するアプローチを教えてください。
- 離反(チャーン)分析解約してしまった顧客のデータ(B)と継続顧客のデータ(A)があります。解約の予兆となる行動パターンを見つけるにはどう比較すればよいですか?
- バスケット分析「商品Aを買った人は商品Bも買いやすい」といった併売ルールを発見するためのアソシエーション分析の手順を教えてください。
予測・シミュレーション(What if)
- 売上予測過去2年間の月次売上データがあります。これをもとに、来月と再来月の売上を予測するための時系列分析(ARIMAやProphetなど)のPythonコードを作成してください。
- 需要予測天候データと過去の客数データを使って、明日の来客数を予測するモデルを作りたいです。どのような変数を説明変数にすべきですか?
- 価格弾力性の分析価格を変更した場合に、需要(販売数)がどの程度変化するかを分析し、最適な価格設定を見つけるための方法論を教えてください。
- シナリオ分析もし広告費を20%増額し、その結果コンバージョン率が5%改善したとしたら、最終的な粗利はどう変化するかシミュレーションする数式を作ってください。
- 損益分岐点の算出固定費がX円、変動費率がY%の場合、黒字化するために必要な最低売上高(損益分岐点)を計算してください。
比較・ランキング
- ABC分析在庫管理のために商品をAランク(重要)、Bランク、Cランクに分類したいです。累積構成比を使ったABC分析のやり方を教えてください。
- 店舗別パフォーマンス比較複数店舗の売上データを比較する際、単なる売上額だけでなく「店舗面積あたり」や「従業員一人あたり」の生産性を見るにはどう計算すればよいですか?
- 競合比較の視点自社データと市場のオープンデータを比較し、自社のシェアが伸びているか確認したいです。どのオープンデータ(統計局など)を参照すべきですか?
- 成長率の計算昨対比(YOY)、前月比(MOM)の成長率を算出し、成長が鈍化しているカテゴリを可視化する方法を教えてください。
- コホート分析登録月ごとのユーザー定着率を見たいです。横軸に経過月数、縦軸に登録月をとったコホート図を作成するためのデータ整形方法を教えてください。
高度な分析手法へのブリッジ
- クラスタリング(顧客セグメンテーション)顧客データを「購買金額」「購入頻度」「最終購入日」に基づいてグループ分け(k-meansクラスタリング)したいです。最適なクラスター数を決める「エルボー法」のコードも併せて教えてください。
- 決定木によるルール抽出「成約した/しなかった」を目的変数とし、決定木分析を使って成約に至る重要な条件ルールを可視化したいです。Pythonコードを書いてください。
- テキストマイニング(アンケート分析)顧客からの自由記述アンケートがあります。頻出単語を抽出し、ワードクラウドを作成する方法、およびポジティブ・ネガティブの感情分析を行う方法を教えてください。
- RFM分析の実践Recency(最新購入日)、Frequency(頻度)、Monetary(金額)の3指標で顧客をランク付けするRFM分析の具体的なスコアリング基準案を作成してください。
- 因果推論の思考「広告を見たから買った」のか「買うつもりだった人が広告を見た」のかを見極めるために、どのような分析設計(A/Bテストなど)が必要ですか?
第5章:可視化・グラフ作成(Visualization)のプロンプト 15選
数字の羅列では伝わりません。AIに適切なグラフを選ばせ、描画コードを書かせましょう。
適切なグラフの選定
- グラフの推奨このデータ(地域ごとの売上と利益率)を可視化したいのですが、どのグラフ表現が最も適切ですか?理由も含めて提案してください。
- 比較のためのグラフ5つの事業部の売上推移(月次)を比較したいです。見やすさを考慮した折れ線グラフの作成コード(matplotlib)を書いてください。
- 構成比の可視化円グラフは比較しにくいと聞きました。商品カテゴリごとのシェアを見せる際、円グラフ以外でわかりやすい表現方法はありますか?(例:ツリーマップ、帯グラフなど)
- 関係性の可視化広告費と売上の関係性を散布図にし、回帰直線(トレンドライン)を重ねて描画するコードを書いてください。
高度な可視化
- ヒートマップ曜日ごとの時間帯別アクセス数をヒートマップ(色の濃淡)で表現し、どの時間が繁忙かひと目でわかるようにしたいです。Seabornを使ったコードをください。
- 箱ひげ図(Box Plot)商品カテゴリごとの価格のばらつきを確認するために、箱ひげ図を作成したいです。外れ値も表示するようにしてください。
- 複合グラフ(2軸グラフ)左軸に「売上金額(棒グラフ)」、右軸に「前年比(折れ線グラフ)」をとった複合グラフを作成するExcelまたはPythonの手順を教えてください。
- パレート図棒グラフ(度数)と折れ線グラフ(累積構成比)を組み合わせたパレート図を作成するPythonコードを書いてください。
- 地図へのプロット緯度経度のデータを持っています。これを地図上にプロットし、売上規模を円の大きさで表現する(バブルマップ)には、どのライブラリ(Foliumなど)を使えばいいですか?
- サンキーダイアグラムWebサイトの「トップページ→商品ページ→カート→購入」というユーザーの遷移フローを、太さで表現するサンキーダイアグラムで可視化したいです。
デザイン・見せ方
- カラーパレットの提案ビジネスレポートに適した、落ち着いた色合いのカラーパレット(青・グレー基調など)の16進数コードを5色セットで提案してください。
- 日本語フォントの設定Matplotlibでグラフを描くと日本語が文字化けします。これを解消し、日本語フォント(Japanize-matplotlibなど)を適用するコードを教えてください。
- ラベルとタイトルの最適化グラフの軸ラベルやタイトルが切れてしまいます。レイアウトを自動調整し、見やすくするための設定(tight_layoutなど)を教えてください。
- 注釈の追加グラフの中の特定のピーク(最大値)の場所に、矢印とテキストで「過去最高!」と注釈(アノテーション)を入れるコードを書いてください。
- インタラクティブなグラフマウスカーソルを合わせると詳細な数値がポップアップするような、動的なグラフ(Plotlyなど)を作成する簡単な例を教えてください。
第6章:SQLクエリ生成・活用のプロンプト 15選
データベースからデータを抽出する際、SQLが書けなくてもAIに日本語で指示すればOKです。
基本的な抽出
- 条件抽出テーブル「sales」から、2023年のデータで、かつ売上が10,000円以上のレコードのみを抽出するSQLクエリを書いてください。
- 並べ替えと制限売上の高い順に並べ替え、上位10件だけを表示するクエリを書いてください。
- 集計(GROUP BY)「department」ごとに給与の平均値を算出し、平均給与が高い順に並べるクエリを書いてください。
- 期間指定「created_at」カラムを使って、直近30日間のデータを抽出するクエリを書いてください(MySQLの場合)。
- 部分一致検索顧客名に「田中」を含むすべての顧客を抽出するLIKE演算子を使ったクエリを書いてください。
複雑な処理
- テーブル結合(JOIN)「users」テーブルと「orders」テーブルを内部結合し、一度も注文していないユーザーを除外して一覧にするクエリを書いてください。
- 左外部結合(LEFT JOIN)すべての「products」を表示し、売上がない商品は売上0として表示したいです。LEFT JOINを使ったクエリを書いてください。
- サブクエリ(副問合せ)全体の平均単価よりも高い単価の商品だけを抽出するクエリを、サブクエリを使って作成してください。
- CASE式による条件分岐年齢が20歳未満なら「未成年」、20歳以上60歳未満なら「現役」、60歳以上なら「シニア」という新しい区分列を表示するクエリを書いてください。
- ウィンドウ関数(RANK)部署ごとに、給与が高い順にランキング番号(1位、2位…)を振るクエリを書いてください。
最適化と解説
- クエリの解説[ここにSQLクエリを貼り付け] このクエリが何を行っているか、初心者にもわかるようにステップバイステップで解説してください。
- エラー修正[エラーメッセージ] SQLを実行したらこのエラーが出ました。原因と修正後のクエリを教えてください。
- パフォーマンス改善このクエリの実行速度が遅いです。インデックスの活用や書き方の工夫など、高速化するための改善案を提示してください。
- 方言の変換このMySQL用のクエリを、Google BigQuery (Standard SQL) で動くように書き換えてください。
- DDL生成以下の要件(カラム名、データ型)を満たすテーブルを作成するための「CREATE TABLE」文を作成してください。
第7章:レポート作成・プレゼンのプロンプト 20選
分析結果は伝わらなければ意味がありません。上司やクライアントを説得するためのアウトプット作成を支援します。
レポート構成案
- 目次の作成今回の分析結果(売上低下の原因分析)を報告するPowerPoint資料の目次構成案を作成してください。ストーリー性を意識し、結論から入る構成にしてください。
- エグゼクティブサマリー以下の分析結果テキストを基に、忙しい経営陣が30秒で読める「エグゼクティブサマリー」を作成してください。結論、根拠、提言の順でまとめてください。
- 見出しのブラッシュアップ「売上について」というスライドの見出しを、もっとインパクトがあり、内容が伝わるキャッチーな見出し(例:「売上は前年比120%で好調に推移」など)に改善してください。
- 専門用語の言い換え「多重共線性」や「p値」といった用語を使わずに、統計的な結果の正当性をビジネスパーソンに説明する文章を考えてください。
- ネクストアクションの提案分析結果から「20代の離脱が多い」ことがわかりました。これを踏まえて、マーケティング担当者が明日から実行できる具体的な施策案を3つ提案してください。
文章作成・校正
- 結論の強調この文章は回りくどいです。結論(要点)が最初にくるように書き直してください。
- 説得力の向上「〜だと思います」という曖昧な表現を避け、データに基づいた断定的な表現(「〜であることがデータから示唆されます」など)に書き換えてください。
- メール作成分析完了を上司に報告するメールの下書きを作成してください。添付ファイルがあること、要点、会議での報告希望日を含めてください。
- 想定Q&Aの作成この分析結果を発表した際、経営陣からどのようなツッコミ(質問)が来ると予想されますか?厳しめの質問を3つと、それに対する模範回答を用意してください。
- 比喩表現の生成サーバーの負荷分散の仕組みを、道路の交通整理やレジ待ち行列などに例えて、非エンジニアにわかりやすく説明してください。
Excel関数・マクロ支援
- VLOOKUPの解説Excelで、AシートのIDを元にBシートから商品名を引っ張ってくる数式(VLOOKUPまたはXLOOKUP)を教えてください。
- 条件付き書式Excelで、達成率が100%以上のセルを青、80%未満を赤にする条件付き書式の設定方法を教えてください。
- IF関数「もしA列が空白ならB列を表示、そうでなければA列を表示」というIF関数の式を教えてください。
- マクロ(VBA)作成指定したフォルダ内のすべてのCSVファイルを読み込み、1つのシートにまとめるExcel VBAマクロのコードを書いてください。
- テキスト操作関数セル内の「東京都新宿区…」から「東京都」の部分だけを取り除くExcel関数(SUBSTITUTEやRIGHTなど)を教えてください。
ツール活用(Spreadsheetなど)
- Google SheetsクエリGoogleスプレッドシートのQUERY関数を使って、A列が「完了」となっている行だけを別シートに表示する数式を教えてください。
- 正規表現抽出スプレッドシートで、セル内のテキストからメールアドレスだけを抽出するREGEXEXTRACT関数の記述例を教えてください。
- 翻訳関数A列にある英語の顧客コメントを、GOOGLETRANSLATE関数を使って一括で日本語に翻訳する数式を教えてください。
- 外部データ連携IMPORTXML関数を使って、指定したURLのWebページからタイトルタグ(<title>)の内容を取得する数式を教えてください。
- プロンプト自体の改善私が書いた「分析して」という指示は曖昧でした。より良い回答を得るために、このプロンプトをどのように改善すべきか、プロンプトエンジニアリングの観点から修正案を出してください。
まとめ:AIはあなたの「思考」を加速させるパートナー
以上、データ分析の現場で使えるプロンプト100選(相当のバリエーション)をご紹介しました。
これらを暗記する必要はありません。「こんなことができるんだ」と頭の片隅に置いておき、必要な時にこのページを開いてコピペ・改変して使ってみてください。
重要なのは、AIに「正解」を求めるのではなく、AIを「壁打ち相手」や「手足」として使い倒すことです。
- コードを書く時間はAIに任せる。
- 単純な集計作業はAIに任せる。
- あなたは、そこから導き出された数字の意味を考え、ビジネスの意思決定をすることに集中する。
この役割分担こそが、これからのデータ分析のスタンダードになります。さあ、今すぐ手元のデータを開き、最初のプロンプトを打ち込んでみてください。きっと、今まで見えていなかった「データの向こう側の景色」が見えてくるはずです。
次のステップ
まずは**第2章の「データの概要統計量」**を出力するプロンプトを、お手持ちのExcelデータで試してみませんか?驚くほど簡単に分析の第一歩が踏み出せます。