自社のLLMにプロンプトを出すのではダメなのか?

今、すべての経営幹部が問われている問いです。

正直な答え

「40代の富裕層顧客は金利が上昇したときにどう行動するか」という問いがあるとします。自社のLLMにセグメントプロファイルを与えれば、その答えは返ってくるでしょう。

その答えは自信に満ちていて、もっともらしく聞こえるでしょう。コストもかかりません。

しかしそれは、証拠に見せかけた幻覚です。その答えが導いた意思決定を検証する人は、なぜLLMがそう回答したのか、その根拠を説明できません。

3つのアプローチ、機能するのは1つ

デジタルツイン、合成ペルソナ、合成ツインは同じものの別名ではありません。このカテゴリは一見複雑そうに見えますが、実際はそうではありません。

合成ペルソナ

合成ツイン (LLM模倣)

デジタルツイン

ベース

実際の調査データから生成されたアーキタイプ

プロンプト1回、基礎データなし

特定の実在する1人の行動レプリカ。5時間以上のAIモデレートによるビデオインタビューから構築され、継続的に更新される

分析単位

平均値

モデルが生成した完全な架空の人物。実在する人物に基づかない

実在する1人の個人。インタビューまで遡れる

差異

設計上消失する（統合プロセスがオーディエンスの最も興味深い部分を平均化してしまう）

モデルのバイアスをすべて引き継ぐ

各ツインがそれぞれの声で回答するため、実際の分布が得られる

実測値との照合

確認できる元データなし

なし

あり。ツインの背後にいる実在する人物を通じて検証可能

監査可能性

限定的

なし

インタビューの発言まで検証可能

ベース

合成ペルソナ実際の調査データから生成されたアーキタイプ

合成ツイン (LLM模倣)プロンプト1回、基礎データなし

デジタルツイン特定の実在する1人の行動レプリカ。5時間以上のAIモデレートによるビデオインタビューから構築され、継続的に更新される

分析単位

合成ペルソナ平均値

合成ツイン (LLM模倣)モデルが生成した完全な架空の人物。実在する人物に基づかない

デジタルツイン実在する1人の個人。インタビューまで遡れる

差異

合成ペルソナ設計上消失する（統合プロセスがオーディエンスの最も興味深い部分を平均化してしまう）

合成ツイン (LLM模倣)モデルのバイアスをすべて引き継ぐ

デジタルツイン各ツインがそれぞれの声で回答するため、実際の分布が得られる

実測値との照合

合成ペルソナ確認できる元データなし

合成ツイン (LLM模倣)なし

デジタルツインあり。ツインの背後にいる実在する人物を通じて検証可能

監査可能性

合成ペルソナ限定的

合成ツイン (LLM模倣)なし

デジタルツインインタビューの発言まで検証可能

少数派の回答が重要なとき、つまり新しいものを早く取り入れる層や特殊なケース、専門的な例外を見つけたいとき、それができるのはデジタルツインだけです。ペルソナと合成ツインは使い捨てですが、デジタルツインは価値が増し続けるアセットです。

同じタスクでも、86% 対 57%。

定義された消費者セグメントの銀行選択を予測するという課題で直接比較を行い、実際の回答者パネリストと照合しました。

銀行選好の予測 · Brox vs LLM vs 汎用

実在する回答者パネリストに対して検証

Broxデジタルツイン

86%

単独LLM (セグメントプロンプト型)

57%

汎用AIベースライン (セグメント文脈なし)

48%

Source: Brox社内ベンチマーク、実在する回答者パネリストに対して検証。

他の検証済みタスク（価格感度、コンセプトテスト、メッセージの響き、乗り換え意向、広告クリエイティブのテスト）でも同様の差が確認されました。実在する人間のツインパネルは、すべてのタスクでLLMによる人物模倣を上回りました。

差が生まれる理由

理由は3つあります。

LLMは人々が書いたものを学習しているのであって、行動を学習しているわけではありません。

世界中のテキストは、人々が公の場で発言した内容に偏っています。しかしほとんどの意思決定は公の場では行われません。調査の回答、インタビューの文字起こし、行動プロンプト、デシジョンツリーといった、実際の人間がどう決断するかを示す生データは、どのフロンティアモデルの学習データにも含まれていません。

LLMによる人物模倣はばらつきを消し去ります。

「アトランタに住む47歳の看護師」になりきるようLLMに指示すると、返ってくるのはモデルがこれまで読み込んだすべての47歳の看護師の平均値です。実際の人間はもっと個性的で、鋭く、矛盾に満ちていて、そのぶん正確です。必要なのは平均ではなく、ばらつきです。

監査の痕跡がありません。

LLMは自分がなぜそう言ったのかを説明できません。実在する人物に一切確認していないからです。Broxではツインが予想外のことを言ったとき、元のインタビューの文字起こしを確認してその理由を見られます。

LLMはなぜそう言ったのかを説明できません。
デジタルツインは常にできます。

LLMが適切なツールであるとき

私たちはLLMに反対しているわけではありません。毎日Claudeを使っています。プロンプトで動くLLMが最適なタスクも存在します。マーケティングコピーの作成、会議の要約、コードのデバッグ、キャンペーンのブレインストーミング、テスト用クリエイティブのバリエーション生成などです。

しかし、実際の人間がどう行動するかを追跡可能な形で予測する必要がある意思決定、つまり薬剤上市、与信方針、広告出稿、価格設定、M&Aデューデリジェンス、危機シミュレーションなどには、LLMは適したツールではありません。

さらに詳しく

マーケティングやセールスのための美辞麗句を並べるよりも、私たち自身が製品をお見せしたいと思います。

humans@brox.ai

デモを予約する

まずはお問い合わせください。担当者よりご連絡し、オンラインミーティングを設定いたします。当日は、貴社のビジネス課題や調査したい内容について、ぜひお聞かせください。直接、お伺いできればと思います。ミーティングでは、Brox のデジタルツインの構築方法、信頼性の根拠、導入プロセス、費用体系、検証方法などをご説明します。その他、ご関心のあることは何でもお伝えください。投資対効果をすぐに実感していただけるはずです。

現在、米国、英国、日本、トルコでサービスを提供しており、まもなく中東およびアジア太平洋地域の多くの国や地域でも展開予定です。