テスト結果をもとにAIエージェントの対応精度を改善しよう

公開日 : 2026.05.28

この記事で学べること
この記事のゴール
テストのステップ全体像（再掲）
STEP 3：テストセンターでバッチテストを実行する
STEP 4：人による評価とプレビューによる詳細確認
STEP 5：結果をレビューして改善する
まとめ
参考リソース

この記事で学べること

テストセンターとプレビュー機能を使ったテストの実行と検証方法
ツールによるテストと人によるテストの使い分け
テスト結果をもとにした改善の進め方

この記事のゴール

この記事のゴールは「テストを実行して評価結果をもとにブラッシュアップする方法を理解する」ことです。

テストのステップ全体像（再掲）

前の記事でテストの観点と評価基準の考え方を学びました。この記事では STEP 3〜5の進め方を解説します。

STEP 1：テストケースを作成する
STEP 2：評価指標を選定する
STEP 3：テストセンターでバッチテストを実行する
STEP 4：人による評価とプレビューによる詳細確認
STEP 5：結果をレビューして改善する

STEP 3：テストセンターでバッチテストを実行する

テストセンターは、複数のテストケースを一括で実行できる機能です。テストケースの自動生成から、回答評価・サブエージェント評価・アクション評価などの自動評価まで、AIエージェントのテストに必要な機能が揃っています。

テストセンターでテストを実行するには、以下の2つの方法でテストケースを用意します。

LLM で自動生成する：サブエージェントとアクションの設定をもとにテストケースを自動生成します。また、AIエージェントが Agentforce データライブラリに接続されている場合は、そのコンテンツからも生成できます。生成したテストケースはそのままテストセンターで実行できます
CSV でアップロードする：テストケースを CSV 形式で作成し、テストセンターにアップロードします

テストセンターでは、以下の 3 つをデフォルトで自動評価できます。回答評価は LLM を使用して回答品質を評価します。

回答評価（ Response Evaluation ）：応答に期待する内容が含まれているか
サブエージェント評価（ Subagent Evaluation ）：期待したサブエージェントが選択されたか
アクション評価（ Actions Evaluation ）：期待したアクションが実行されたか

さらに以下の品質評価を追加することも可能です。

完全性（ Completeness ）
一貫性（ Coherence ）
簡潔性（ Conciseness ）
遅延（ Latency ）

基本的な使い方や評価の詳細については、下記の公式ヘルプをご確認ください。

Help | Agentforce テストセンター

テストセンターの実行にはクレジットが消費されます。 Digital Wallet で消費状況を確認しておきましょう。また、テストセンターを実行するとデータが更新されるため、必ず Sandbox 環境で実行してください。

参考：Digital Wallet の活用

STEP 4：人による評価とプレビューによる詳細確認

ツールで評価できない観点は人が確認する

テストセンターで評価できない観点（UX・セキュリティ・コンプライアンスなど）は、人の目で確認します。観点によって評価できる担当者が異なるため、適切なメンバーを巻き込みながら進めましょう。

例：

UX・応答の適切さ：業務部門
会話の連続性：業務部門・システム部門
セキュリティ・プロンプトインジェクション：システム部門
コンプライアンス・表現の適切さ：業務部門・法務
パフォーマンス：システム部門

プレビューで原因を詳しく調べる

テストセンターで意図した結果にならなかった場合や詳細を確認したいときは、エージェントビルダーのプレビューを使います。プレビューではエージェントとの会話を通じて、サブエージェントの選択・アクションの実行・推論のプロセスをステップごとに確認できるため、どこに問題があるかを特定しやすくなります。

シミュレーションモード：データを変更せずに動作を確認できます。まず最初にこちらで確認しましょう
ライブテストモード：実際にアクションが実行され、データが変更されます。本番環境に近い条件で確認したいときに使います

尚、プレビューの実行にはクレジットが消費されます。詳細な使い方は下記のヘルプをご確認ください。

Help | Agentforce Builder でのプレビューとテスト

STEP 5：結果をレビューして改善する

問題の切り分けと修正方法

テストで問題が見つかったとき、やみくもに設定を変えるのではなく、問題を切り分けてから修正箇所を特定しましょう。

例１：サブエージェントの分類が間違っている

サブエージェントの名前と説明を見直しましょう。どのようなユーザーのリクエストを処理するかを具体的に記述し、キーワードや例を追加すると精度が上がります。なお、サブエージェントは 10 個以下、アクションも10個以下を推奨しているので、追加されている個数を確認し、それ以上だった場合には統合や分割を検討しましょう。

例②：アクションが呼び出されない・間違ったアクションが呼ばれる

まずサブエージェントの選択自体が正しいかを確認します。アクション名は自然言語で内容がわかる形にし、サブエージェントの指示にいつ呼び出すかを明確に記述しましょう。サブエージェントの指示とアクションの説明が矛盾していないかも確認してください。

例③：回答の内容が正しくない（ハルシネーション）

まず、参照しているナレッジなどのソースの内容を確認・修正しましょう。ソースに問題がない場合は、サブエージェントの指示に「データに存在しない情報を推測で回答しない」などの指示を追加します。

詳細なトラブルシューティングは下記をご確認ください。

Help | エージェントのトラブルシューティング

修正後は必ず再テストする

設定を変更したら、テストセンターで再テストを実行します。1つの修正が別のシナリオに影響することがあります。変更は 1 箇所ずつ行い、都度再テストする習慣をつけましょう。

修正後の確認ポイント：

修正対象のシナリオが合格になったか
他のシナリオに影響が出ていないか

改善サイクルとして定着させる

「テスト → 問題の切り分け → 修正 → 再テスト」のサイクルを継続することが、AIエージェントの品質を維持・向上させる基本です。テストセンターのバッチテストを活用することで、このサイクルを効率的に回すことができます。

まとめ

テストセンターを活用することでバッチテストを効率的に実行できます。ただし、すべての観点をカバーできるわけではないため、人によるテストも組み合わせながら「テスト → 問題の切り分け → 修正 → 再テスト」のサイクルを継続することが AI エージェントの品質を維持・向上させる基本です。

参考リソース