AIエージェントのテスト観点と評価基準を整理しよう

公開日 : 2026.05.28

この記事で学べること
この記事のゴール
AIエージェントのテストで押さえておきたいこと
テストのステップ全体像
STEP 1：テストケースを作成する
STEP 2：評価指標を選定する
まとめ
参考リソース

この記事で学べること

AIエージェントのテストで押さえておきたい考え方
AIエージェントに対する 8 つのテスト観点
テストケースの作成方法
評価基準（メトリクス）の考え方

この記事のゴール

この記事のゴールは「テスト観点と評価基準を理解し、テスト評価シートを作成する」ことです。

この記事の成果物：テスト評価シート

AIエージェントのテストで押さえておきたいこと

AIエージェントは同じ質問でも返答の表現が毎回異なる場合があります。そのため、テストでは以下の考え方が基本になります。

❌ 「この入力に対して、この文字列が返ってくれば OK」
✅ 「この入力に対して、期待する情報が含まれた適切な応答が返ってくればOK」

回答に何が含まれているか、指示通りに動作したかを多角的に評価することが重要です。

テストのステップ全体像

AIエージェントのテストは、以下の 5 つのステップで進めます。この記事では STEP 1〜2を扱います。STEP 3〜5 は次の記事で解説します。

STEP 1：テストケースを作成する
STEP 2：評価指標を選定する

STEP 3：テストセンターでバッチテストを実行する
STEP 4：人による評価とプレビューによる詳細確認
STEP 5：結果をレビューして改善する

テストセンターを活用することで、バッチテストを効率的に進められます。ただしすべての観点をツールで評価できるわけではないため、人によるテストも必要です。ツールと人を組み合わせることで、テストを効率化しながら AIエージェントの品質を高めていきましょう。

STEP 1：テストケースを作成する

AIエージェントの 8 つのテスト観点

AIエージェントのテストは多角的な視点で評価する必要があります。観点を整理すると、以下の 8 つになります。

① UX（ユーザー体験）
利用者の目的を達成できているか、回答内容が正確か、回答が明確な表現になっているか。

② 応答の精度
同じことを質問していても、利用者によって様々な表現が使われます。そのような表現のバリエーションがあっても、利用者の意図を正しく理解して回答できるか。

③ 会話の連続性（マルチターン）
複数のやり取りを経ても、前の会話の文脈・コンテキストを維持して対応できているか。

④ エラー対応
フローや Apex でエラーが起きた場合に利用者へ適切なメッセージを返せるか。また対応できなかった場合に担当者へ転送するといった、適切なフォールバック処理がされているか。

⑤ セキュリティ
本来アクセス権限のないデータが利用者に返されていないか、機密情報が公開されていないか。また悪意のある入力（プロンプトインジェクション）に対して適切に対応できているか。

⑥ 適切な対応
無意味・不適切な発言に対して、「対応できません」「担当者に転送します」といった適切な対応ができるか。

⑦ コンプライアンス
偏った表現や有害な表現を含む回答をしていないか。

⑧ パフォーマンス
エージェントの回答速度が利用者にとって許容できる範囲か。

これらの観点をもとにテスト評価シートを作成しますが、必ずしもすべての観点でテストする必要はありません。ユースケースや優先度に合わせて、必要な観点を選んでテストケースを作成していきましょう。

テスト評価シートを作成する

8 つの観点をもとに、テスト評価シートを作成します。テスト評価シートとは「どんな発言に対して、どんな動作・回答が返ってくれば合格か」を一覧にしたものです。

以下 4 つの要素を含めると良いでしょう。

発話（ Utterance ）：ユーザーの入力（質問・依頼）
期待するサブエージェント：この発言で選ばれるべきサブエージェント
期待するアクション：実行されるべきアクション
期待する結果：応答に含まれるべき内容（自然言語で記述）

テストケース作成時のポイント

テストケースの作成時は、以下の点を確認しましょう。

カバー率：AIエージェントが担当する全サブエージェントと主要なユースケースをカバーできているか
表現の多様性：同じ意図でも異なる言い回し・表現のバリエーションが含まれているか
マルチターン：複数回のやり取りを経ても文脈を維持して対応できるか確認するシナリオが含まれているか

テスト評価シートは業務部門と一緒に作成することをお勧めします。テストケースの正否は、システムとしての正確さだけでなく「業務としてこの回答で良いか」という観点も必要で、それは業務部門にしか判断できないからです。

テストケースの自動生成について

テストセンターを使用すると、AIエージェントのサブエージェント・アクションや、AIエージェントが Agentforce データライブラリに接続されている場合はそのコンテンツをもとに、テストケースを自動で生成することもできます。自動生成したシナリオをベースに業務部門と一緒に内容を確認・補完する形で進めると効率的です。

参考

STEP 2：評価指標を選定する

テストを実行する前に、「何をもって合格とするか」の評価基準を決めておきましょう。

評価指標

評価指標として、AI コンポーネントのテストで一般的に使用されるメトリクスは以下の通りです。

品質
回答の正確性、タスク完了率、など。AIエージェントが期待通りの動作・回答をしているかを測ります。

パフォーマンス
回答表示までの時間、会話終了までの平均応答数など。利用者にとって許容できる速度・効率で動作しているかを測ります。

コスト
クレジットの消費量など。運用コストが想定範囲内に収まっているかを確認します。

安全性
セキュリティ違反率、有害な回答の頻度、ガイドライン遵守率など。安全・安心に運用できているかを測ります。

合格基準についてはプロジェクトの要件に合わせて設定します。数値化が難しい「UX」や「コンプライアンス」は、業務部門や法務担当者のレビューによる承認を基準とするのが現実的です。

まとめ

AIエージェントのテストは、UX や応答の精度、セキュリティなど多角的な観点で評価する必要があります。すべての観点でテストする必要はなく、ユースケースに合わせて観点を選び、テスト評価シートと合格基準を事前に準備しておくことが重要です。次の記事では、テストセンターを使ったテストの実行方法と、結果をもとに改善する方法を解説します。

参考リソース