AI Evaluates AI
Un LLM evaluator analizează conversațiile agentului și oferă scoruri obiective pe criterii predefinite. Scalează QA de la sample la 100%.
Evaluation Criteria
Relevance
25%Răspunsul e relevant la întrebare?
Accuracy
25%Informațiile sunt corecte?
Helpfulness
20%Răspunsul ajută clientul?
Tone
15%Tonul e profesional și empatic?
Conciseness
15%Răspunsul e la obiect?
Evaluation Prompt
You are an expert evaluator for voice AI agents.
Evaluate the following conversation on these criteria:
1. Relevance (0-10): Does the response address the question?
2. Accuracy (0-10): Is the information correct?
3. Helpfulness (0-10): Does it help the customer?
4. Tone (0-10): Is it professional and empathetic?
5. Conciseness (0-10): Is it clear and to the point?
Conversation:
{conversation}
Provide scores and brief justification for each.
Final verdict: PASS (avg >= 7) or FAIL (avg < 7)Evaluation Output
Relevance
9/10
Accuracy
10/10
Helpfulness
8/10
Tone
9/10
Conciseness
7/10
OverallPASS - 8.6/10
Comparative Evaluation
Compară versiuni de agent sau răspunsuri alternative:
Response A
"Mâine la 14:00 e perfect! Vă confirm programarea."
Winner - more conciseResponse B
"Am verificat calendarul și mâine la ora 14:00 avem..."
Longer, same information