Test in the Dark
Shadow testing rulează versiunea nouă în paralel cu producția. Același input, dar output-ul nou e doar înregistrat, nu trimis clientului.
How Shadow Testing Works
Caller Input
Client spune: “Vreau să programez pentru mâine”
Production (v2.4) - LIVE
Response trimis clientului:
“Perfect, pentru ce oră doriți?”
Shadow (v2.5) - LOGGED ONLY
Response înregistrat dar ne-trimis:
“Sigur! Pentru mâine am disponibil...”
Compare & Analyze
Ambele răspunsuri sunt comparate offline
Shadow Comparison Results
v2.5 Shadow Analysis (10,000 calls)
Last 24 hoursShadow produced same/equivalent response
Divergence Analysis
Where Versions Differ
Intent Classification (+3.2% different)
v2.5 clasifies “poate mâine?” as booking_intent vs unclear_intent
Improvement - more confident classificationResponse Length (+15% longer)
v2.5 provides more detailed availability information
Neutral - needs user feedbackEntity Extraction (2.1% errors)
v2.5 sometimes misparses compound dates like “marți sau miercuri”
Regression - needs fix before launchShadow Test Configuration
# shadow-test-config.yaml
shadow:
enabled: true
percentage: 100 # All traffic gets shadowed
version: v2.5.0-rc1
comparison:
metrics:
- intent_match
- entity_match
- response_similarity
- latency_delta
evaluator:
type: llm_judge
model: gpt-4
criteria:
- accuracy
- helpfulness
- tone
logging:
store: s3://shadow-results/
retention: 30d
include_audio: false
include_transcript: true
alerts:
regression_threshold: 5%
latency_increase: 200msUse Cases
LLM Model Upgrade
Testezi GPT-4 vs GPT-4-turbo pe trafic real pentru a compara quality vs cost vs speed.
Prompt Engineering
Compari prompt nou cu cel vechi pentru a vedea impact înainte de deploy.
New Feature Validation
Validezi că feature nou nu strică flows existente pe cazuri reale.
Performance Testing
Măsori latency nouă pe load real fără să afectezi experiența clientului.