Test in the Dark

Shadow testing rulează versiunea nouă în paralel cu producția. Același input, dar output-ul nou e doar înregistrat, nu trimis clientului.

How Shadow Testing Works

Caller Input

Client spune: “Vreau să programez pentru mâine”

Input duplicated to both versions

Production (v2.4) - LIVE

Response trimis clientului:

“Perfect, pentru ce oră doriți?”

Shadow (v2.5) - LOGGED ONLY

Response înregistrat dar ne-trimis:

“Sigur! Pentru mâine am disponibil...”

Compare & Analyze

Ambele răspunsuri sunt comparate offline

Shadow Comparison Results

v2.5 Shadow Analysis (10,000 calls)

Last 24 hours

Response Match Rate87.3%

Shadow produced same/equivalent response

Better Response (per evaluator)8.2%

Worse Response4.5%

Divergence Analysis

Where Versions Differ

Intent Classification (+3.2% different)

v2.5 clasifies “poate mâine?” as booking_intent vs unclear_intent

Improvement - more confident classification

Response Length (+15% longer)

v2.5 provides more detailed availability information

Neutral - needs user feedback

Entity Extraction (2.1% errors)

v2.5 sometimes misparses compound dates like “marți sau miercuri”

Regression - needs fix before launch

Shadow Test Configuration

# shadow-test-config.yaml
shadow:
  enabled: true
  percentage: 100  # All traffic gets shadowed
  version: v2.5.0-rc1

comparison:
  metrics:
    - intent_match
    - entity_match
    - response_similarity
    - latency_delta

  evaluator:
    type: llm_judge
    model: gpt-4
    criteria:
      - accuracy
      - helpfulness
      - tone

logging:
  store: s3://shadow-results/
  retention: 30d
  include_audio: false
  include_transcript: true

alerts:
  regression_threshold: 5%
  latency_increase: 200ms

Use Cases

LLM Model Upgrade

Testezi GPT-4 vs GPT-4-turbo pe trafic real pentru a compara quality vs cost vs speed.

Prompt Engineering

Compari prompt nou cu cel vechi pentru a vedea impact înainte de deploy.

New Feature Validation

Validezi că feature nou nu strică flows existente pe cazuri reale.

Performance Testing

Măsori latency nouă pe load real fără să afectezi experiența clientului.

Risk-Free Testing

Shadow testing pentru validare pe trafic real.

Vezi Demo →

Shadow Testing