Speed = Natural Conversation
O pauză de peste 1 secundă face conversația neplăcută. Latency testing identifică bottlenecks și asigură răspunsuri sub 500ms.
Latency Breakdown
ASR (Speech to Text)120ms
LLM Processing250ms
TTS (Text to Speech)80ms
Network Overhead50ms
Total End-to-End500ms
Latency Thresholds
<500ms
Excellent
Natural conversation flow
500-800ms
Acceptable
Slightly noticeable
>1000ms
Poor
Awkward pauses
Test Results by Scenario
| Scenario | P50 | P95 | P99 | Status |
|---|---|---|---|---|
| Simple greeting | 320ms | 450ms | 580ms | PASS |
| Booking with calendar check | 680ms | 890ms | 1120ms | MARGINAL |
| Complex query + DB lookup | 920ms | 1450ms | 2100ms | FAIL |
| Multi-turn context | 450ms | 620ms | 780ms | PASS |
Optimization Strategies
Streaming TTS
Începe playback-ul înainte de generarea completă. Reduce perceived latency cu 40%.
Response Caching
Cache pentru răspunsuri comune (greeting, confirmation). Latency <100ms.
Parallel Processing
ASR și context lookup în paralel. Salvează 150-200ms.
Filler Words
„Hmm", „Să văd..." în timp ce procesează. Masking pentru latență mare.
Continuous Monitoring
// latency-monitor.ts
const monitor = new LatencyMonitor({
thresholds: {
p50: 500,
p95: 800,
p99: 1200
},
alertOn: 'p95_breach',
window: '5m',
destinations: ['slack', 'datadog']
});
monitor.on('threshold_breach', (metrics) => {
console.log(`Latency breach: P${metrics.percentile} = ${metrics.value}ms`);
});