Cum Alegem Modelele
Pentru Latență Minimă
Cartesia Sonic (80ms) + Deepgram Nova-2 (200ms)
Pentru Calitate Maximă
ElevenLabs Multilingual v2 + Whisper Large
Pentru Cost Optim
Azure Neural TTS + Deepgram Enhanced
TTS Models (Text-to-Speech)
| Provider | Model | Latență | Calitate | Limbi | Emoții | Preț |
|---|---|---|---|---|---|---|
| ElevenLabs | Turbo v2.5 | ~300ms | 9.5/10 | 29 | Da | $0.30/1K chars |
| ElevenLabs | Multilingual v2 | ~400ms | 9.8/10 | 29 | Da | $0.30/1K chars |
| PlayHT | PlayHT 2.0 | ~350ms | 9.2/10 | 25+ | Da | $0.20/1K chars |
| Cartesia | Sonic | ~80ms | 9.0/10 | 10+ | Limited | $0.15/1K chars |
| OpenAI | TTS-1-HD | ~500ms | 9.0/10 | 50+ | Nu | $0.030/1K chars |
| Azure | Neural TTS | ~200ms | 8.8/10 | 100+ | SSML | $0.016/1K chars |
| WaveNet | ~250ms | 8.7/10 | 40+ | SSML | $0.016/1K chars | |
| AWS | Polly Neural | ~200ms | 8.5/10 | 30+ | SSML | $0.016/1K chars |
ASR Models (Speech-to-Text)
| Provider | Model | WER | Latență | Streaming | Limbi | Preț |
|---|---|---|---|---|---|---|
| Deepgram | Nova-2 | 8.4% | ~200ms | Da | 36 | $0.0043/min |
| Deepgram | Enhanced | 12% | ~150ms | Da | 36 | $0.0145/min |
| OpenAI | Whisper Large | 5% | ~2s | Nu | 99 | $0.006/min |
| Speech-to-Text | 10% | ~300ms | Da | 125 | $0.006/min | |
| Azure | Speech Services | 11% | ~250ms | Da | 100+ | $0.016/min |
| AWS | Transcribe | 12% | ~500ms | Da | 37 | $0.024/min |
| AssemblyAI | Universal | 9% | ~300ms | Da | 99 | $0.00025/sec |
* WER = Word Error Rate (mai mic = mai bun). Prețurile sunt estimative și pot varia.
Kallina: Model Agnostic
Kallina suportă toate modelele de mai sus. Poți alege și schimba oricând în funcție de:
✓ Cerințele de latență
✓ Bugetul disponibil
✓ Limbile necesare
✓ Calitatea vocii dorită