Cum Alegem Modelele

Cartesia Sonic (80ms) + Deepgram Nova-2 (200ms)

ElevenLabs Multilingual v2 + Whisper Large

Azure Neural TTS + Deepgram Enhanced

TTS Models (Text-to-Speech)

Provider	Model	Latență	Calitate	Limbi	Emoții	Preț
ElevenLabs	Turbo v2.5	~300ms	9.5/10	29	Da	$0.30/1K chars
ElevenLabs	Multilingual v2	~400ms	9.8/10	29	Da	$0.30/1K chars
PlayHT	PlayHT 2.0	~350ms	9.2/10	25+	Da	$0.20/1K chars
Cartesia	Sonic	~80ms	9.0/10	10+	Limited	$0.15/1K chars
OpenAI	TTS-1-HD	~500ms	9.0/10	50+	Nu	$0.030/1K chars
Azure	Neural TTS	~200ms	8.8/10	100+	SSML	$0.016/1K chars
Google	WaveNet	~250ms	8.7/10	40+	SSML	$0.016/1K chars
AWS	Polly Neural	~200ms	8.5/10	30+	SSML	$0.016/1K chars

Provider	Model	WER	Latență	Streaming	Limbi	Preț
Deepgram	Nova-2	8.4%	~200ms	Da	36	$0.0043/min
Deepgram	Enhanced	12%	~150ms	Da	36	$0.0145/min
OpenAI	Whisper Large	5%	~2s	Nu	99	$0.006/min
Google	Speech-to-Text	10%	~300ms	Da	125	$0.006/min
Azure	Speech Services	11%	~250ms	Da	100+	$0.016/min
AWS	Transcribe	12%	~500ms	Da	37	$0.024/min
AssemblyAI	Universal	9%	~300ms	Da	99	$0.00025/sec

* WER = Word Error Rate (mai mic = mai bun). Prețurile sunt estimative și pot varia.

Kallina suportă toate modelele de mai sus. Poți alege și schimba oricând în funcție de:

✓ Cerințele de latență

✓ Bugetul disponibil

✓ Limbile necesare

✓ Calitatea vocii dorită

În demo poți compara calitatea vocilor în timp real.