AI Models Database

173 models across text, image, audio & embedding

All 173 Text 142 Image 19 Embedding 7 TTS 3 STT 2

2 models

Dia 1.6B

Multi-speaker dialogue TTS with non-verbal sounds (laughs, sighs, coughs). Voice cloning via audio prompt conditioning. Best model for scripted dialogue and podcast generation.

Kokoro 82M

Latest

hexgrad

TTS Local

Ultra-lightweight TTS model. Under $1 per million characters. 54 pre-built voices across 8 languages. Apache 2.0 for commercial deployment. 8.9M+ monthly HuggingFace downloads.