Name: Sonic 3
Brand: Cartesia

Sonic 3 is Cartesia's text to speech model. A low-latency TTS model supporting 40+ languages with accent localization and emotional expressiveness controls.

Specifications
Canonical ID	`cartesia-sonic-3`
Type	Text to Speech
Status	Active
Creator	Cartesia
Input Modalities	Text
Output Modalities	Audio

Benchmarks
Elo Rating	1082 #177

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text·

Image·

Audio✓

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Sonic 3	—	—	—	—	Current
Sonic 3.5	—	—	—	—	Available
Sonic English	—	—	—	—	Available

Model IDs

cartesia-sonic-3

cartesia-sonic-3-sagemaker

sonic3

Sonic 3

CapabilitiesAPIGET/api/v1/models/cartesia-sonic-3

VersionsAPIGET/api/v1/models?family=sonic

Model IDsAPIGET/api/v1/models/cartesia-sonic-3

Capabilities

Versions

Model IDs