Name: Fun TTS Realtime
Brand: Fun

Fun TTS Realtime is Fun's text to speech model. A real-time text-to-speech model from Alibaba's Fun platform, designed for low-latency streaming audio synthesis.

Specifications
Canonical ID	`fun-tts-realtime`
Type	Text to Speech
Status	Active
Creator	Fun
Input Modalities	Text
Output Modalities	Audio

Benchmarks
Elo Rating	1205 #51

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text·

Image·

Audio✓

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Inworld Realtime TTS 2	—	—	—	—	Available
Step TTS 2	—	—	—	—	Available
StyleTTS 2	—	—	—	—	Available
TTS HD 2.5	—	—	—	—	Available
TTS 1	2023-11-06	—	$15.00	—	Available
TTS 1 HD	2023-11-06	—	$30.00	—	Available
Inworld Realtime TTS 1.5 Max	—	—	—	—	Available
Inworld Realtime TTS 1.5 Mini	—	—	—	—	Available
Inworld TTS 1 Max	—	—	—	—	Available
Inworld TTS 1.5 Max	—	—	—	—	Available
Fun TTS Realtime	—	—	—	—	Current

Model IDs

fun-realtime-tts

fun-tts-realtime

Fun TTS Realtime

CapabilitiesAPIGET/api/v1/models/fun-tts-realtime

VersionsAPIGET/api/v1/models?family=tts

Model IDsAPIGET/api/v1/models/fun-tts-realtime

Capabilities

Versions

Model IDs