Name: Step Audio 2.5 TTS
Brand: StepFun

Step Audio 2.5 TTS is StepFun's text to speech model. A text-to-speech model from StepFun's Step Audio 2.5 generation, designed for high-quality speech synthesis in real-time and production audio applications.

Specifications
Canonical ID	`step-audio-2-5-tts`
Type	Text to Speech
Status	Active
Creator	StepFun
Input Modalities	Text
Output Modalities	Audio

Benchmarks
Elo Rating	1181 #69

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text·

Image·

Audio✓

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Step Audio 2.5 TTS	—	—	—	—	Current
Step Audio EditX	—	—	—	—	Available

Model IDs

step-audio-2-5-tts

step-audio-2.5-tts

Step Audio 2.5 TTS

CapabilitiesAPIGET/api/v1/models/step-audio-2-5-tts

VersionsAPIGET/api/v1/models?family=step-audio

Model IDsAPIGET/api/v1/models/step-audio-2-5-tts

Capabilities

Versions

Model IDs