Name: Step TTS 2
Brand: StepFun

Step TTS 2 is StepFun's text to speech model. A text-to-speech synthesis model from StepFun delivering natural-sounding voice generation with expressive prosody.

Specifications
Canonical ID	`step-tts-2`
Type	Text to Speech
Status	Active
Creator	StepFun
Input Modalities	Text
Output Modalities	Audio

Benchmarks
Elo Rating	1147 #104

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text·

Image·

Audio✓

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Step TTS 2	—	—	—	—	Current
Inworld Realtime TTS 2	—	—	—	—	Available
StyleTTS 2	—	—	—	—	Available
TTS HD 2.5	—	—	—	—	Available
TTS 1	2023-11-06	—	$15.00	—	Available
TTS 1 HD	2023-11-06	—	$30.00	—	Available
Inworld Realtime TTS 1.5 Max	—	—	—	—	Available
Inworld Realtime TTS 1.5 Mini	—	—	—	—	Available
Inworld TTS 1 Max	—	—	—	—	Available
Inworld TTS 1.5 Max	—	—	—	—	Available
Inworld TTS 1.5 Mini	—	—	—	—	Available

Model IDs

step-tts-2

step-tts-2-mar-2026

Step TTS 2

CapabilitiesAPIGET/api/v1/models/step-tts-2

VersionsAPIGET/api/v1/models?family=tts

Model IDsAPIGET/api/v1/models/step-tts-2

Capabilities

Versions

Model IDs