Name: Whisper
Brand: OpenAI

Whisper is

OpenAI's speech to text model, available from 2 providers, starting at $N/A / 1M input and $N/A / 1M output. A general-purpose ASR model trained on diverse multilingual audio data, capable of speech recognition, translation, and language identification.

Spec
Canonical ID	`openai-whisper-1`
Type	Speech to Text
Status	Active
Creator	OpenAI
Providers	Microsoft Azure AI Foundry OpenAI
Input Modalities	Audio
Output Modalities	Text

Capabilities

Input1/5

Text·

Image·

Audio✓

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Pricing by Provider

Provider	Standard
Provider	Audio In $ / 1M	Audio Out $ / 1M
Azure AI Foundry whisper-1	$0.000100	$0.000100
OpenAI whisper-1	$0.0060	$0.000100

Cost Calculator

Preset:

Input tokens

Output tokens

Number of calls

Compares every provider & tier in USD

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Whisper 3	—	4K	—	—	Available
Whisper 3 Large	—	—	$0.000	$0.000	Available
Whisper 3 Large Turbo	—	—	$0.000	$0.000	Available
Whisper 3 Turbo	—	4K	—	—	Available
Whisper 2 Large	—	—	—	—	Available
Whisper	—	—	$0.000	$0.000	Current
Whisper	—	—	$0.000	$0.000	Available
Whisper Base	—	—	$0.000	$0.000	Available
Whisper Large	—	—	$0.000	$0.000	Available
Whisper Medium	—	—	$0.000	$0.000	Available
Whisper Small	—	—	$0.000	$0.000	Available

Whisper

Capabilities

Pricing by Provider

Cost Calculator

Versions

Model IDs