Name: Phi-4 Multimodal
Brand: Microsoft

Phi-4 Multimodal is an AI model from Microsoft. A multimodal Phi-4 model supporting text, image, and audio inputs for versatile instruction-following across modalities.

Specifications
Canonical ID	`microsoft-phi-4-multimodal`
Status	Active
Creator	Microsoft

Benchmarks
Intelligence Index	4.5 #422
MMLU-Pro	0.5 #278
GPQA	0.3 #429
HLE	0.0 #374
LiveCodeBench	0.1 #279
AIME	0.1 #124
Time to First Token	0.36s #255
SciCode	0.1 #413
MATH-500	0.7 #134
Output TPS	18.4 #247

Capabilities

Input0/5

Text·

Image·

Audio·

Video·

PDF·

Output0/5

Text·

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Phi-4 Mini Instruct	2025-10-17	131K	$0.075	$0.300	Available
Phi-4	2025-01-10	16K	$0.070	$0.140	Available
Phi-4 Multimodal	—	—	—	—	Current
Phi-4 Mini	—	—	—	—	Available
Phi-4 Eagle	—	—	—	—	Available
Phi-4 Mini MM	—	—	—	—	Available
Phi-4 Mini Reasoning	—	131K	$0.080	$0.320	Available
Phi-4 Multimodal Instruct	—	131K	$0.080	$0.320	Available
Phi-4 Reasoning	—	33K	$0.125	$0.500	Available
Phi-4 Reasoning Plus	—	—	—	—	Available
Phi-3 Mini	—	—	—	—	Available

Model IDs

microsoft-phi-4-multimodal

phi-4-multimodal

Phi-4 Multimodal

CapabilitiesAPIGET/api/v1/models/microsoft-phi-4-multimodal

VersionsAPIGET/api/v1/models?family=phi

Model IDsAPIGET/api/v1/models/microsoft-phi-4-multimodal

Capabilities

Versions

Model IDs