Name: Voyage Multimodal 3.5
Brand: Voyage

Voyage Multimodal 3.5 is Voyage's language model. A multimodal embedding model built for retrieval over interleaved text and images—including screenshots, PDFs, tables, and figures—for cross-modal search applications.

Specifications
Canonical ID	`voyage-multimodal-3-5`
Type	Language
Status	Active
Creator	Voyage
Input Modalities	Text
Output Modalities	Text

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Voyage Multimodal 3.5	—	—	—	—	Current
Qwen2.5 VL 72B Instruct	2025-02-01	131K	$0.130	$0.400	Available
Qwen2.5 VL 32B Instruct	—	128K	$0.200	$0.600	Available
Qwen2.5 VL 3B Instruct	—	128K	$0.200	$0.200	Available
Qwen2.5 VL 7B Instruct	—	128K	$0.200	$0.200	Available
Rolm OCR	—	128K	$0.200	$0.200	Available

Model IDs

accounts/fireworks/models/voyage-multimodal-3-5

voyage-multimodal-3-5

Voyage Multimodal 3.5

CapabilitiesAPIGET/api/v1/models/voyage-multimodal-3-5

VersionsAPIGET/api/v1/models?family=qwen2_5_vl

Model IDsAPIGET/api/v1/models/voyage-multimodal-3-5

Capabilities

Versions

Model IDs