Name: Multimodal Embedding
Brand: Google

Multimodal Embedding is Google's embedding model with a 2K context window, starting at $0.800 / 1M input. A multimodal embedding model that encodes both text and images into a shared vector space for cross-modal retrieval and similarity tasks.

Specifications
Canonical ID	`google-multimodal-embedding`
Type	Embedding
Status	Active
Creator	Google
Providers	Google Vertex AI
Context Window	2K tokens
Input Modalities	Text
Output Modalities	Embedding
Embedding Dimensions	768

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text·

Image·

Audio·

Video·

Embedding✓

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Pricing by Provider

Provider	Standard
Provider	Input $ / 1M
Google Vertex AI multimodalembedding@001	$0.800

Cost Calculator

Preset:

Input tokens

Output tokens

Number of calls

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Text Embedding 5	2024-08-01	2K	$0.025	—	Available
Embed 4	2025-10-02	128K	$0.120	$0.470	Available
Embed 4 Img	—	—	$0.470	—	Available
Embed 4 Txt	—	—	$0.120	—	Available
Text Embedding 4	—	2K	$0.100	—	Deprecated
Voyage 4	—	32K	$0.060	—	Available
Voyage 4 Large	—	32K	$0.120	—	Available
Voyage 4 Lite	—	32K	$0.020	—	Available
Voyage 3.5	2025-05-20	32K	$0.060	—	Available
Voyage 3.5 Lite	2025-05-20	32K	$0.020	—	Available
Multimodal Embedding	—	2K	$0.800	—	Current

Multimodal Embedding

Capabilities

Pricing by Provider

Cost Calculator

Versions

Model IDs