Name: MamMuT
Brand: Google

MamMuT is Google's image to text model. Google's Masked Multimodal Trajectory model for joint vision-language understanding using masked pretraining objectives.

Specifications
Canonical ID	`google-mammut`
Type	Image to Text
Status	Active
Creator	Google
Input Modalities	Image
Output Modalities	Text

Capabilities

Input1/5

Text·

Image✓

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
MamMuT	—	—	—	—	Current
Earth AI Imagery MamMuT EAP	—	—	—	—	Available

Model IDs

google-mammut

publishers/google/models/mammut

MamMuT

CapabilitiesAPIGET/api/v1/models/google-mammut

VersionsAPIGET/api/v1/models?family=mammut

Model IDsAPIGET/api/v1/models/google-mammut

Capabilities

Versions

Model IDs