Name: Llama 3.2 90B Vision
Brand: Meta

Llama 3.2 90B Vision is Meta's language model. Meta's 90B pre-trained vision-language model from the Llama 3.2 series, enabling large-scale image-text-to-text multimodal generation.

Specifications
Canonical ID	`meta-llama-3-2-90b-vision`
Type	Language
Status	Active
Creator	Meta
Input Modalities	ImageText
Output Modalities	Text
Parameters	90B

Capabilities

Input2/5

Text✓

Image✓

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Llama 3.3 70B Instruct	2024-12-06	131K	$0.100	$0.200	Available
Llama 3.2 3B Instruct	2024-09-25	131K	$0.015	$0.020	Deprecated
Llama 3.2 1B Instruct	2024-09-25	131K	$0.027	$0.080	Deprecated
Llama 3.1 405B Instruct	2024-07-23	131K	$0.120	$0.300	Deprecating
Llama 3.1 70B Instruct	2024-07-23	131K	$0.100	$0.100	Available
Llama 3.1 8B Instruct	2024-07-23	200K	$0.020	$0.030	Available
Llama 3.1 70B	2024-07-23	128K	$0.600	$0.600	Available
Llama 3.1 8B	2024-07-23	131K	$0.030	$0.050	Available
Llama 3 70B Instruct	2024-04-18	131K	$0.120	$0.300	Available
Llama 3 8B Instruct	2024-04-18	32K	$0.030	$0.040	Available
Llama 3.2 90B Vision	—	—	—	—	Current

Llama 3.2 90B Vision

Capabilities

Versions

Model IDs