Name: Grok Vision Beta
Brand: xAI

Grok Vision Beta is xAI's language model with a 8K context window and up to 8K output tokens, starting at $5.00 / 1M input and $15.00 / 1M output. A multimodal LLM from xAI with vision capabilities for understanding and reasoning about images, released in beta.

Specifications
Canonical ID	`xai-grok-vision-beta`
Type	Language
Status	Active
Creator	xAI
Providers	xAI
Context Window	8K tokens
Max Output	8K tokens
Input Modalities	Image
Output Modalities	Text

Capabilities

Input1/5

Text·

Image✓

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities2/13

Reasoning·

Adaptive Reasoning·

Function Calling✓

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search✓

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Pricing by Provider

Provider	Standard
Provider	Input $ / 1M	Output $ / 1M
xAI xai/grok-vision-beta	$5.00	$15.00

Cost Calculator

Preset:

Input tokens

Output tokens

Number of calls

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
Grok 4.3	2026-04-30	1.0M	$1.25	$2.50	Available
Grok 4.20	2026-03-31	2.0M	$1.25	$2.50	Available
Grok 4.20 Multi-Agent	2026-03-31	2.0M	$1.25	$2.50	Available
Grok 4.20 Multi-Agent Beta	2026-03-11	2.0M	$1.25	$2.50	Available
Grok 4.20 Non-Reasoning	2026-03-09	2.0M	$1.25	$2.50	Available
Grok 4.20 Reasoning	2026-03-09	2.0M	$1.25	$2.50	Available
Grok 4.1 Fast	2025-11-19	2.0M	$1.25	$2.50	Deprecated
Grok 4 Fast	2025-09-19	131K	$0.200	$0.500	Deprecated
Grok 4 Fast Non-Reasoning	2025-09-19	2.0M	$0.200	$0.500	Available
Grok 4	2025-07-09	256K	$1.25	$2.50	Deprecated
Grok Vision Beta	—	8K	$5.00	$15.00	Current

Grok Vision Beta

Capabilities

Pricing by Provider

Cost Calculator

Versions

Model IDs