Name: LLaVA 1.5 7B HF
Brand: Llava Hf

LLaVA 1.5 7B HF is Llava Hf's image to text model. 7B multimodal vision-language model fine-tuned on GPT-generated instruction-following data, combining a visual encoder with a LLaMA/Vicuna language backbone.

Specifications
Canonical ID	`llava-hf-llava-1-5-7b-hf`
Type	Image to Text
Status	Active
Creator	Llava Hf
Input Modalities	Image
Output Modalities	Text

Capabilities

Input1/5

Text·

Image✓

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
LLaVA 1.5 7B HF	—	—	—	—	Current
FireLLaVA 13B	—	4K	$0.200	$0.200	Available
LLaVA Yi 34B	—	4K	$0.900	$0.900	Available

Model IDs

@cf/llava-hf/llava-1.5-7b-hf

llava-hf-llava-1-5-7b-hf

LLaVA 1.5 7B HF

CapabilitiesAPIGET/api/v1/models/llava-hf-llava-1-5-7b-hf

VersionsAPIGET/api/v1/models?family=llava

Model IDsAPIGET/api/v1/models/llava-hf-llava-1-5-7b-hf

Capabilities

Versions

Model IDs