Name: CLIP ViT-B 32
Brand: OpenAI

CLIP ViT-B 32 is OpenAI's language model. OpenAI's CLIP model using a Vision Transformer B/32 backbone for zero-shot image classification and image-text similarity.

Specifications
Canonical ID	`openai-clip-vit-b-32`
Type	Language
Status	Active
Creator	OpenAI
Input Modalities	Text
Output Modalities	Text

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
CLIP 1 ViT-B 32 Multilingual	—	—	—	—	Available
CLIP ViT-B 32	—	—	—	—	Current

Model IDs

deepinfra/sentence-transformers/clip-ViT-B-32
openai-clip-vit-b-32