Name: CLIP 1 ViT-B 32 Multilingual
Brand: OpenAI

CLIP 1 ViT-B 32 Multilingual is OpenAI's language model. A multilingual variant of OpenAI's CLIP ViT-B/32 model that aligns images and text across multiple languages for cross-modal retrieval.

Specifications
Canonical ID	`openai-clip-1-vit-b-32-multilingual`
Type	Language
Status	Active
Creator	OpenAI
Input Modalities	Text
Output Modalities	Text
Parameters	0.14B
HuggingFace Likes	189
HuggingFace Downloads (30d)	121,418
HuggingFace Downloads (all-time)	4,943,344

Capabilities

Input1/5

Text✓

Image·

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
CLIP 1 ViT-B 32 Multilingual	—	—	—	—	Current
CLIP ViT-B 32	—	—	—	—	Available

Model IDs

deepinfra/sentence-transformers/clip-ViT-B-32-multilingual-v1
openai-clip-1-vit-b-32-multilingual