Name: CaiT XXS36 384
Brand: Meta

CaiT XXS36 384 is Meta's image to text model. An extra-extra-small CaiT image classification model with 36 layers and 384px resolution for compact high-resolution visual recognition.

Specifications
Canonical ID	`meta-cait-xxs36-384`
Type	Image to Text
Status	Active
Creator	Meta
Input Modalities	Image
Output Modalities	Text

Capabilities

Input1/5

Text·

Image✓

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
CaiT XXS36 384	—	—	—	—	Current
CaiT M36 384	—	—	—	—	Available
CaiT M48 448	—	—	—	—	Available
CaiT S 24 224	—	—	—	—	Available
CaiT S24 384	—	—	—	—	Available
CaiT S36 384	—	—	—	—	Available
CaiT XS24 384	—	—	—	—	Available
CaiT XXS24 224	—	—	—	—	Available
CaiT XXS24 384	—	—	—	—	Available
CaiT XXS36 224	—	—	—	—	Available

CaiT XXS36 384

Capabilities

Versions

Model IDs