Name: PaddleOCR VL
Brand: PaddlePaddle (Baidu)

PaddleOCR VL is PaddlePaddle (Baidu)'s image to text model with a 16K context window and up to 16K output tokens, starting at $0.02 / 1M input and $0.02 / 1M output. A vision-language model from PaddlePaddle tailored for document parsing and optical character recognition across diverse document layouts.

Specifications
Canonical ID	`paddlepaddle-paddleocr-vl`
Type	Image to Text
Status	Active
Creator	PaddlePaddle (Baidu)
Providers	Novita
Context Window	16K tokens
Max Output	16K tokens
Input Modalities	Image
Output Modalities	Text

Capabilities

Input1/5

Text·

Image✓

Audio·

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Pricing by Provider

US Dollar ($)

Per 1M tokens

Provider	Standard
Provider	Input $ / 1M	Output $ / 1M
Novita `novita/paddlepaddle/paddleocr-vl`	$0.02	$0.02

Cost Calculator

US Dollar ($)

Preset:

Input tokens

Output tokens

Number of calls

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
PaddleOCR VL	—	16K	$0.020	$0.020	Current
PaddleOCR 0.9B VL	—	—	—	—	Available

Model IDs

novita/paddlepaddle/paddleocr-vl

paddlepaddle-paddleocr-vl

paddlepaddle/paddleocr-vl

PaddleOCR VL

CapabilitiesAPIGET/api/v1/models/paddlepaddle-paddleocr-vl

Pricing by ProviderAPIGET/api/v1/models/paddlepaddle-paddleocr-vl/pricing

Cost CalculatorAPIGET/api/v1/models/paddlepaddle-paddleocr-vl/pricing/calculate?input_tokens=1000000&output_tokens=500000

VersionsAPIGET/api/v1/models?family=paddleocr

Model IDsAPIGET/api/v1/models/paddlepaddle-paddleocr-vl

Capabilities

Pricing by Provider

Cost Calculator

Versions

Model IDs