Name: TRILL Audio Embedding
Brand: Google

TRILL Audio Embedding is Google's speech to text model. An audio embedding model based on the TRILL (Triplet Loss network for Representation of Independently-collected Longitudinal data) architecture, designed for non-semantic audio classification tasks.

Specifications
Canonical ID	`google-trill-audio-embedding`
Type	Speech to Text
Status	Active
Creator	Google
Input Modalities	Audio
Output Modalities	Text

Capabilities

Input1/5

Text·

Image·

Audio✓

Video·

PDF·

Output1/5

Text✓

Image·

Audio·

Video·

Embedding·

Capabilities0/13

Reasoning·

Adaptive Reasoning·

Function Calling·

Parallel Function Calling·

Structured Outputs·

Native JSON Schema·

Web Search·

URL Context·

Computer Use·

Code Execution·

File Search·

Prompt Caching·

Assistant Prefill·

Versions

Version	Released	Context	Input / 1M	Output / 1M	Status
TRILL Audio Embedding	—	—	—	—	Current
TRILL Distilled	—	—	—	—	Available

Model IDs

amazon_sagemaker/tensorflow-audioembedding-trill-3
google-trill-audio-embedding