ASR Benchmark Report

OpenAI vs Deepgram
Multilingual Kitchen Audio

dateMay 31, 2026 clips8 languagesEN · KO models2

Summary

openai-gpt4o-transcribe wins on accuracy (lowest CER). deepgram-nova-3 is cheapest per minute. deepgram-nova-3 has the lowest latency.

Model Results

openai-gpt4o-transcribe

0.0528

CER

0.1135

WER

0.9742

Loanword Acc

1.0000

Composite

latency4.01s avg cost$0.04728 $/min$0.0060

deepgram-nova-3

0.0773

CER

0.1784

WER

0.9710

Loanword Acc

0.0000

Composite

latency1.97s avg cost$0.04098 $/min$0.0052

Excellent (CER ≤ 0.05) Good (CER ≤ 0.10) Needs improvement (> 0.10)

Highlighted rows are noisy clips. Lat = API latency in seconds.

Average CER on clean vs noisy clips. Lower Δ = more noise-robust.

Model	Clean avg CER	Noisy avg CER	Degradation Δ
openai-gpt4o-transcribe	0.0440	0.0660	+0.0221
deepgram-nova-3	0.0633	0.0969	+0.0336

Cost = audio duration × price/min. Latency = API response time only — rate-limit pauses excluded.

Model	$/min	Audio	Est. cost	Avg latency	Total latency
openai-gpt4o-transcribe	$0.0060	7.88 min	$0.047279	4.01s	32.10s
deepgram-nova-3	$0.0052	7.88 min	$0.040975	1.97s	15.75s

CER — Character Error Rate

Primary metric for Korean. Spaces stripped before comparison — Korean spacing is inconsistent across models. Follows KsponSpeech evaluation standard.

WER — Word Error Rate

Secondary metric. Less reliable for Korean due to ambiguous word boundaries. Use CER as primary for Korean content.

Loanword Accuracy

Accuracy on English loanwords and code-switched terms (오븐, 레시피, 간 맞추기). Critical for kitchen use case.

Composite Score

Weighted: CER 55% + WER 30% + Loanword 15%. Relative between models. Speed excluded — measures API latency, not model quality.