gpt-4o-mini-transcribe
द्वारा OpenAI · रिलीज़ 2025
OpenAI gpt-4o-mini-transcribe — तेज़, कम-लागत स्ट्रीमिंग ट्रांसक्रिप्शन।
gpt-4o-mini-transcribe
द्वारा संचालित OpenAI · Speech model
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
Not disclosed
अधिकतम आउटपुट
N/A
श्रेणी
स्पीच टू टेक्स्ट
अवलोकन
`gpt-4o-mini-transcribe` GPT-4o ऑडियो परिवार में OpenAI का छोटा, तेज़ स्पीच-टू-टेक्स्ट मॉडल है (platform.openai.com/docs/models/gpt-4o-mini-transcribe)। CallMissed इसे `/v1/audio/transcriptions` पर `model=gpt-4o-mini-transcribe` के रूप में OpenAI-संगत मल्टीपार्ट अपलोड के साथ एक्सपोज़ करता है। लागत-कुशल स्ट्रीमिंग के लिए अनुकूलित, कई कार्यों पर लेगेसी Whisper पर gpt-4o-transcribe जैसे लाभ बनाए रखता है।
OpenAI पूर्ण gpt-4o-transcribe से कम ऑडियो-टोकन प्राइस ($1.25 इनपुट / $5.00 आउटपुट प्रति मिलियन)। CallMissed STT $0.24 प्रति ऑडियो घंटा — हमारे कैटलॉग में सबसे सस्ता GPT-4o-क्लास स्ट्रीमिंग STT। स्नैपशॉट जैसे `gpt-4o-mini-transcribe-2025-12-15` OpenAI वर्ज़निंग; ग्राहक-सामना id अनवर्ज़न नाम।
लाइव कैप्शन, वॉइस एजेंट STT लेग, सपोर्ट एनालिटिक्स, उच्च-मात्रा कॉल ट्रांसक्रिप्शन जहाँ स्ट्रीमिंग आंशिक UX सुधारते हैं। वॉइस एजेंट वर्कर gpt-4o-transcribe* के लिए नेटिव स्ट्रीमिंग STT पसंद करता है — VAD-लपेटा बैच Whisper से कम एंड-ऑफ़-टर्न विलंबता।
इंटीग्रेशन अन्य STT जैसा: ऑडियो अपलोड, ज्ञात भाषा, JSON/text फ़ॉर्मैट। कोड-स्विचिंग और शोरग्रस्त टेलीफ़ोनी परीक्षण — मिनी चरम उच्चारण पर कम मज़बूत। ऑफ़लाइन बल्क सबसे कम लागत: `whisper-large-v3-turbo` या बैच `whisper`।
सीमाएँ: स्पीकर डायराइज़ेशन नहीं (`gpt-4o-transcribe-diarize`), Whisper-स्टाइल अनुवाद गारंटी नहीं, कठिन ऑडियो पर पूर्ण gpt-4o-transcribe से नीचे छत। 24/7 स्ट्रीम पर क्रेडिट — $0.24/घंटे पर भी घंटे जल्दी जमा।
एज पैटर्न: मोबाइल ऐप छोटे उच्चारण — सर्वोत्तम आंशिक विलंबता के लिए कुछ सेकंड से कम क्लिप।
पैमाने पर लागत: $0.24/ऑडियो-घंटा हमेशा-चालू मीटिंग बॉट — 1000 घंटे/माह ≈ $240 STT, LLM से पहले।
शोर मज़बूतता: कैफ़े/कार शोर परीक्षण; तनाव पर भराव हॉल्यूसिनेशन — कॉन्फ़िडेंस थ्रेशहोल्ड।
भाषा कवरेज: OpenAI मॉडल कार्ड; Indic-भारी वर्कलोड Sarvam Saaras स्ट्रीमिंग STT से साइड-बाई-साइड।
डुअल-राइट: प्रोडक्शन में हर कॉल पर दो STT बिना ज़रूरत न चलाएं — लागत दोगुनी। QA में शैडो मोड।
वॉइस एजेंट: सेशन में `stt_model=gpt-4o-mini-transcribe`; वर्कर नेटिव स्ट्रीमिंग, स्यूडो-लाइव Whisper बैचिंग नहीं।
अपग्रेड: एक्ज़ीक्यूटिव कॉल पर WER अस्वीकार्य तो फ़ीचर फ़्लैग से पूर्ण gpt-4o-transcribe।
स्टार्टअप: 2000 घंटे/माह — mini transcribe STT ≈ $480/माह $0.24/घंटे पर, फ्रीमियम मार्जिन। 10× वृद्धि पर प्राइसिंग पुनर्बातचीत।
मोबाइल SDK: डिवाइस पर AAC m4a, चंक बैकएंड, CallMissed स्ट्रीमिंग STT — सेल्युलर पर पूरे घंटे की फ़ाइल अपलोड से बचें।
QA: डिप्लॉयमेंट बदलाव पर फिक्स्चर ऑडियो पर ट्रांसक्रिप्ट diff।
सपोर्ट: "शब्द गायब" — पहले माइक गेन, फिर मॉडल, फिर भाषा। अधिकांश टिकट ऑडियो गुणवत्ता।
पार्टनर: Zapier/Make वेबहुक → CallMissed — साइज़ सीमा स्पष्ट (25 MB श्रेणी)।
एक्सेसिबिलिटी: mini transcribe कैप्शन WCAG AAA प्रसारण के लिए मानव समीक्षा — ड्राफ़ स्वचालित, प्रकाशन मानव।
रिसर्च: OpenAI mini transcribe को Whisper और पूर्ण gpt-4o-transcribe के बीच — अपने SKU (Basic/Pro/Enterprise STT) तदनुसार।
FinOps: टेनेंट, मॉडल, फ़ीचर फ़्लैग से STT घंटे — mini मात्रा टियर में; पूर्ण gpt-4o-transcribe प्रीमियम SKU; मिक्स अचानक बदलने पर अलर्ट। साप्ताहिक WER स्पॉट चेक। "कैप्शन एडिट दर" उत्तर दिशा मीट्रिक। लोड टेस्ट में प्रति API key समवर्ती स्ट्रीम सीमा। Edtech: छात्रों को मशीन-जनित कैप्शन और त्रुटि संभावना बताएं। DevRel: 60 सेकंड स्क्रीन रिकॉर्डिंग आंशिक कैप्शन अपडेट।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /hour | ₹24.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- सबसे कम-लागत gpt-4o STT
- स्ट्रीमिंग
तकनीकी विवरण
- मॉडल id: gpt-4o-mini-transcribe
ताकतें
- लागत-कुशल
- स्ट्रीमिंग
सीमाएं
- डायराइज़ेशन नहीं
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/transcriptions \ -F file=@audio.mp3 -F model=gpt-4o-mini-transcribe
एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: gpt-4o-mini-transcribe
gpt-4o-mini-transcribe अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।