gpt-4o-transcribe
द्वारा OpenAI · रिलीज़ 2025
OpenAI gpt-4o-transcribe — स्ट्रीमिंग समर्थन के साथ उच्च-सटीकता STT।
gpt-4o-transcribe
द्वारा संचालित OpenAI · Speech model
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
Not disclosed
अधिकतम आउटपुट
N/A
श्रेणी
स्पीच टू टेक्स्ट
अवलोकन
`gpt-4o-transcribe` OpenAI का GPT-4o-परिवार स्पीच-टू-टेक्स्ट मॉडल है — मूल Whisper एन्कोडर-डिकोडर के बजाय GPT-4o जनरेशन स्टैक पर ASR (platform.openai.com/docs/models/gpt-4o-transcribe)। CallMissed पर `/v1/audio/transcriptions` पर `model=gpt-4o-transcribe` पास करें। कई कोर्पोरा पर क्लासिक Whisper से उच्च सटीकता और मज़बूत भाषा हैंडलिंग, लाइव ऐप के लिए स्ट्रीमिंग-अनुकूल।
OpenAI मॉडल पेज पर Whisper से बेहतर शब्द त्रुटि दर और भाषा पहचान, ऑडियो टोकन में प्राइसिंग ($2.50 प्रति मिलियन इनपुट, $10.00 आउटपुट — CallMissed सरलीकृत STT दर कार्ड पर $0.40 प्रति ऑडियो घंटा)। STT मॉडल संदर्भ विंडो 16,000 टोकन, आउटपुट 2,000 तक — एकल-फ़ाइल ट्रांसक्रिप्शन के लिए पर्याप्त।
gpt-4o-transcribe तब उपयोग करें जब OpenAI की नवीनतम ASR गुणवत्ता CallMissed के एकीकृत API key के साथ चाहिए — स्ट्रीमिंग कैप्शन, लाइव मीटिंग बॉट, टेलीफ़ोनी जहाँ आंशिक ट्रांसक्रिप्ट मायने रखते हैं। Whisper अनुवाद एंडपॉइंट की जगह नहीं — एक शॉट में अंग्रेज़ी अनुवाद चाहिए तो Whisper या पोस्ट-प्रोसेस परीक्षण करें।
Azure Foundry gpt-4o-transcribe परिवार Whisper के साथ; हमारा डिप्लॉयमेंट OpenAI-संगत `/audio/transcriptions`, नाम `gpt-4o-transcribe`। रिस्पॉन्स फ़ॉर्मैट Whisper से अधिक सीमित — आमतौर `json` या `text` — सबटाइटल पाइपलाइन योजना बनाएं।
`gpt-4o-mini-transcribe` लागत-संवेदी स्ट्रीमिंग; `whisper` सबसे सस्ता बैच आर्काइव; `gpt-4o-transcribe-diarize` स्पीकर लेबल। वॉइस एजेंट में gpt-4o-transcribe LiveKit पाइपलाइन में नेटिव स्ट्रीम, बैच Whisper के VAD रैपर के बिना।
सीमाएँ: इस SKU पर डायराइज़ेशन नहीं, अनुवाद मोड गारंटी नहीं, बल्क ऑफ़लाइन पर टर्बो Whisper से प्रीमियम। उत्पादन कॉल सेंटर स्विच से पहले अपने उच्चारण/डोमेन पर WER सत्यापित करें।
स्ट्रीमिंग आर्किटेक्चर: VAD-लपेटा बैच Whisper के विपरीत, gpt-4o-transcribe लाइव कैप्शन के लिए आंशिक स्ट्रीम। WebSocket/SSE UI डिबाउंस — आंशिक बार-बार बदलते हैं।
WER सत्यापन: लेबल्ड ऑडियो सेट पर शब्द त्रुटि दर; `gpt-4o-mini-transcribe` और `nova-3` से तुलना।
टेलीफ़ोनी कोडेक: संकीर्ण 8 kHz PSTN किसी ASR को चुनौती — सावधानी से अपसैंपल; VoIP से वाइडबैंड Opus बेहतर।
अनुपालन लॉगिंग: ट्रांसक्रिप्ट में PCI हो सकता है — एनालिटिक्स वेयरहाउस में संग्रह से पहले रेडैक्ट।
डायराइज़ेशन इस SKU पर नहीं — `gpt-4o-transcribe-diarize` अनिवार्य लेबल के लिए।
फ़ॉलबैक: Azure STT 503 पर exponential backoff; वर्कर में `whisper-large-v3-turbo`।
घंटे बनाम टोकन: मार्केटिंग $/ऑडियो-घंटा; वित्त टोकन एक्सपोर्ट से सहसंबंध।
उत्पाद मैपिंग: मीटिंग असिस्टेंट आंशिक कैप्शन — UI हर 300 ms डिबाउंस; आर्काइव एक ही मॉडल। शिक्षा प्लेटफ़ॉर्म व्याख्यान कैप्शन; कॉल सेंटर सुपरवाइज़र कोचिंग।
OpenAI मॉडल कार्ड WER दावे — ग्राहकों को "सर्वोत्तम सटीकता" मार्केट करने से पहले अपने डोमेन पर पुनरुत्पादन। उच्चारण विविधता: अलग-अलग परीक्षण।
ऑडियो इंजीनियरिंग: उत्पादन में लॉसलेस इंटरमीडिएट; हर ट्रांसकोड जानकारी खोता है। Zoom निर्यात उच्चतम गुणवत्ता।
SDK: OpenAI Python `client.audio.transcriptions.create(model="gpt-4o-transcribe", file=f)` CallMissed बेस URL — OpenAI क्लाउड से न्यूनतम माइग्रेशन।
सुरक्षा: API key रोटेट; ट्रांसक्रिप्ट एन्क्रिप्टेड स्टोरेज; रिटेंशन (30/90/365 दिन)।
हाइब्रिड: रियलटाइम gpt-4o-transcribe, फिर `gpt-4.1` सारांश — STT और LLM खर्च अलग डैशबोर्ड।
रोडमैप: नए स्नैपशॉट (`gpt-4o-transcribe-YYYY-MM-DD`) — चेंजलॉग सब्सक्राइब।
विलंबता SLA: पहला आंशिक अच्छे नेटवर्क पर सैकड़ों ms — ग्राहकों को SLA प्रकाशित करने से पहले अपने edge से p95। आंतरिक रनबुक: फ़ॉर्मैट, अधिकतम फ़ाइल, WER रिग्रेशन एस्केलेशन। ग्राहक डॉक्स में ठीक `model=gpt-4o-transcribe` — STT माइग्रेशन में टाइपो शीर्ष विफलता। सेल्स में लैपटॉप माइक से लाइव आंशिक कैप्शन डेमो।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /hour | ₹40.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- स्ट्रीमिंग ट्रांसक्रिप्शन
- Whisper से उच्च सटीकता
तकनीकी विवरण
- मॉडल id: gpt-4o-transcribe
ताकतें
- स्ट्रीमिंग
- मज़बूत सटीकता
सीमाएं
- अनुवाद मोड नहीं
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/transcriptions \ -F file=@audio.mp3 -F model=gpt-4o-transcribe
एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: gpt-4o-transcribe
gpt-4o-transcribe अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।