स्पीच टू टेक्स्टstreaming

gpt-4o-transcribe

द्वारा OpenAI · रिलीज़ 2025

OpenAI gpt-4o-transcribe — स्ट्रीमिंग समर्थन के साथ उच्च-सटीकता STT।

स्पीच टू टेक्स्ट

gpt-4o-transcribe

द्वारा संचालित OpenAI · Speech model

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Not disclosed

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

`gpt-4o-transcribe` OpenAI का GPT-4o-परिवार स्पीच-टू-टेक्स्ट मॉडल है — मूल Whisper एन्कोडर-डिकोडर के बजाय GPT-4o जनरेशन स्टैक पर ASR (platform.openai.com/docs/models/gpt-4o-transcribe)। CallMissed पर `/v1/audio/transcriptions` पर `model=gpt-4o-transcribe` पास करें। कई कोर्पोरा पर क्लासिक Whisper से उच्च सटीकता और मज़बूत भाषा हैंडलिंग, लाइव ऐप के लिए स्ट्रीमिंग-अनुकूल।

OpenAI मॉडल पेज पर Whisper से बेहतर शब्द त्रुटि दर और भाषा पहचान, ऑडियो टोकन में प्राइसिंग ($2.50 प्रति मिलियन इनपुट, $10.00 आउटपुट — CallMissed सरलीकृत STT दर कार्ड पर $0.40 प्रति ऑडियो घंटा)। STT मॉडल संदर्भ विंडो 16,000 टोकन, आउटपुट 2,000 तक — एकल-फ़ाइल ट्रांसक्रिप्शन के लिए पर्याप्त।

gpt-4o-transcribe तब उपयोग करें जब OpenAI की नवीनतम ASR गुणवत्ता CallMissed के एकीकृत API key के साथ चाहिए — स्ट्रीमिंग कैप्शन, लाइव मीटिंग बॉट, टेलीफ़ोनी जहाँ आंशिक ट्रांसक्रिप्ट मायने रखते हैं। Whisper अनुवाद एंडपॉइंट की जगह नहीं — एक शॉट में अंग्रेज़ी अनुवाद चाहिए तो Whisper या पोस्ट-प्रोसेस परीक्षण करें।

Azure Foundry gpt-4o-transcribe परिवार Whisper के साथ; हमारा डिप्लॉयमेंट OpenAI-संगत `/audio/transcriptions`, नाम `gpt-4o-transcribe`। रिस्पॉन्स फ़ॉर्मैट Whisper से अधिक सीमित — आमतौर `json` या `text` — सबटाइटल पाइपलाइन योजना बनाएं।

`gpt-4o-mini-transcribe` लागत-संवेदी स्ट्रीमिंग; `whisper` सबसे सस्ता बैच आर्काइव; `gpt-4o-transcribe-diarize` स्पीकर लेबल। वॉइस एजेंट में gpt-4o-transcribe LiveKit पाइपलाइन में नेटिव स्ट्रीम, बैच Whisper के VAD रैपर के बिना।

सीमाएँ: इस SKU पर डायराइज़ेशन नहीं, अनुवाद मोड गारंटी नहीं, बल्क ऑफ़लाइन पर टर्बो Whisper से प्रीमियम। उत्पादन कॉल सेंटर स्विच से पहले अपने उच्चारण/डोमेन पर WER सत्यापित करें।

स्ट्रीमिंग आर्किटेक्चर: VAD-लपेटा बैच Whisper के विपरीत, gpt-4o-transcribe लाइव कैप्शन के लिए आंशिक स्ट्रीम। WebSocket/SSE UI डिबाउंस — आंशिक बार-बार बदलते हैं।

WER सत्यापन: लेबल्ड ऑडियो सेट पर शब्द त्रुटि दर; `gpt-4o-mini-transcribe` और `nova-3` से तुलना।

टेलीफ़ोनी कोडेक: संकीर्ण 8 kHz PSTN किसी ASR को चुनौती — सावधानी से अपसैंपल; VoIP से वाइडबैंड Opus बेहतर।

अनुपालन लॉगिंग: ट्रांसक्रिप्ट में PCI हो सकता है — एनालिटिक्स वेयरहाउस में संग्रह से पहले रेडैक्ट।

डायराइज़ेशन इस SKU पर नहीं — `gpt-4o-transcribe-diarize` अनिवार्य लेबल के लिए।

फ़ॉलबैक: Azure STT 503 पर exponential backoff; वर्कर में `whisper-large-v3-turbo`।

घंटे बनाम टोकन: मार्केटिंग $/ऑडियो-घंटा; वित्त टोकन एक्सपोर्ट से सहसंबंध।

उत्पाद मैपिंग: मीटिंग असिस्टेंट आंशिक कैप्शन — UI हर 300 ms डिबाउंस; आर्काइव एक ही मॉडल। शिक्षा प्लेटफ़ॉर्म व्याख्यान कैप्शन; कॉल सेंटर सुपरवाइज़र कोचिंग।

OpenAI मॉडल कार्ड WER दावे — ग्राहकों को "सर्वोत्तम सटीकता" मार्केट करने से पहले अपने डोमेन पर पुनरुत्पादन। उच्चारण विविधता: अलग-अलग परीक्षण।

ऑडियो इंजीनियरिंग: उत्पादन में लॉसलेस इंटरमीडिएट; हर ट्रांसकोड जानकारी खोता है। Zoom निर्यात उच्चतम गुणवत्ता।

SDK: OpenAI Python `client.audio.transcriptions.create(model="gpt-4o-transcribe", file=f)` CallMissed बेस URL — OpenAI क्लाउड से न्यूनतम माइग्रेशन।

सुरक्षा: API key रोटेट; ट्रांसक्रिप्ट एन्क्रिप्टेड स्टोरेज; रिटेंशन (30/90/365 दिन)।

हाइब्रिड: रियलटाइम gpt-4o-transcribe, फिर `gpt-4.1` सारांश — STT और LLM खर्च अलग डैशबोर्ड।

रोडमैप: नए स्नैपशॉट (`gpt-4o-transcribe-YYYY-MM-DD`) — चेंजलॉग सब्सक्राइब।

विलंबता SLA: पहला आंशिक अच्छे नेटवर्क पर सैकड़ों ms — ग्राहकों को SLA प्रकाशित करने से पहले अपने edge से p95। आंतरिक रनबुक: फ़ॉर्मैट, अधिकतम फ़ाइल, WER रिग्रेशन एस्केलेशन। ग्राहक डॉक्स में ठीक `model=gpt-4o-transcribe` — STT माइग्रेशन में टाइपो शीर्ष विफलता। सेल्स में लैपटॉप माइक से लाइव आंशिक कैप्शन डेमो।

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹40.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • स्ट्रीमिंग ट्रांसक्रिप्शन
  • Whisper से उच्च सटीकता

तकनीकी विवरण

  • मॉडल id: gpt-4o-transcribe

ताकतें

  • स्ट्रीमिंग
  • मज़बूत सटीकता

सीमाएं

  • अनुवाद मोड नहीं

उपयोग के मामले

लाइव कैप्शनमीटिंग ट्रांसक्रिप्शन

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -F file=@audio.mp3 -F model=gpt-4o-transcribe

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: gpt-4o-transcribe

gpt-4o-transcribe अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।