gpt-4o-transcribe-diarize
द्वारा OpenAI · रिलीज़ 2025
OpenAI gpt-4o-transcribe-diarize — स्पीकर डायराइज़ेशन के साथ ट्रांसक्रिप्शन।
gpt-4o-transcribe-diarize
द्वारा संचालित OpenAI · Speech model + diarization
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
Not disclosed
अधिकतम आउटपुट
N/A
श्रेणी
स्पीच टू टेक्स्ट
अवलोकन
`gpt-4o-transcribe-diarize` OpenAI के GPT-4o ट्रांसक्रिप्शन स्टैक में स्पीकर डायराइज़ेशन जोड़ता है — एक पास में कौन कब बोला, ट्रांसक्रिप्ट के साथ (platform.openai.com/docs/models/gpt-4o-transcribe-diarize)। CallMissed पर `/v1/audio/transcriptions` पर `model=gpt-4o-transcribe-diarize`। मीटिंग, इंटरव्यू, डिपोज़िशन, पॉडकास्ट, सपोर्ट कॉल जहाँ स्पीकर एट्रिब्यूशन टेक्स्ट सटीकता जितना मायने रखता है।
OpenAI diarize को Transcription API तक सीमित (हर रियलटाइम पथ नहीं)। प्राइसिंग OpenAI साइट पर gpt-4o-transcribe ऑडियो-टोकन बैंड; CallMissed $0.40 प्रति ऑडियो घंटा। आउटपुट लेबल्ड सेगमेंट या स्पीकर टैग — डाउनस्ट्रीम एनालिटिक्स में JSON सावधानी से पार्स करें।
डायराइज़ेशन गुणवत्ता चैनल संख्या, क्रॉसटॉक, माइक लेआउट पर। सिंगल-चैनल फ़ोन रिकॉर्डिंग स्पष्ट टर्न-टेकिंग पर सर्वोत्तम; ओवरलैप स्पीच उद्योग-कठिन। अनुपालन/कानूनी वर्कफ़्लो स्वचालित करने से पहले प्रतिनिधि ऑडियो पर मूल्यांकन।
सादे `gpt-4o-transcribe` की तुलना में समान दर, CRM लॉगिंग ("एजेंट बनाम ग्राहक"), खोज योग्य आर्काइव, स्वचालित मीटिंग मिनट्स। Deepgram Nova (`nova-3`) से भाषा, प्राइसिंग, OpenAI ऑडियो एकीकरण पर चुनें।
Azure Whisper डिप्लॉयमेंट पर डायराइज़ेशन नहीं — `whisper` से gpt-4o-transcribe-diarize माइग्रेशन समर्थित जब अलग सेवा बिना लेबल चाहिए।
सीमाएँ: बैच ट्रांसक्रिप्शन (सभी क्लाइंट में स्ट्रीमिंग-प्रथम नहीं), गैर-डायराइज़ STT से अधिक विलंबता, JSON स्कीमा प्रीव्यू/विकास। रियलटाइम वॉइस एजेंट बिना लेबल: `gpt-4o-mini-transcribe` या `saaras:v3`।
डाउनस्ट्रीम: स्पीकर लेबल कॉल सेंटर प्रति-एजेंट स्कोरिंग — SIP हेडर/extension से CRM, केवल "Speaker A" नहीं।
स्कीमा: रक्षात्मक JSON पार्स — प्रीव्यू फ़ील्ड नाम बदल सकते हैं। पार्सर वर्ज़न करें।
मीटिंग उत्पाद: डायराइज़ JSON नोट UI; `gpt-4.1` से प्रति-स्पीकर सारांश।
कानूनी: डिपोज़िशन में डायराइज़ेशन त्रुटि गलत एट्रिब्यूशन — उच्च-दांव आउटपुट पर मानव समीक्षा।
प्रदर्शन: अधिक कम्प्यूट — घंटे भर की फ़ाइल के लिए async + वेबहुक, सिंक्रनस HTTP नहीं।
Deepgram तुलना: Nova-3 अंग्रेज़ी टेलीफ़ोनी पर तेज़/सस्ता हो सकता — अपने कोर्पस पर बेक-ऑफ़।
गोपनीयता: अलग स्पीकर ग्राहक हो सकते — लेबल्ड ट्रांसक्रिप्ट PII।
कॉल सेंटर QA: "एजेंट ने रिकॉर्डिंग डिस्क्लोज़र बताया?" केवल एजेंट-लेबल्ड सेगमेंट पर NLP। गलत डायराइज़ेशन एजेंट को गलत दंड — कॉन्फ़िडेंस और मानव ओवरराइड UI।
JSON: speaker id, start/end, text — `fact_utterance` ग्रेन; `call_id` से CRM।
Async: क्लाइंट अपलोड → job id → CallMissed → वेबहुक — घंटे भर डायराइज़ पर UI ब्लॉक न करें।
स्टीरियो: एजेंट बाएँ, ग्राहक दाएँ — टेलीफ़ोनी रूटिंग पर विचार।
50 कॉल पर मानव लेबलर से बेंचमार्क — DER — "स्वचालित स्पीकर पृथक्करण" मार्केटिंग से पहले।
रिटेंशन: डायराइज़ ट्रांसक्रिप्ट मुकदमे में खोज योग्य — नीति गंभीरता से।
अनुवाद + डायराइज़: स्पेनिश कॉल से अंग्रेज़ी — पाइपलाइन क्रम पुष्टि, अलग चरण हो सकते हैं।
सेल्स: "Conversation Intelligence" ऐड-ऑन प्रति ऑडियो घंटे — Gong/Chorus तुलना; CallMissed API keys, मल्टी-वर्ष SaaS लॉक-इन बिना। डेमो में नमूना डायराइज़ JSON। 30 दिन कच्चा ऑडियो + JSON — पार्सर बग पर पुनःप्रोसेस। कानूनी: अनुशासनिक कार्रवाई पर मानव हस्ताक्षर। डेटा साइंस: स्पीकर-लेबल उद्धरण रिट्रीवल। सपोर्ट मैनेजर: पहले महीने साप्ताहिक नमूना समीक्षा।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /hour | ₹40.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- स्पीकर लेबल
- मीटिंग-तैयार आउटपुट
तकनीकी विवरण
- मॉडल id: gpt-4o-transcribe-diarize
ताकतें
- स्पीकर एट्रिब्यूशन
सीमाएं
- केवल बैच
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/transcriptions \ -F file=@meeting.mp3 -F model=gpt-4o-transcribe-diarize
एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: gpt-4o-transcribe-diarize
gpt-4o-transcribe-diarize अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।