स्पीच टू टेक्स्टdiarization

gpt-4o-transcribe-diarize

द्वारा OpenAI · रिलीज़ 2025

OpenAI gpt-4o-transcribe-diarize — स्पीकर डायराइज़ेशन के साथ ट्रांसक्रिप्शन।

स्पीच टू टेक्स्ट

gpt-4o-transcribe-diarize

द्वारा संचालित OpenAI · Speech model + diarization

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Not disclosed

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

`gpt-4o-transcribe-diarize` OpenAI के GPT-4o ट्रांसक्रिप्शन स्टैक में स्पीकर डायराइज़ेशन जोड़ता है — एक पास में कौन कब बोला, ट्रांसक्रिप्ट के साथ (platform.openai.com/docs/models/gpt-4o-transcribe-diarize)। CallMissed पर `/v1/audio/transcriptions` पर `model=gpt-4o-transcribe-diarize`। मीटिंग, इंटरव्यू, डिपोज़िशन, पॉडकास्ट, सपोर्ट कॉल जहाँ स्पीकर एट्रिब्यूशन टेक्स्ट सटीकता जितना मायने रखता है।

OpenAI diarize को Transcription API तक सीमित (हर रियलटाइम पथ नहीं)। प्राइसिंग OpenAI साइट पर gpt-4o-transcribe ऑडियो-टोकन बैंड; CallMissed $0.40 प्रति ऑडियो घंटा। आउटपुट लेबल्ड सेगमेंट या स्पीकर टैग — डाउनस्ट्रीम एनालिटिक्स में JSON सावधानी से पार्स करें।

डायराइज़ेशन गुणवत्ता चैनल संख्या, क्रॉसटॉक, माइक लेआउट पर। सिंगल-चैनल फ़ोन रिकॉर्डिंग स्पष्ट टर्न-टेकिंग पर सर्वोत्तम; ओवरलैप स्पीच उद्योग-कठिन। अनुपालन/कानूनी वर्कफ़्लो स्वचालित करने से पहले प्रतिनिधि ऑडियो पर मूल्यांकन।

सादे `gpt-4o-transcribe` की तुलना में समान दर, CRM लॉगिंग ("एजेंट बनाम ग्राहक"), खोज योग्य आर्काइव, स्वचालित मीटिंग मिनट्स। Deepgram Nova (`nova-3`) से भाषा, प्राइसिंग, OpenAI ऑडियो एकीकरण पर चुनें।

Azure Whisper डिप्लॉयमेंट पर डायराइज़ेशन नहीं — `whisper` से gpt-4o-transcribe-diarize माइग्रेशन समर्थित जब अलग सेवा बिना लेबल चाहिए।

सीमाएँ: बैच ट्रांसक्रिप्शन (सभी क्लाइंट में स्ट्रीमिंग-प्रथम नहीं), गैर-डायराइज़ STT से अधिक विलंबता, JSON स्कीमा प्रीव्यू/विकास। रियलटाइम वॉइस एजेंट बिना लेबल: `gpt-4o-mini-transcribe` या `saaras:v3`।

डाउनस्ट्रीम: स्पीकर लेबल कॉल सेंटर प्रति-एजेंट स्कोरिंग — SIP हेडर/extension से CRM, केवल "Speaker A" नहीं।

स्कीमा: रक्षात्मक JSON पार्स — प्रीव्यू फ़ील्ड नाम बदल सकते हैं। पार्सर वर्ज़न करें।

मीटिंग उत्पाद: डायराइज़ JSON नोट UI; `gpt-4.1` से प्रति-स्पीकर सारांश।

कानूनी: डिपोज़िशन में डायराइज़ेशन त्रुटि गलत एट्रिब्यूशन — उच्च-दांव आउटपुट पर मानव समीक्षा।

प्रदर्शन: अधिक कम्प्यूट — घंटे भर की फ़ाइल के लिए async + वेबहुक, सिंक्रनस HTTP नहीं।

Deepgram तुलना: Nova-3 अंग्रेज़ी टेलीफ़ोनी पर तेज़/सस्ता हो सकता — अपने कोर्पस पर बेक-ऑफ़।

गोपनीयता: अलग स्पीकर ग्राहक हो सकते — लेबल्ड ट्रांसक्रिप्ट PII।

कॉल सेंटर QA: "एजेंट ने रिकॉर्डिंग डिस्क्लोज़र बताया?" केवल एजेंट-लेबल्ड सेगमेंट पर NLP। गलत डायराइज़ेशन एजेंट को गलत दंड — कॉन्फ़िडेंस और मानव ओवरराइड UI।

JSON: speaker id, start/end, text — `fact_utterance` ग्रेन; `call_id` से CRM।

Async: क्लाइंट अपलोड → job id → CallMissed → वेबहुक — घंटे भर डायराइज़ पर UI ब्लॉक न करें।

स्टीरियो: एजेंट बाएँ, ग्राहक दाएँ — टेलीफ़ोनी रूटिंग पर विचार।

50 कॉल पर मानव लेबलर से बेंचमार्क — DER — "स्वचालित स्पीकर पृथक्करण" मार्केटिंग से पहले।

रिटेंशन: डायराइज़ ट्रांसक्रिप्ट मुकदमे में खोज योग्य — नीति गंभीरता से।

अनुवाद + डायराइज़: स्पेनिश कॉल से अंग्रेज़ी — पाइपलाइन क्रम पुष्टि, अलग चरण हो सकते हैं।

सेल्स: "Conversation Intelligence" ऐड-ऑन प्रति ऑडियो घंटे — Gong/Chorus तुलना; CallMissed API keys, मल्टी-वर्ष SaaS लॉक-इन बिना। डेमो में नमूना डायराइज़ JSON। 30 दिन कच्चा ऑडियो + JSON — पार्सर बग पर पुनःप्रोसेस। कानूनी: अनुशासनिक कार्रवाई पर मानव हस्ताक्षर। डेटा साइंस: स्पीकर-लेबल उद्धरण रिट्रीवल। सपोर्ट मैनेजर: पहले महीने साप्ताहिक नमूना समीक्षा।

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹40.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • स्पीकर लेबल
  • मीटिंग-तैयार आउटपुट

तकनीकी विवरण

  • मॉडल id: gpt-4o-transcribe-diarize

ताकतें

  • स्पीकर एट्रिब्यूशन

सीमाएं

  • केवल बैच

उपयोग के मामले

मीटिंगइंटरव्यूपॉडकास्ट

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -F file=@meeting.mp3 -F model=gpt-4o-transcribe-diarize

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: gpt-4o-transcribe-diarize

gpt-4o-transcribe-diarize अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।