LLM चैटrealtimevoice

gpt-realtime

द्वारा OpenAI · रिलीज़ 2025

OpenAI gpt-realtime — स्पीच-टू-स्पीच मॉडल (केवल वॉयस एजेंट WebSocket, चैट completions नहीं)।

LLM चैट

gpt-realtime

द्वारा संचालित OpenAI · Realtime multimodal

कॉन्टेक्स्ट विंडो

32K

पैरामीटर

Not disclosed

अधिकतम आउटपुट

N/A

श्रेणी

LLM चैट

अवलोकन

`gpt-realtime` OpenAI का प्रोडक्शन realtime स्पीच-टू-स्पीच मॉडल है: एक मॉडल सुनता, तर्क करता और बोलता है, लाइव बातचीत के लिए पर्याप्त कम लेटेंसी के साथ (platform.openai.com/docs/models/gpt-realtime)। यह `/v1/chat/completions` पर उपलब्ध नहीं। CallMissed पर आप इसे वॉयस एजेंट पाइपलाइन से इस्तेमाल करते हैं — `/v1/voice/sessions` (या वॉयस एजेंटों के लिए दस्तावेज़ित LiveKit/WebRTC फ़्लो) के माध्यम से सत्र बनाएँ, `llm_model` को `gpt-realtime` पर सेट करें।

OpenAI realtime परिवार के लिए 32,000 टोकन कॉन्टेक्स्ट और 4,096 टोकन तक आउटपुट दस्तावेज़ करता है, मोडैलिटी में टेक्स्ट, ऑडियो और इमेज इनपुट और टेक्स्ट+ऑडियो आउटपुट शामिल। ट्रांसपोर्ट OpenAI की नेटिव पेशकश में WebRTC, WebSocket या SIP; CallMissed हमारे वॉयस एजेंट worker के माध्यम से इंटीग्रेट करता है जो LiveKit कमरों को Azure-होस्टेड realtime डिप्लॉयमेंट से जोड़ता है। Function calling सपोर्टेड; structured outputs मॉडल कार्ड पर सूचीबद्ध नहीं।

मूल्य टोकन-आधारित, अलग ऑडियो दरों के साथ — OpenAI gpt-realtime के लिए टेक्स्ट $4/$16 प्रति मिलियन टोकन और ऑडियो $32/$64 प्रति मिलियन टोकन सूचीबद्ध करता है (वर्तमान विभाजन के लिए मॉडल पृष्ठ देखें)। CallMissed कैटलॉग पर प्रकाशित realtime दरों के अनुसार बिल करता है। निरंतर ऑडियो स्ट्रीम के लिए बजट: बातचीत के मिनट टेक्स्ट-केवल चैट की तुलना में ऑडियो टोकन जल्दी जमा करते हैं।

gpt-realtime तब इस्तेमाल करें जब फ़ोन बॉट, वॉयस असिस्टेंट, इंटरव्यू कोच और हाथ-मुक्त वर्कफ़्लो के लिए अलग STT, LLM और TTS प्रदाता जोड़े बिना एक एकीकृत मॉडल चाहिए। लेटेंसी उत्पाद लक्ष्य है — Whisper + GPT-4.1 + TTS मिलाने की लचीलापन के बदले परिचालन सरलता। आवाज़ें OpenAI की realtime आवाज़ सेट शामिल (हमारी वॉयस एजेंट allowlist के अनुसार alloy, echo, shimmer, ash, ballad, coral, sage, verse, marin, cedar)।

वर्तमान प्लेटफ़ॉर्म नोट: जब किसी क्षेत्र में Azure realtime कोटा उपलब्ध नहीं हो CallMissed gpt-realtime को maintenance चिह्नित करता है — प्रोडक्शन वॉयस एजेंट लॉन्च से पहले मॉडल कैटलॉग `status` फ़ील्ड जाँचें। सक्षम होने पर, अपने माइक्रोफ़ोन पाइपलाइन के साथ barge-in, रुकावट और endpointing व्यवहार परीक्षण करें।

सीमाएँ: केवल WebSocket/वॉयस (टेक्स्ट चैट completions एंडपॉइंट नहीं), कुछ वर्कलोड के लिए बैच STT+LLM+TTS स्टैक से अधिक लागत, और क्लाइंट-साइड ऑडियो कैप्चर गुणवत्ता पर निर्भरता। बाद में बैच ट्रांसक्रिप्शन के लिए `whisper` या `gpt-4o-transcribe` इस्तेमाल करें। realtime रीज़निंग के बिना सबसे सस्ती भाषण आउटपुट के लिए टेक्स्ट LLM के साथ `gpt-4o-mini-tts` विचार करें।

CallMissed पर सत्र जीवनचक्र: STT/TTS/realtime LLM id निर्दिष्ट करके वॉयस सत्र बनाएँ, लौटाए टोकन के साथ LiveKit कमरे में शामिल हों, माइक्रोफ़ोन ऑडियो स्ट्रीम करें, संश्लेषित भाषण वापस पाएँ। Realtime मॉडल डुप्लेक्स बातचीत के लिए अलग STT+LLM+TTS जोड़ने की जगह लेता है।

ऑडियो टोकन बजटिंग: OpenAI मॉडल कार्ड पर टेक्स्ट बनाम ऑडियो टोकन मीटर अलग करता है — निरंतर भाषण ऑडियो टोकन तेज़ी से खपत करता है। टोल-फ़्री नंबर सक्षम करने से पहले रिकॉर्डेड कॉल से मासिक खर्च अनुमान लगाएँ।

वॉयस में function calling: टूल कम परिभाषित करें — स्कीमा आकार के साथ लेटेंसी बढ़ती है। दर्जनों दुर्लभ फ़ंक्शन के बजाय दो-तीन उच्च-मूल्य टूल (ऑर्डर खोज, अपॉइंटमेंट बुक) पसंद करें।

वॉयस पर्सोना चयन: ब्रांड से आवाज़ मिलाएँ (शांत सपोर्ट के लिए marin/cedar, तटस्थ के लिए alloy)। Barge-in परीक्षण — उपयोगकर्ता का बॉट को बीच में रोकना सामान्य; सही कॉन्फ़िगरेशन पर realtime मॉडल chained पाइपलाइन से बेहतर turn सीमाएँ संभालते हैं।

Maintenance स्थिति: कैटलॉग maintenance दिखाए तो क्षेत्र में Azure realtime कोटा समाप्त हो सकता है — Indic के लिए CallMissed पर `saaras:v3` + `gpt-4.1` + `bulbul:v3`, अंग्रेज़ी टेलीफ़ोनी के लिए Deepgram + टेक्स्ट LLM + Aura पर फ़ॉलबैक।

निगरानी: सत्र अवधि, time-to-first-audio-byte, टूल त्रुटि दर और बात के प्रति मिनट क्रेडिट खर्च ट्रैक करें।

नियामक: रिकॉर्ड प्रतिधारण और सहमति बैनर आपकी ज़िम्मेदारी — realtime स्ट्रीम में PCI/PHI हो सकता है यदि एजेंट ज़ोर से पढ़ें।

शब्दों में आर्किटेक्चर आरेख: उपयोगकर्ता माइक्रोफ़ोन → LiveKit कमरा → CallMissed वॉयस एजेंट worker → Azure OpenAI Realtime API → LiveKit से संश्लेषित ऑडियो → उपयोगकर्ता स्पीकर। टेक्स्ट साइड चैनल (ट्रांसक्रिप्ट, टूल कॉल) सत्र के आसपास आपके webhooks से बैकएंड में बह सकते हैं।

हार्डवेयर सिफ़ारिशें: डेमो बूथ के लिए वायर्ड हेडसेट; मोबाइल पर ध्वनिक इको रद्दीकरण; लेटेंसी-संवेदनशील डेमो के लिए Bluetooth लेटेंसी से बचें। सर्वर-साइड, जहाँ संभव उपयोगकर्ताओं के निकट geographically एजेंट workers चलाएँ — WebRTC मीडिया निकटता पसंद करता है।

परीक्षण चेकलिस्ट: मौन हैंडलिंग, वाक्य के बीच रुकावट, बैकग्राउंड TV शोर, भाषा code-switching, बोलते समय टूल कॉल, नेटवर्क ड्रॉप के बाद सत्र पुन:कनेक्ट, क्रेडिट समाप्ति पर सौम्य संदेश।

सेल्स इंजीनियरिंग नोट: जब संभावित ग्राहक "ChatGPT voice mode" से तुलना करें, स्पष्ट करें `gpt-realtime` API-सुलभ realtime क्लास है जो समान अनुभव चलाती है — आपका उत्पाद LiveKit ट्रांसपोर्ट और CallMissed बिलिंग के साथ लपेटता है।

दस्तावेज़ीकरण क्रॉस-लिंक: OpenAI Realtime API गाइड, Azure OpenAI realtime डिप्लॉयमेंट, CallMissed वॉयस सत्र API संदर्भ, web/iOS/Android के लिए LiveKit क्लाइंट SDK डॉक।

मूल्य संचार: मान्यताओं के साथ प्रति-मिनट अनुमान (बात अनुपात, टूल उपयोग); ऑडियो टोकन गणित गैर-तकनीकी खरीदारों के लिए अपारदर्शी — प्रस्तावों के लिए सरल, इंजीनियरिंग स्प्रेडशीट में विस्तार।

प्राइसिंग

मेट्रिककीमत
इनपुट /1M tokens₹4000.0000
आउटपुट /1M tokens₹8000.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • स्पीच-टू-स्पीच
  • कम लेटेंसी
  • एकल-मॉडल वॉयस पाइपलाइन

तकनीकी विवरण

  • मॉडल id: gpt-realtime
  • केवल वॉयस-एजेंट WebSocket

ताकतें

  • एकीकृत भाषण पाइपलाइन
  • कम लेटेंसी

सीमाएं

  • चैट completions पर उपलब्ध नहीं
  • Maintenance — कोटा लंबित

उपयोग के मामले

वॉयस एजेंटफ़ोन बॉटलाइव बातचीत

API उदाहरण

# Create a voice session with llm_model=gpt-realtime via POST /v1/voice/sessions

एंडपॉइंट: WebSocket /v1/voice/sessions · मॉडल ID: gpt-realtime

gpt-realtime अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।