LLM चैटrealtimevoice

gpt-realtime-mini

द्वारा OpenAI · रिलीज़ 2025

OpenAI gpt-realtime-mini — वॉयस एजेंटों के लिए सस्ता स्पीच-टू-स्पीच realtime मॉडल।

LLM चैट

gpt-realtime-mini

द्वारा संचालित OpenAI · Realtime multimodal

कॉन्टेक्स्ट विंडो

32K

पैरामीटर

Not disclosed

अधिकतम आउटपुट

N/A

श्रेणी

LLM चैट

अवलोकन

`gpt-realtime-mini` OpenAI का लागत-कुशल realtime स्पीच-टू-स्पीच मॉडल है — `gpt-realtime` जैसा समान एकीकृत ऑडियो-इन/ऑडियो-आउट उत्पाद पैटर्न, कम लागत के लिए ट्यून (platform.openai.com/docs/models/gpt-realtime-mini)। CallMissed पर, वॉयस सत्र बनाते समय `llm_model=gpt-realtime-mini` चुनें। बड़े sibling की तरह, यह `/v1/chat/completions` पर दिखाई नहीं देता; केवल वॉयस-पाइपलाइन।

मॉडल टेक्स्ट, इमेज और ऑडियो इनपुट स्वीकार करता है और मॉडल कार्ड पर 32,000-टोकन कॉन्टेक्स्ट और 4,096 आउटपुट टोकन तक टेक्स्ट और ऑडियो आउटपुट देता है। OpenAI मूल्य पूर्ण gpt-realtime से काफ़ी कम टेक्स्ट टोकन दर सूचीबद्ध करता है (मॉडल पृष्ठ पर $0.60 इनपुट / $2.40 आउटपुट प्रति मिलियन टेक्स्ट टोकन — ऑडियो मूल्य अलग सत्यापित करें)। यह उपभोक्ता-सामने असिस्टेंट, आंतरिक हेल्प लाइन और उच्च-वॉल्यूम पायलट के लिए आकर्षक बनाता है जहाँ पूर्ण realtime गुणवत्ता अनावश्यक।

gpt-realtime-mini तब चुनें जब लेटेंसी संवादात्मक रहनी चाहिए पर पूर्ण frontier रीज़निंग अत्यधिक — अपॉइंटमेंट बुकिंग, FAQ बॉट, छोटे टर्न के साथ मार्गदर्शित समस्या निवारण, भाषा अभ्यास। आप अभी भी एक मॉडल से सर्वर-साइड end-of-turn पहचान (`turn_detection="realtime_llm"` हमारे एजेंट में) का लाभ उठाते हैं, VAD + STT + LLM + TTS खुद ट्यून करने के बजाय।

आवाज़ चयन realtime आवाज़ allowlist इस्तेमाल करता है (alloy, echo, shimmer, ash, ballad, coral, sage, verse, marin, cedar)। वास्तविक डिवाइस पर परीक्षण: मोबाइल नेटवर्क jitter जोड़ते हैं जो टेक्स्ट-केवल API कभी नहीं दिखाते। वॉयस सत्र मीट्रिक से क्रेडिट निगरानी — ऑडियो टोकन लेखा चैट से भिन्न।

जब Azure realtime डिप्लॉयमेंट में कोटा न हो प्लेटफ़ॉर्म स्थिति maintenance दिखा सकता है; शिप करने से पहले `/api/v1/models` देखें। फ़ॉलबैक पैटर्न: realtime बंद हो तो भारतीय भाषा या बैच-अनुकूल वॉयस के लिए `saaras:v3` + `gpt-4.1` + `bulbul:v3` पाइपलाइन मॉडल।

सीमाएँ: टेक्स्ट API मॉडल नहीं, preview/GA जीवनचक्र OpenAI/Azure परिवर्तन के अधीन, और कॉल के बीच जटिल रीज़निंग पर पूर्ण gpt-realtime से गुणवत्ता अंतर। केवल ट्रांसक्रिप्शन या केवल TTS के लिए समर्पित `gpt-4o-transcribe` / `gpt-4o-mini-tts` एंडपॉइंट सरल और सस्ते।

पायलट अर्थशास्त्र: realtime-mini स्टार्टअप को फ़्लैगशिप realtime बिल के बिना वॉयस पायलट चलाने देता है। 5-मिनट औसत कॉल मॉडल करें, अपेक्षित मासिक कॉल से गुणा, ऑडियो टोकन मार्कअप शामिल — टेक्स्ट चैट फ़ॉलबैक से तुलना।

उपयोग फ़िट: संरचित संवाद (नाम, पता, अपॉइंटमेंट पुष्टि) के लिए आदर्श; खुले-अंत चिकित्सा या कानूनी सलाह के लिए कम उपयुक्त जहाँ पूर्ण realtime गुणवत्ता मायने रखती है।

क्लाइंट कार्यान्वयन: LiveKit के माध्यम से WebRTC स्थिर NAT traversal चाहता है — कॉर्पोरेट VPN और मोबाइल LTE पर परीक्षण। पुन:कनेक्ट UX दें; नेटवर्क झटके पर realtime सत्र गिरते हैं।

गुणवत्ता सीढ़ी: realtime-mini से शुरू; CSAT या कार्य पूर्णता सीमा से नीचे हो तो ट्रैफ़िक के अंश पर पूर्ण `gpt-realtime` A/B।

टेक्स्ट बैकएंड के साथ जोड़: कुछ टीमें वॉयस UX के लिए realtime-mini लेकिन CRM नोट्स के लिए ट्रांसक्रिप्ट को async `gpt-4.1` पर POST — लेटेंसी-संवेदनशील पथ को लंबे विश्लेषण से अलग।

कोटा जागरूकता: फ़्लैगशिप जैसा Azure realtime इन्फ़्रा — maintenance फ़्लैग दोनों पर। रनबुक रखें।

एक्सेसिबिलिटी: वॉयस-प्रथम इंटरफ़ेस दृष्टिहीन उपयोगकर्ताओं की मदद — अनुपालन (WCAG) के लिए कीबोर्ड विकल्प उपलब्ध रहें।

गो-टू-मार्केट पैटर्न: realtime-mini पर उपयोग सीमा के साथ "voice beta" टियर लॉन्च, CSAT इकट्ठा, पावर उपयोगकर्ताओं को पूर्ण realtime पर अपग्रेड। मार्केटिंग साइटें डेमो विजेट एम्बेड कर सकती हैं — CAPTCHA और प्रति-IP rate limit से सुरक्षा क्योंकि वॉयस दुरुपयोग-प्रवण।

इंजीनियरिंग स्टैक: LiveKit React कंपोनेंट के साथ Next.js फ़्रंट-एंड, सत्र टोकन केवल सर्वर-साइड, ब्राउज़र में मास्टर API कुंजी कभी न दें। वॉयस सत्र से न्यूनतम PII; ट्रांसक्रिप्ट वैकल्पिक opt-in हो सकते हैं।

chained STT+LLM+TTS बनाम प्रतिस्पर्धी स्थिति: realtime-mini ग्लू कोड कम करता और end-of-turn पहचान भाषण मॉडल से संरेखित करता है, कागज़ पर कच्चे ASR+LLM+TTS बेंचमार्क समान दिखें तब भी अक्सर अनुभव की लेटेंसी कम।

विफलता मोड: Azure maintenance फ़्लैग — ऐप में बैनर; टेक्स्ट चैट फ़ॉलबैक। ऑडियो डिवाइस अनुमति अस्वीकृत — UI कॉपी से मार्गदर्शन। इको लूप — डेस्कटॉप सपोर्ट टूल के लिए दस्तावेज़ में हेडफ़ोन अनिवार्य।

एनालिटिक्स: "वॉयस सत्र शुरू" → "कार्य पूर्ण" → "7 दिनों में उपयोगकर्ता वापस" फ़नल। एनालिटिक्स के बिना वॉयस UX अंधा उड़ान।

अनुबंधी SLA: जब तक CallMissed आपके एंटरप्राइज़ समझौते में realtime उपलब्धता स्पष्ट रूप से गारंटी न करे, ग्राहकों को 99.99% वॉयस uptime का वादा न करें — कैटलॉग maintenance स्थिति संदर्भित करें और फ़ॉलबैक मोडैलिटी रखें।

टोकन अनुमान वर्कशीट: बोले गए 150 शब्द प्रति मिनट मानें, OpenAI की प्रकाशित दरों से ऑडियो टोकन में बदलें, समवर्ती सत्र चरम से गुणा — वित्त टीमें वॉयस SKU के लिए प्रीपेड क्रेडिट बंडल सेट करती हैं। चुने फ़ॉलबैक मॉडल उसी रनबुक में दस्तावेज़ करें ताकि on-call इंजीनियर बिना उत्पाद redeploy के आउटेज में टेनेंट स्विच कर सकें। डेवलपर ऑनबोर्डिंग के लिए, पहले `llm_model=gpt-realtime-mini` के साथ CallMissed वॉयस एजेंट नमूना क्लोन करें — staging ट्रैफ़िक को पूर्ण `gpt-realtime` पर बढ़ाने से पहले WebRTC प्लंबिंग सत्यापित करने का सबसे सस्ता तरीका।

प्राइसिंग

मेट्रिककीमत
इनपुट /1M tokens₹1500.0000
आउटपुट /1M tokens₹3000.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • कम लागत realtime
  • स्पीच-टू-स्पीच

तकनीकी विवरण

  • मॉडल id: gpt-realtime-mini

ताकतें

  • gpt-realtime से सस्ता

सीमाएं

  • केवल वॉयस सतह
  • Maintenance — कोटा लंबित

उपयोग के मामले

लागत-संवेदनशील वॉयस एजेंट

API उदाहरण

# Create a voice session with llm_model=gpt-realtime-mini

एंडपॉइंट: WebSocket /v1/voice/sessions · मॉडल ID: gpt-realtime-mini

gpt-realtime-mini अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।