gpt-4o-mini-tts
द्वारा OpenAI · रिलीज़ 2025
OpenAI gpt-4o-mini-tts — टोन और डिलीवरी के लिए `instructions` वाला स्टीयरेबल TTS। छह आवाज़ें।
gpt-4o-mini-tts
द्वारा संचालित OpenAI · Neural TTS
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
Not disclosed
अधिकतम आउटपुट
N/A
श्रेणी
टेक्स्ट टू स्पीच
अवलोकन
`gpt-4o-mini-tts` OpenAI का GPT-4o mini पर बना स्टीयरेबल टेक्स्ट-टू-स्पीच मॉडल है — `instructions` फ़ील्ड से डिलीवरी स्टाइल (platform.openai.com/docs/models/gpt-4o-mini-tts और text-to-speech गाइड)। CallMissed पर `/v1/audio/speech` पर POST, `"model": "gpt-4o-mini-tts"`, `input` टेक्स्ट, `voice` नाम। MP3 या अन्य फ़ॉर्मैट।
OpenAI: प्रति अनुरोध 2,000 टोकन तक; मॉडल पेज पर लगभग $0.60/मिलियन इनपुट टेक्स्ट टोकन, $12.00/मिलियन आउटपुट ऑडियो टोकन। CallMissed रेट कार्ड: $0.20 प्रति 10K अक्षर। स्ट्रीमिंग ऑडियो — पूरा क्लिप जनरेट होने से पहले प्लेबैक।
आवाज़ें: alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage, verse, marin, cedar (platform.openai.com/docs/guides/text-to-speech)। `instructions` अलग करता है — SSML बिना "गर्म और धीरे", "न्यूज़ एंकर", "फुसफुसाहट"। Azure रीजनल एंडपॉइंट; CallMissed ऑटो-रूट।
यूज़ केस: टेक्स्ट LLM के साथ वॉयस एजेंट, ऑडियोबुक ड्राफ़्ट, लोकलाइज़्ड IVR, एक्सेसिबिलिटी, इमोशनल रेंज वाले डेमो। स्केल पर अंग्रेज़ी टेलीफ़ोनी: Deepgram Aura (`aura-2-en`); भारतीय भाषाएँ: Sarvam Bulbul — जब इंस्ट्रक्शन-फ़ॉलोइंग ज़्यादा मायने रखे।
इंटीग्रेशन: लंबे आर्टिकल टोकन लिमिट से नीचे चंक करें, curl में JSON एस्केप, सामान्य वाक्य सर्वर-साइड कैश। मोबाइल पर स्ट्रीमिंग MP3 क्लिपिंग टेस्ट। डायलॉग: `gpt-4.1`/`gpt-4o`; TTS रेंडर।
सीमाएँ: अंग्रेज़ी-केंद्रित कैटलॉग, 2K टोकन कैप, सबसे सस्ता TTS नहीं (`melotts`, Aura सस्ते), ओवर-इंटरप्रिटेड इंस्ट्रक्शन — कंक्रीट प्रॉम्प्ट। डुप्लेक्स: `gpt-realtime` अलग TTS बायपास।
इंस्ट्रक्शन: "शांत एयरलाइन पायलट" > "अच्छा लगे"। कुछ वाक्यों से कम।
वॉयस ब्रांडिंग: प्रति प्रोडक्ट लाइन एक आवाज़। cedar/marin vs alloy डेमोग्राफ़िक टेस्ट।
लंबा कंटेंट: उपन्यास 2K से ऊपर — पैराग्राफ, क्लिप, ffmpeg। रियल-टाइम: वाक्य-दर-वाक्य।
स्ट्रीमिंग: पहले बाइट्स पर प्लेबैक; मोबाइल 200–500 ms बफ़र।
बहुभाषी: हिंदी/तमिल — Sarvam Bulbul; gpt-4o-mini-tts अंग्रेज़ी-केंद्रित।
लागत: melotts सबसे सस्ता, Aura अगला, gpt-4o-mini-tts स्टीयरेबिलिटी प्रीमियम, realtime डुप्लेक्स सबसे महँगा।
कैशिंग: IVR दोहराए वाक्य — CDN पर MP3, हर कॉल TTS नहीं।
एक्सेसिबिलिटी: TTS के साथ ट्रांसक्रिप्ट।
OpenAI गाइड: platform.openai.com/docs/guides/text-to-speech — UI पिकर से पहले allowlist।
IVR ROI: स्टूडियो वॉयसओवर हज़ारों; TTS सेंट — कॉपी तुरंत अपडेट।
पोस्ट-प्रोसेसिंग: -16 LUFS नॉर्मलाइज़ेशन; ब्रीथ के लिए नॉइज़ गेट।
पिटफ़ॉल: JSON कोट्स, लंबा `input` ट्रंकेट — चंक।
पेयरिंग: LLM बोले क्या; mini TTS कैसे। Realtime एक स्टैक।
एंटरप्राइज़: ब्रांड गाइड में आवाज़ + रंग।
मॉनिटरिंग: फेल रेट, अक्षर/अनुरोध, $/हज़ार अक्षर, अवधि।
नई आवाज़ें: बीटा में फ़ीचर-फ़्लैग।
रेट लिमिट: 1000 यूज़र बर्स्ट — SQS/Kafka कतार; Black Friday से पहले लोड-टेस्ट। API रेफ़ में डिफ़ॉल्ट आवाज़ + इंस्ट्रक्शन दस्तावेज़ करें।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /10K chars | ₹20.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- टोन के लिए Instructions फ़ील्ड
- 6 OpenAI आवाज़ें
तकनीकी विवरण
- मॉडल id: gpt-4o-mini-tts
- POST /v1/audio/speech
ताकतें
- स्टीयरेबल डिलीवरी
- प्राकृतिक गुणवत्ता
सीमाएं
- अंग्रेज़ी-केंद्रित आवाज़ें
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/speech \
-H "Authorization: Bearer cm_YOUR_KEY" \
-d '{"model": "gpt-4o-mini-tts", "input": "Hello world", "voice": "alloy"}'एंडपॉइंट: POST /v1/audio/speech · मॉडल ID: gpt-4o-mini-tts
gpt-4o-mini-tts अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।