टेक्स्ट टू स्पीचsteerable

gpt-4o-mini-tts

द्वारा OpenAI · रिलीज़ 2025

OpenAI gpt-4o-mini-tts — टोन और डिलीवरी के लिए `instructions` वाला स्टीयरेबल TTS। छह आवाज़ें।

टेक्स्ट टू स्पीच

gpt-4o-mini-tts

द्वारा संचालित OpenAI · Neural TTS

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Not disclosed

अधिकतम आउटपुट

N/A

श्रेणी

टेक्स्ट टू स्पीच

अवलोकन

`gpt-4o-mini-tts` OpenAI का GPT-4o mini पर बना स्टीयरेबल टेक्स्ट-टू-स्पीच मॉडल है — `instructions` फ़ील्ड से डिलीवरी स्टाइल (platform.openai.com/docs/models/gpt-4o-mini-tts और text-to-speech गाइड)। CallMissed पर `/v1/audio/speech` पर POST, `"model": "gpt-4o-mini-tts"`, `input` टेक्स्ट, `voice` नाम। MP3 या अन्य फ़ॉर्मैट।

OpenAI: प्रति अनुरोध 2,000 टोकन तक; मॉडल पेज पर लगभग $0.60/मिलियन इनपुट टेक्स्ट टोकन, $12.00/मिलियन आउटपुट ऑडियो टोकन। CallMissed रेट कार्ड: $0.20 प्रति 10K अक्षर। स्ट्रीमिंग ऑडियो — पूरा क्लिप जनरेट होने से पहले प्लेबैक।

आवाज़ें: alloy, echo, fable, onyx, nova, shimmer, ash, ballad, coral, sage, verse, marin, cedar (platform.openai.com/docs/guides/text-to-speech)। `instructions` अलग करता है — SSML बिना "गर्म और धीरे", "न्यूज़ एंकर", "फुसफुसाहट"। Azure रीजनल एंडपॉइंट; CallMissed ऑटो-रूट।

यूज़ केस: टेक्स्ट LLM के साथ वॉयस एजेंट, ऑडियोबुक ड्राफ़्ट, लोकलाइज़्ड IVR, एक्सेसिबिलिटी, इमोशनल रेंज वाले डेमो। स्केल पर अंग्रेज़ी टेलीफ़ोनी: Deepgram Aura (`aura-2-en`); भारतीय भाषाएँ: Sarvam Bulbul — जब इंस्ट्रक्शन-फ़ॉलोइंग ज़्यादा मायने रखे।

इंटीग्रेशन: लंबे आर्टिकल टोकन लिमिट से नीचे चंक करें, curl में JSON एस्केप, सामान्य वाक्य सर्वर-साइड कैश। मोबाइल पर स्ट्रीमिंग MP3 क्लिपिंग टेस्ट। डायलॉग: `gpt-4.1`/`gpt-4o`; TTS रेंडर।

सीमाएँ: अंग्रेज़ी-केंद्रित कैटलॉग, 2K टोकन कैप, सबसे सस्ता TTS नहीं (`melotts`, Aura सस्ते), ओवर-इंटरप्रिटेड इंस्ट्रक्शन — कंक्रीट प्रॉम्प्ट। डुप्लेक्स: `gpt-realtime` अलग TTS बायपास।

इंस्ट्रक्शन: "शांत एयरलाइन पायलट" > "अच्छा लगे"। कुछ वाक्यों से कम।

वॉयस ब्रांडिंग: प्रति प्रोडक्ट लाइन एक आवाज़। cedar/marin vs alloy डेमोग्राफ़िक टेस्ट।

लंबा कंटेंट: उपन्यास 2K से ऊपर — पैराग्राफ, क्लिप, ffmpeg। रियल-टाइम: वाक्य-दर-वाक्य।

स्ट्रीमिंग: पहले बाइट्स पर प्लेबैक; मोबाइल 200–500 ms बफ़र।

बहुभाषी: हिंदी/तमिल — Sarvam Bulbul; gpt-4o-mini-tts अंग्रेज़ी-केंद्रित।

लागत: melotts सबसे सस्ता, Aura अगला, gpt-4o-mini-tts स्टीयरेबिलिटी प्रीमियम, realtime डुप्लेक्स सबसे महँगा।

कैशिंग: IVR दोहराए वाक्य — CDN पर MP3, हर कॉल TTS नहीं।

एक्सेसिबिलिटी: TTS के साथ ट्रांसक्रिप्ट।

OpenAI गाइड: platform.openai.com/docs/guides/text-to-speech — UI पिकर से पहले allowlist।

IVR ROI: स्टूडियो वॉयसओवर हज़ारों; TTS सेंट — कॉपी तुरंत अपडेट।

पोस्ट-प्रोसेसिंग: -16 LUFS नॉर्मलाइज़ेशन; ब्रीथ के लिए नॉइज़ गेट।

पिटफ़ॉल: JSON कोट्स, लंबा `input` ट्रंकेट — चंक।

पेयरिंग: LLM बोले क्या; mini TTS कैसे। Realtime एक स्टैक।

एंटरप्राइज़: ब्रांड गाइड में आवाज़ + रंग।

मॉनिटरिंग: फेल रेट, अक्षर/अनुरोध, $/हज़ार अक्षर, अवधि।

नई आवाज़ें: बीटा में फ़ीचर-फ़्लैग।

रेट लिमिट: 1000 यूज़र बर्स्ट — SQS/Kafka कतार; Black Friday से पहले लोड-टेस्ट। API रेफ़ में डिफ़ॉल्ट आवाज़ + इंस्ट्रक्शन दस्तावेज़ करें।

प्राइसिंग

मेट्रिककीमत
कीमत /10K chars₹20.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • टोन के लिए Instructions फ़ील्ड
  • 6 OpenAI आवाज़ें

तकनीकी विवरण

  • मॉडल id: gpt-4o-mini-tts
  • POST /v1/audio/speech

ताकतें

  • स्टीयरेबल डिलीवरी
  • प्राकृतिक गुणवत्ता

सीमाएं

  • अंग्रेज़ी-केंद्रित आवाज़ें

उपयोग के मामले

वॉयस एजेंटकथनIVR

API उदाहरण

curl https://api.callmissed.com/v1/audio/speech \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "gpt-4o-mini-tts", "input": "Hello world", "voice": "alloy"}'

एंडपॉइंट: POST /v1/audio/speech · मॉडल ID: gpt-4o-mini-tts

gpt-4o-mini-tts अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।