Bulbul v3
द्वारा Sarvam AI · रिलीज़ February 5, 2026
Sarvam AI का प्राकृतिक टेक्स्ट-टू-स्पीच मॉडल। 11 भारतीय भाषाओं में 39 आवाज़ें, प्रोडक्शन-रेडी गुणवत्ता। गति, पिच, विराम और ज़ोर के लिए SSML सपोर्ट। कोड-मिक्स्ड टेक्स्ट और संख्या सामान्यीकरण तैयार।
Bulbul v3
द्वारा संचालित Sarvam AI · Proprietary TTS model
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
Undisclosed
अधिकतम आउटपुट
N/A
श्रेणी
टेक्स्ट टू स्पीच
अवलोकन
Bulbul v3, 5 फ़रवरी 2026 को जारी, Sarvam AI का प्रोडक्शन-रेडी टेक्स्ट-टू-स्पीच मॉडल है — 11 भारतीय भाषाओं में 39 प्राकृतिक आवाज़ें। आवाज़ें रोबोटिक नहीं, बल्कि प्राकृतिक और संवादात्मक सुनाई देती हैं; IVR, वॉयस एजेंट और टेलीफ़ोनी प्लेटफ़ॉर्म जैसे ग्राहक-सामने वाले उपयोग के लिए उपयुक्त।
मॉडल प्रोसोडी पर बारीक नियंत्रण के लिए SSML (Speech Synthesis Markup Language) सपोर्ट करता है — डेवलपर गति, पिच, वॉल्यूम समायोजित कर सकते हैं, विराम जोड़ सकते हैं और शब्दों पर ज़ोर दे सकते हैं। कोड-मिक्स्ड टेक्स्ट मूल रूप से संभालता है, भाषा टैग के बिना हिंदी-अंग्रेज़ी मिश्र वाक्य सही उच्चारित करता है। संख्या सामान्यीकरण, तारीख फ़ॉर्मेटिंग और मुद्रा पढ़ना स्वचालित है।
Bulbul v3 टेलीफ़ोनी और कॉल सेंटर डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी है, सभी 39 आवाज़ों और 11 भाषाओं में सुसंगत गुणवत्ता। लिंग, उम्र और क्षेत्रीय उच्चारण की विस्तृत श्रृंखला लक्षित दर्शकों से मेल खाने देती है। $0.53 प्रति 10K अक्षर — उच्च-वॉल्यूम TTS वर्कलोड के लिए प्रतिस्पर्धी मूल्य।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /10K chars | ₹53.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- 11 भारतीय भाषाओं में 39 प्राकृतिक आवाज़ें
- प्रोसोडी, विराम, ज़ोर के लिए SSML सपोर्ट
- कोड-मिक्स्ड टेक्स्ट हैंडलिंग (Hinglish आदि)
- कॉल सेंटर और टेलीफ़ोनी के लिए प्रोडक्शन-रेडी
बेंचमार्क
| बेंचमार्क | स्कोर |
|---|---|
| MOS Score | 4.2/5 |
| Voices | 39 |
| Languages | 11 |
| SSML Support | Full |
तकनीकी विवरण
- 11 भारतीय भाषाओं में 39 प्राकृतिक-सुनाई आवाज़ें
- SSML सपोर्ट: गति, पिच, वॉल्यूम, विराम, ज़ोर, फ़ोनेम
- मूल कोड-मिक्स्ड टेक्स्ट हैंडलिंग (Hinglish, Tanglish आदि)
- स्वचालित संख्या सामान्यीकरण, तारीख फ़ॉर्मेटिंग, मुद्रा पढ़ना
- टेलीफ़ोनी और कॉल सेंटर डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी
- सभी आवाज़ों और भाषाओं में सुसंगत गुणवत्ता
ताकतें
- 39 प्राकृतिक आवाज़ें — भारतीय भाषाओं के लिए सबसे विस्तृत चयन
- बारीक प्रोसोडी नियंत्रण के लिए पूर्ण SSML सपोर्ट
- भाषा टैग के बिना मूल कोड-मिक्स्ड टेक्स्ट हैंडलिंग
- टेलीफ़ोनी और कॉल सेंटर के लिए प्रोडक्शन-रेडी गुणवत्ता
सीमाएं
- केवल 11 भारतीय भाषाएँ — वैश्विक भाषा कवरेज नहीं
- वॉयस क्लोनिंग और कस्टम आवाज़ निर्माण अभी सपोर्टेड नहीं
- बहुत लंबे टेक्स्ट इनपुट पर ऑडियो गुणवत्ता भिन्न हो सकती है
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/speech \
-H "Authorization: Bearer cm_YOUR_KEY" \
-d '{"model": "bulbul:v3", "input": "Namaste, aapka order confirm ho gaya hai.", "voice": "meera"}' \
--output speech.mp3एंडपॉइंट: POST /v1/audio/speech · मॉडल ID: bulbul:v3
Bulbul v3 अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।