टेक्स्ट टू स्पीचindian-languages

Bulbul v3

द्वारा Sarvam AI · रिलीज़ February 5, 2026

Sarvam AI का प्राकृतिक टेक्स्ट-टू-स्पीच मॉडल। 11 भारतीय भाषाओं में 39 आवाज़ें, प्रोडक्शन-रेडी गुणवत्ता। गति, पिच, विराम और ज़ोर के लिए SSML सपोर्ट। कोड-मिक्स्ड टेक्स्ट और संख्या सामान्यीकरण तैयार।

टेक्स्ट टू स्पीच

Bulbul v3

द्वारा संचालित Sarvam AI · Proprietary TTS model

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Undisclosed

अधिकतम आउटपुट

N/A

श्रेणी

टेक्स्ट टू स्पीच

अवलोकन

Bulbul v3, 5 फ़रवरी 2026 को जारी, Sarvam AI का प्रोडक्शन-रेडी टेक्स्ट-टू-स्पीच मॉडल है — 11 भारतीय भाषाओं में 39 प्राकृतिक आवाज़ें। आवाज़ें रोबोटिक नहीं, बल्कि प्राकृतिक और संवादात्मक सुनाई देती हैं; IVR, वॉयस एजेंट और टेलीफ़ोनी प्लेटफ़ॉर्म जैसे ग्राहक-सामने वाले उपयोग के लिए उपयुक्त।

मॉडल प्रोसोडी पर बारीक नियंत्रण के लिए SSML (Speech Synthesis Markup Language) सपोर्ट करता है — डेवलपर गति, पिच, वॉल्यूम समायोजित कर सकते हैं, विराम जोड़ सकते हैं और शब्दों पर ज़ोर दे सकते हैं। कोड-मिक्स्ड टेक्स्ट मूल रूप से संभालता है, भाषा टैग के बिना हिंदी-अंग्रेज़ी मिश्र वाक्य सही उच्चारित करता है। संख्या सामान्यीकरण, तारीख फ़ॉर्मेटिंग और मुद्रा पढ़ना स्वचालित है।

Bulbul v3 टेलीफ़ोनी और कॉल सेंटर डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी है, सभी 39 आवाज़ों और 11 भाषाओं में सुसंगत गुणवत्ता। लिंग, उम्र और क्षेत्रीय उच्चारण की विस्तृत श्रृंखला लक्षित दर्शकों से मेल खाने देती है। $0.53 प्रति 10K अक्षर — उच्च-वॉल्यूम TTS वर्कलोड के लिए प्रतिस्पर्धी मूल्य।

प्राइसिंग

मेट्रिककीमत
कीमत /10K chars₹53.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • 11 भारतीय भाषाओं में 39 प्राकृतिक आवाज़ें
  • प्रोसोडी, विराम, ज़ोर के लिए SSML सपोर्ट
  • कोड-मिक्स्ड टेक्स्ट हैंडलिंग (Hinglish आदि)
  • कॉल सेंटर और टेलीफ़ोनी के लिए प्रोडक्शन-रेडी

बेंचमार्क

बेंचमार्कस्कोर
MOS Score4.2/5
Voices39
Languages11
SSML SupportFull

तकनीकी विवरण

  • 11 भारतीय भाषाओं में 39 प्राकृतिक-सुनाई आवाज़ें
  • SSML सपोर्ट: गति, पिच, वॉल्यूम, विराम, ज़ोर, फ़ोनेम
  • मूल कोड-मिक्स्ड टेक्स्ट हैंडलिंग (Hinglish, Tanglish आदि)
  • स्वचालित संख्या सामान्यीकरण, तारीख फ़ॉर्मेटिंग, मुद्रा पढ़ना
  • टेलीफ़ोनी और कॉल सेंटर डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी
  • सभी आवाज़ों और भाषाओं में सुसंगत गुणवत्ता

ताकतें

  • 39 प्राकृतिक आवाज़ें — भारतीय भाषाओं के लिए सबसे विस्तृत चयन
  • बारीक प्रोसोडी नियंत्रण के लिए पूर्ण SSML सपोर्ट
  • भाषा टैग के बिना मूल कोड-मिक्स्ड टेक्स्ट हैंडलिंग
  • टेलीफ़ोनी और कॉल सेंटर के लिए प्रोडक्शन-रेडी गुणवत्ता

सीमाएं

  • केवल 11 भारतीय भाषाएँ — वैश्विक भाषा कवरेज नहीं
  • वॉयस क्लोनिंग और कस्टम आवाज़ निर्माण अभी सपोर्टेड नहीं
  • बहुत लंबे टेक्स्ट इनपुट पर ऑडियो गुणवत्ता भिन्न हो सकती है

उपयोग के मामले

वॉयस एजेंटIVR सिस्टमऑडियोबुक जनरेशनएक्सेसिबिलिटी ऐप्लिकेशन

API उदाहरण

curl https://api.callmissed.com/v1/audio/speech \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "bulbul:v3", "input": "Namaste, aapka order confirm ho gaya hai.", "voice": "meera"}' \
  --output speech.mp3

एंडपॉइंट: POST /v1/audio/speech · मॉडल ID: bulbul:v3

Bulbul v3 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।