Saaras v3
द्वारा Sarvam AI · रिलीज़ 2025
Sarvam AI का फ़्लैगशिप स्पीच-टू-टेक्स्ट मॉडल। 22 भारतीय भाषाओं के साथ अंग्रेज़ी पर उद्योग-अग्रणी सटीकता। कोड-मिक्स्ड भाषण (जैसे वाक्य के बीच हिंदी-अंग्रेज़ी बदलना) मूल रूप से संभालता है। WebSocket पर रियल-टाइम स्ट्रीमिंग और REST पर बैच ट्रांसक्रिप्शन सपोर्ट करता है।
Saaras v3
द्वारा संचालित Sarvam AI · Proprietary ASR model
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
Undisclosed
अधिकतम आउटपुट
N/A
श्रेणी
स्पीच टू टेक्स्ट
अवलोकन
Saaras v3 Sarvam AI का फ़्लैगशिप स्पीच-टू-टेक्स्ट मॉडल है, जो 22 भारतीय भाषाओं के साथ अंग्रेज़ी पर उद्योग-अग्रणी सटीकता देता है। यह भारत की भाषाई जटिलता के लिए बनाया गया है — जहाँ बोलने वाले अक्सर वाक्य के बीच भाषाएँ बदलते हैं (कोड-मिक्सिंग), क्षेत्रीय उच्चारण इस्तेमाल करते हैं, और कॉल सेंटर व सार्वजनिक स्थानों जैसे शोरगुल वाले माहौल में बोलते हैं।
मॉडल दो डिप्लॉयमेंट मोड सपोर्ट करता है: लाइव ट्रांसक्रिप्शन (वॉयस एजेंट, लाइव कैप्शनिंग, मीटिंग ट्रांसक्रिप्शन) के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग, और रिकॉर्डेड ऑडियो फ़ाइलों के लिए REST API पर बैच ट्रांसक्रिप्शन। दोनों मोड सभी 22 समर्थित भारतीय भाषाओं में उच्च सटीकता देते हैं, खासकर Hinglish (हिंदी-अंग्रेज़ी) और Tanglish (तमिल-अंग्रेज़ी) जैसे कोड-मिक्स्ड भाषण पर।
Saaras v3 एंटरप्राइज़ डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी है, टेलीफ़ोनी ऑडियो गुणवत्ता, बैकग्राउंड शोर और कई स्पीकर को मज़बूती से संभालता है। भारतीय बाज़ार के ऐप्स के लिए यह पसंदीदा विकल्प है जिन्हें देश की विविध भाषाई परिदृश्य में सटीक, रियल-टाइम स्पीच रिकग्निशन चाहिए।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /hour | ₹53.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- 22 भारतीय भाषाएँ + अंग्रेज़ी
- मूल कोड-मिक्स्ड भाषण हैंडलिंग (Hinglish आदि)
- WebSocket पर रियल-टाइम स्ट्रीमिंग
- REST API पर बैच ट्रांसक्रिप्शन
बेंचमार्क
| बेंचमार्क | स्कोर |
|---|---|
| Hindi WER | <8% |
| Code-Mixed WER | <12% |
| English WER | <6% |
| Languages | 23 |
तकनीकी विवरण
- 22 भारतीय भाषाएँ + अंग्रेज़ी, मूल कोड-मिक्स्ड हैंडलिंग के साथ
- लाइव ट्रांसक्रिप्शन के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग
- रिकॉर्डेड ऑडियो के लिए REST API पर बैच ट्रांसक्रिप्शन
- टेलीफ़ोनी ऑडियो गुणवत्ता, बैकग्राउंड शोर और कई स्पीकर संभालता है
- भारतीय उच्चारण और क्षेत्रीय उच्चारण विविधताओं के लिए अनुकूलित
- कॉल सेंटर और एंटरप्राइज़ डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी
ताकतें
- 22 भारतीय भाषाओं पर उद्योग-अग्रणी सटीकता
- मूल कोड-मिक्स्ड भाषण हैंडलिंग — भारतीय बाज़ार के लिए अनोखी क्षमता
- लाइव ऐप्लिकेशन के लिए रियल-टाइम WebSocket स्ट्रीमिंग
- टेलीफ़ोनी ऑडियो और शोरगुल वाले माहौल की मज़बूत हैंडलिंग
सीमाएं
- भारतीय भाषाओं पर केंद्रित — सामान्य बहुभाषी STT नहीं
- कम प्रचलित भारतीय भाषाओं में सटीकता भिन्न हो सकती है
- WebSocket स्ट्रीमिंग के लिए लगातार कनेक्शन प्रबंधन चाहिए
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/transcriptions \ -H "Authorization: Bearer cm_YOUR_KEY" \ -F file=@audio.wav \ -F model=saaras:v3 \ -F language=hi
एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: saaras:v3
Saaras v3 अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।