Sarvam AI's flagship speech-to-text model. Industry-leading accuracy for 22 Indian languages plus English. Handles code-mixed speech (e.g. switching between Hindi and English mid-sentence) natively. Supports real-time streaming via WebSocket and batch transcription via REST.

How much does Saaras v3 cost?

Saaras v3 costs $0.53/hour on CallMissed. 1 credit = ₹1 = $0.01 USD.

How do I use Saaras v3 via API?

Send a POST request to POST /v1/audio/transcriptions with model "saaras:v3" and your API key. CallMissed uses the OpenAI-compatible format — just change the base URL and model field.

What is the context window of Saaras v3?

Saaras v3 supports a N/A token context window with up to N/A output tokens.

सभी मॉडल पर वापस जाएं

स्पीच टू टेक्स्टindian-languages

Saaras v3

द्वारा Sarvam AI · रिलीज़ 2025

Sarvam AI का फ़्लैगशिप स्पीच-टू-टेक्स्ट मॉडल। 22 भारतीय भाषाओं के साथ अंग्रेज़ी पर उद्योग-अग्रणी सटीकता। कोड-मिक्स्ड भाषण (जैसे वाक्य के बीच हिंदी-अंग्रेज़ी बदलना) मूल रूप से संभालता है। WebSocket पर रियल-टाइम स्ट्रीमिंग और REST पर बैच ट्रांसक्रिप्शन सपोर्ट करता है।

स्पीच टू टेक्स्ट

Saaras v3

द्वारा संचालित Sarvam AI · Proprietary ASR model

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Undisclosed

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

Saaras v3 Sarvam AI का फ़्लैगशिप स्पीच-टू-टेक्स्ट मॉडल है, जो 22 भारतीय भाषाओं के साथ अंग्रेज़ी पर उद्योग-अग्रणी सटीकता देता है। यह भारत की भाषाई जटिलता के लिए बनाया गया है — जहाँ बोलने वाले अक्सर वाक्य के बीच भाषाएँ बदलते हैं (कोड-मिक्सिंग), क्षेत्रीय उच्चारण इस्तेमाल करते हैं, और कॉल सेंटर व सार्वजनिक स्थानों जैसे शोरगुल वाले माहौल में बोलते हैं।

मॉडल दो डिप्लॉयमेंट मोड सपोर्ट करता है: लाइव ट्रांसक्रिप्शन (वॉयस एजेंट, लाइव कैप्शनिंग, मीटिंग ट्रांसक्रिप्शन) के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग, और रिकॉर्डेड ऑडियो फ़ाइलों के लिए REST API पर बैच ट्रांसक्रिप्शन। दोनों मोड सभी 22 समर्थित भारतीय भाषाओं में उच्च सटीकता देते हैं, खासकर Hinglish (हिंदी-अंग्रेज़ी) और Tanglish (तमिल-अंग्रेज़ी) जैसे कोड-मिक्स्ड भाषण पर।

Saaras v3 एंटरप्राइज़ डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी है, टेलीफ़ोनी ऑडियो गुणवत्ता, बैकग्राउंड शोर और कई स्पीकर को मज़बूती से संभालता है। भारतीय बाज़ार के ऐप्स के लिए यह पसंदीदा विकल्प है जिन्हें देश की विविध भाषाई परिदृश्य में सटीक, रियल-टाइम स्पीच रिकग्निशन चाहिए।

प्राइसिंग

मेट्रिक	कीमत
कीमत /hour	₹53.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

22 भारतीय भाषाएँ + अंग्रेज़ी
मूल कोड-मिक्स्ड भाषण हैंडलिंग (Hinglish आदि)
WebSocket पर रियल-टाइम स्ट्रीमिंग
REST API पर बैच ट्रांसक्रिप्शन

बेंचमार्क

बेंचमार्क	स्कोर	नोट्स
Hindi WER	<8%	हिंदी भाषण पर Word Error Rate
Code-Mixed WER	<12%	Hinglish और अन्य कोड-मिक्स्ड भाषण
English WER	<6%	भारतीय उच्चारण वाली अंग्रेज़ी
Languages	23	22 भारतीय भाषाएँ + अंग्रेज़ी

तकनीकी विवरण

22 भारतीय भाषाएँ + अंग्रेज़ी, मूल कोड-मिक्स्ड हैंडलिंग के साथ
लाइव ट्रांसक्रिप्शन के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग
रिकॉर्डेड ऑडियो के लिए REST API पर बैच ट्रांसक्रिप्शन
टेलीफ़ोनी ऑडियो गुणवत्ता, बैकग्राउंड शोर और कई स्पीकर संभालता है
भारतीय उच्चारण और क्षेत्रीय उच्चारण विविधताओं के लिए अनुकूलित
कॉल सेंटर और एंटरप्राइज़ डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी

ताकतें

22 भारतीय भाषाओं पर उद्योग-अग्रणी सटीकता
मूल कोड-मिक्स्ड भाषण हैंडलिंग — भारतीय बाज़ार के लिए अनोखी क्षमता
लाइव ऐप्लिकेशन के लिए रियल-टाइम WebSocket स्ट्रीमिंग
टेलीफ़ोनी ऑडियो और शोरगुल वाले माहौल की मज़बूत हैंडलिंग

सीमाएं

भारतीय भाषाओं पर केंद्रित — सामान्य बहुभाषी STT नहीं
कम प्रचलित भारतीय भाषाओं में सटीकता भिन्न हो सकती है
WebSocket स्ट्रीमिंग के लिए लगातार कनेक्शन प्रबंधन चाहिए

उपयोग के मामले

कॉल सेंटर ट्रांसक्रिप्शनवॉयस एजेंट बैकएंडमीटिंग ट्रांसक्रिप्शनबहुभाषी डिक्टेशन

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -F file=@audio.wav \
  -F model=saaras:v3 \
  -F language=hi

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: saaras:v3

Saaras v3 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।

फ्री शुरू करें डॉक्स पढ़ें