स्पीच टू टेक्स्टindian-languages

Saaras v3

द्वारा Sarvam AI · रिलीज़ 2025

Sarvam AI का फ़्लैगशिप स्पीच-टू-टेक्स्ट मॉडल। 22 भारतीय भाषाओं के साथ अंग्रेज़ी पर उद्योग-अग्रणी सटीकता। कोड-मिक्स्ड भाषण (जैसे वाक्य के बीच हिंदी-अंग्रेज़ी बदलना) मूल रूप से संभालता है। WebSocket पर रियल-टाइम स्ट्रीमिंग और REST पर बैच ट्रांसक्रिप्शन सपोर्ट करता है।

स्पीच टू टेक्स्ट

Saaras v3

द्वारा संचालित Sarvam AI · Proprietary ASR model

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Undisclosed

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

Saaras v3 Sarvam AI का फ़्लैगशिप स्पीच-टू-टेक्स्ट मॉडल है, जो 22 भारतीय भाषाओं के साथ अंग्रेज़ी पर उद्योग-अग्रणी सटीकता देता है। यह भारत की भाषाई जटिलता के लिए बनाया गया है — जहाँ बोलने वाले अक्सर वाक्य के बीच भाषाएँ बदलते हैं (कोड-मिक्सिंग), क्षेत्रीय उच्चारण इस्तेमाल करते हैं, और कॉल सेंटर व सार्वजनिक स्थानों जैसे शोरगुल वाले माहौल में बोलते हैं।

मॉडल दो डिप्लॉयमेंट मोड सपोर्ट करता है: लाइव ट्रांसक्रिप्शन (वॉयस एजेंट, लाइव कैप्शनिंग, मीटिंग ट्रांसक्रिप्शन) के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग, और रिकॉर्डेड ऑडियो फ़ाइलों के लिए REST API पर बैच ट्रांसक्रिप्शन। दोनों मोड सभी 22 समर्थित भारतीय भाषाओं में उच्च सटीकता देते हैं, खासकर Hinglish (हिंदी-अंग्रेज़ी) और Tanglish (तमिल-अंग्रेज़ी) जैसे कोड-मिक्स्ड भाषण पर।

Saaras v3 एंटरप्राइज़ डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी है, टेलीफ़ोनी ऑडियो गुणवत्ता, बैकग्राउंड शोर और कई स्पीकर को मज़बूती से संभालता है। भारतीय बाज़ार के ऐप्स के लिए यह पसंदीदा विकल्प है जिन्हें देश की विविध भाषाई परिदृश्य में सटीक, रियल-टाइम स्पीच रिकग्निशन चाहिए।

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹53.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • 22 भारतीय भाषाएँ + अंग्रेज़ी
  • मूल कोड-मिक्स्ड भाषण हैंडलिंग (Hinglish आदि)
  • WebSocket पर रियल-टाइम स्ट्रीमिंग
  • REST API पर बैच ट्रांसक्रिप्शन

बेंचमार्क

बेंचमार्कस्कोर
Hindi WER<8%
Code-Mixed WER<12%
English WER<6%
Languages23

तकनीकी विवरण

  • 22 भारतीय भाषाएँ + अंग्रेज़ी, मूल कोड-मिक्स्ड हैंडलिंग के साथ
  • लाइव ट्रांसक्रिप्शन के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग
  • रिकॉर्डेड ऑडियो के लिए REST API पर बैच ट्रांसक्रिप्शन
  • टेलीफ़ोनी ऑडियो गुणवत्ता, बैकग्राउंड शोर और कई स्पीकर संभालता है
  • भारतीय उच्चारण और क्षेत्रीय उच्चारण विविधताओं के लिए अनुकूलित
  • कॉल सेंटर और एंटरप्राइज़ डिप्लॉयमेंट के लिए प्रोडक्शन-रेडी

ताकतें

  • 22 भारतीय भाषाओं पर उद्योग-अग्रणी सटीकता
  • मूल कोड-मिक्स्ड भाषण हैंडलिंग — भारतीय बाज़ार के लिए अनोखी क्षमता
  • लाइव ऐप्लिकेशन के लिए रियल-टाइम WebSocket स्ट्रीमिंग
  • टेलीफ़ोनी ऑडियो और शोरगुल वाले माहौल की मज़बूत हैंडलिंग

सीमाएं

  • भारतीय भाषाओं पर केंद्रित — सामान्य बहुभाषी STT नहीं
  • कम प्रचलित भारतीय भाषाओं में सटीकता भिन्न हो सकती है
  • WebSocket स्ट्रीमिंग के लिए लगातार कनेक्शन प्रबंधन चाहिए

उपयोग के मामले

कॉल सेंटर ट्रांसक्रिप्शनवॉयस एजेंट बैकएंडमीटिंग ट्रांसक्रिप्शनबहुभाषी डिक्टेशन

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -F file=@audio.wav \
  -F model=saaras:v3 \
  -F language=hi

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: saaras:v3

Saaras v3 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।