स्पीच टू टेक्स्टindian-languages

Gnani Prisma v2.5

द्वारा Gnani · रिलीज़ 2025

Gnani.ai's India-first speech-to-text model. Telephony-grade accuracy across 10 Indian languages with native code-switching, sub-4% WER on Indian English. Built for contact centers and real-time voice agents with WebSocket streaming and batch transcription.

स्पीच टू टेक्स्ट

Gnani Prisma v2.5

द्वारा संचालित Gnani · Gnani Prisma v2.5 ASR (trained on 14M+ hrs telephonic audio)

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

5B

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

Gnani Prisma v2.5 is Gnani.ai's India-first speech-to-text model, engineered for the realities of Indian telephony — noisy lines, regional accents, and speakers who switch between languages mid-sentence. It covers 10 Indian languages (Bengali, English, Gujarati, Hindi, Kannada, Malayalam, Marathi, Punjabi, Tamil, and Telugu) with native code-switching, so Hinglish and other mixed-language speech transcribe cleanly without language tags.

The model is trained on a large corpus of telephonic audio and tuned for contact-center conditions, delivering sub-4% Word Error Rate on Indian-accented English. It supports two deployment modes: real-time streaming over WebSocket for live transcription (voice agents, live captioning, agent-assist) and batch transcription over REST for processing recorded calls and audio files.

Gnani Prisma v2.5 is a strong fit for Indian enterprises running high-volume call operations where telephony robustness and code-switching matter more than broad global language coverage. At $0.27 per audio hour it is competitively priced for production transcription workloads on the CallMissed platform.

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹27.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • 10 Indian languages with native code-switching
  • Telephony-grade — sub-4% WER on Indian English
  • WebSocket पर रियल-टाइम स्ट्रीमिंग
  • REST API पर बैच ट्रांसक्रिप्शन

बेंचमार्क

बेंचमार्कस्कोर
Indian English WER<4%
Languages10
Audio ProfileTelephony
DeploymentRealtime + Batch

तकनीकी विवरण

  • Supports 10 Indian languages (bn, en, gu, hi, kn, ml, mr, pa, ta, te) with native code-switching
  • Telephony-grade accuracy — sub-4% WER on Indian-accented English
  • लाइव ट्रांसक्रिप्शन के लिए WebSocket पर रियल-टाइम स्ट्रीमिंग
  • रिकॉर्डेड ऑडियो के लिए REST API पर बैच ट्रांसक्रिप्शन
  • Trained on large-scale telephonic audio for contact-center conditions
  • Production-ready for high-volume Indian call operations

ताकतें

  • Telephony-grade accuracy tuned for Indian contact centers
  • Native code-switching across 10 Indian languages
  • Sub-4% WER on Indian-accented English
  • Real-time WebSocket streaming plus batch transcription

सीमाएं

  • भारतीय भाषाओं पर केंद्रित — सामान्य बहुभाषी STT नहीं
  • कम प्रचलित भारतीय भाषाओं में सटीकता भिन्न हो सकती है
  • WebSocket स्ट्रीमिंग के लिए लगातार कनेक्शन प्रबंधन चाहिए

उपयोग के मामले

Contact center transcriptionवॉयस एजेंट बैकएंडAgent-assist and live captioningMultilingual call analytics

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -F file=@audio.wav \
  -F model=gnani-prisma-v2.5 \
  -F language=hi

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: gnani-prisma-v2.5

Gnani Prisma v2.5 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।