Speech-to-Text API

भारतीय भाषाओं के लिए बना Speech-to-text API

22 भारतीय भाषाओं के लिए सबसे तेज़, सबसे सस्ता, सबसे सटीक speech-to-text API. 400ms से कम स्ट्रीमिंग WebSocket, OpenAI-संगत बैच, $0.004 प्रति मिनट।

22 भारतीय भाषाएं मूल रूप से प्रशिक्षित (English से अनुवादित नहीं)
Hinglish + Tanglish code-switching संभाला गया
स्ट्रीमिंग (<400ms) + बैच (फ़ाइल अपलोड)
$0.004/min — Google STT से 75% सस्ता

फ्री शुरू करें डेमो बुक करें

Sound wave audio visualization for speech recognition

22भारतीय भाषाएँ

<400msस्ट्रीमिंग लेटेंसी

95%+WER सटीकता

$0.004प्रति मिनट

यह कैसे काम करता है

4 लाइन कोड में ऑडियो ट्रांसक्राइब करना

OpenAI-संगत बैच। मूल WebSocket स्ट्रीमिंग। अपना रास्ता चुनें।

API key प्राप्त करें

app.callmissed.com पर साइन अप करें और अपनी cm_ API key कॉपी करें। 1000 मुफ्त API क्रेडिट संलग्न।

ऑडियो भेजें

WAV, MP3, FLAC, OGG, या M4A फ़ाइल POST करें — या लाइव ऑडियो के लिए WebSocket पर raw PCM स्ट्रीम करें।

ट्रांसक्रिप्ट प्राप्त करें

टाइमस्टैम्प, speaker diarization, word-level confidence, और स्वचालित भाषा पहचान के साथ JSON प्रतिक्रिया।

डाउनस्ट्रीम उपयोग करें

Q&A के लिए किसी LLM में पाइप करें, मीटिंग्स का सारांश बनाएं, वीडियो कैप्शन करें, या अपने ASR-निर्भर वर्कफ़्लो को फ़ीड करें।

फीचर्स

CallMissed STT को क्या अलग बनाता है

यदि आपने Hindi ऑडियो पर Google STT या Whisper आज़माया है, तो आप जानते हैं कि क्या गलत है। यह उसे ठीक करता है।

22 भारतीय भाषाएं मूल रूप से प्रशिक्षित

Hindi, Tamil, Telugu, Bengali, Marathi, Kannada, Malayalam, Gujarati, Punjabi, Odia, Assamese, Urdu + 10 और — साथ ही English (Indian, US, UK उच्चारण)। English से अनुवादित नहीं — भारतीय वाणी पर प्रशिक्षित।

स्ट्रीमिंग + बैच मोड

रियल-टाइम ऐप्स के लिए WebSocket स्ट्रीमिंग (<400ms आंशिक ट्रांसक्रिप्ट), या फ़ाइलों के लिए HTTP बैच। समान API आकार, समान मॉडल गुणवत्ता।

Hinglish + कोड-स्विचिंग

ग्राहक वाक्य के बीच में Hindi और English के बीच स्विच करते हैं। हमारे मॉडल दोनों को डिकोड करते हैं, प्रत्येक शब्द को उसकी स्रोत भाषा के साथ टैग करते हैं, और मिश्रित वाणी पर कभी सटीकता नहीं खोते।

Word-level timestamps + diarization

प्रत्येक शब्द के साथ start/end समय और confidence score आता है। बहु-वक्ता ऑडियो को स्वचालित रूप से speaker_0/speaker_1 लेबल मिलते हैं।

कस्टम vocabulary

अनुरोध के समय एक कस्टम vocab सूची पास करके अपने ब्रांड नामों, product SKUs, चिकित्सा शब्दों, या क्षेत्रीय स्थान नामों की पहचान को बढ़ाएं।

डेटा गोपनीयता + PII redaction

ऑडियो हमारे India क्षेत्र (Azure Central India) में संग्रहीत, 30 दिनों के बाद स्वतः हटाया जाता है। शब्द स्तर पर वैकल्पिक on-request PII redaction (फ़ोन नंबर, Aadhaar, कार्ड नंबर)।

उपयोग के मामले

Speech-to-text उपयोग मामले

वास्तविक परिनियोजन, वास्तविक डेटा दरें, वास्तविक लागत बचत।

कॉल सेंटर QA

अनुपालन + कोचिंग के लिए 100% कॉल्स ट्रांसक्राइब करें

आपका कॉल सेंटर एक दिन में 10,000 कॉल्स रिकॉर्ड करता है। मानव QA शायद उनमें से 200 का नमूना लेता है। सभी 10,000 को ट्रांसक्राइब करने के लिए STT API का उपयोग करें — फिर डाउनस्ट्रीम अनुपालन जांच, keyword spotting, और sentiment analysis चलाएं।

परिणाम

मैनुअल लागत के 1% पर 100% कॉल QA।

मीटिंग ट्रांसक्रिप्शन

भारतीय-भाषा मीटिंग नोट्स + एक्शन आइटम

टीमें Hindi, Tamil, Marathi, या Hinglish में मीटिंग्स करती हैं। मीटिंग ऑडियो को STT API में स्ट्रीम करें, फिर सारांश, एक्शन आइटम, और निर्णय लॉग के लिए ट्रांसक्रिप्ट को किसी LLM में पाइप करें।

परिणाम

बोली गई भाषा में, 30 सेकंड में मीटिंग नोट्स।

Media & OTT

भारतीय-भाषा कैप्शन और सबटाइटल

स्ट्रीमिंग प्लेटफ़ॉर्म और प्रसारकों को 10+ भारतीय भाषाओं में कैप्शन चाहिए। STT API word-level timestamps के साथ समयबद्ध कैप्शन उत्पन्न करता है, SRT/WebVTT एक्सपोर्ट के लिए तैयार।

परिणाम

मानव कैप्शनिंग सेवाओं की तुलना में 10x सस्ता।

एडटेक

भाषा सीखने वालों के लिए उच्चारण स्कोरिंग

छात्र ऐप में बोलते हैं, STT प्रति-शब्द confidence के साथ ट्रांसक्राइब करता है, और आपका ऐप उच्चारण फीडबैक देने के लिए अपेक्षित बनाम वास्तविक phonemes की तुलना करता है — 22 भारतीय भाषाओं में।

परिणाम

बाहरी विक्रेताओं के बिना अंतर्निहित उच्चारण कोच।

फ़ील्ड / ग्रामीण अनुप्रयोग

Voice-first डेटा संग्रह

ग्रामीण India में गणनाकार सर्वेक्षण प्रतिक्रियाएं सीधे आपके मोबाइल ऐप में बोलते हैं (कोई टाइपिंग नहीं)। STT उनकी वाणी को स्थानीय भाषा में ट्रांसक्राइब करता है, आपका ऐप संरचित फ़ील्ड निकालता है, और कनेक्टिविटी लौटने पर डेटा सिंक होता है।

परिणाम

उत्तरदाता की भाषा में डेटा संग्रह, 3x तेज़।

Accessibility

लाइव इवेंट्स के लिए रियल-टाइम कैप्शन

सम्मेलनों, वेबिनार, या सरकारी प्रसारणों के लिए लाइव कैप्शन। WebSocket API में ऑडियो स्ट्रीम करें, <400ms में आंशिक ट्रांसक्रिप्ट रेंडर करें — ताकि बधिर और कम सुनने वाले उपस्थित लोग रियल टाइम में साथ चल सकें।

परिणाम

मानव कैप्शनर के बिना WCAG-अनुपालन लाइव कैप्शन।

तुलना करें

CallMissed STT बनाम Google, AWS, Whisper, Deepgram

भारतीय-भाषा सटीकता पर, हम हर प्रमुख प्रदाता को हराते हैं — कीमत के एक-चौथाई पर।

फ़ीचर	CallMissed	Google STT	AWS Transcribe	Whisper API	Deepgram
22 Indian languages
Hinglish + code-switching
Streaming WebSocket <400ms
Word-level timestamps
Speaker diarization
Custom vocabulary
OpenAI-compatible API shape
India data residency
Price / minute	$0.004	$0.016	$0.024	$0.006	$0.0043

Comparison based on publicly listed features as of 2026. Check each vendor's site for the latest.

Code

Python, Node, curl — 30 सेकंड में ट्रांसक्राइब करना शुरू करें

The CallMissed STT API follows the OpenAI audio transcription shape. If you've ever called openai.audio.transcriptions.create(), this is a drop-in.

python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.callmissed.com/v1",
    api_key="cm_your_key",
)

with open("call_recording.mp3", "rb") as audio:
    result = client.audio.transcriptions.create(
        model="saaras:v3",             # Sarvam — Indian + code-mixed.
                                       # Also: "whisper-large-v3-turbo" (99 langs)
                                       # Also: "nova-3" (Deepgram, diarize + smart-format)
        file=audio,
        language="hi-IN",              # Sarvam BCP-47; "unknown" for auto-detect
        response_format="verbose_json",
    )

print(result.text)

Python — file transcription with speaker diarization

javascript

import { CallMissed } from "callmissed";

const cm = new CallMissed({ apiKey: process.env.CM_KEY });
const stream = cm.audio.stt.stream({
  model: "saarika-v2",
  language: "hi",
  sampleRate: 16000,
});

stream.on("partial", (t) => console.log("partial:", t.text));
stream.on("final",   (t) => console.log("final:", t.text, "speaker:", t.speaker));

// pipe raw PCM from your mic / getUserMedia
micStream.on("data", (chunk) => stream.send(chunk));

Node/JS — streaming transcription from a microphone

अक्सर पूछे जाने वाले प्रश्न

Speech-to-text API के सवाल, उत्तर सहित

speech-to-text (STT) API एक REST या WebSocket endpoint है जो ऑडियो (माइक्रोफ़ोन, फ़ोन कॉल, रिकॉर्ड की गई फ़ाइल) को टेक्स्ट ट्रांसक्रिप्ट में बदलता है। आप ऑडियो बाइट्स भेजते हैं, यह टाइमस्टैम्प, confidence scores, और वैकल्पिक speaker labels के साथ शब्द लौटाता है। CallMissed का STT API विशेष रूप से भारतीय भाषाओं और उच्चारणों पर प्रशिक्षित है, जो इसे Hindi, Tamil, Telugu, Bengali, Marathi, और 17 अन्य के लिए सबसे सटीक विकल्प बनाता है।

30 सेकंड में Hindi में ट्रांसक्राइब करना शुरू करें

मुफ्त साइन अप करें, API key प्राप्त करें, हमारा snippet पेस्ट करें। 1000 API क्रेडिट शामिल — लगभग 2,500 मिनट की ट्रांसक्रिप्शन।

API key पाएँ STT docs पढ़ें