स्पीच टू टेक्स्टmultilingual

whisper

द्वारा OpenAI · रिलीज़ 2024

Azure पर OpenAI Whisper — 99 भाषाएँ, ट्रांसक्राइब + अनुवाद। मॉडल id `whisper`।

स्पीच टू टेक्स्ट

whisper

द्वारा संचालित OpenAI · Encoder-decoder

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Whisper

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

CallMissed पर `whisper` मॉडल id Azure OpenAI पर होस्ट OpenAI Whisper स्पीच रिकग्निशन से मैप होता है — वही Whisper परिवार जो मज़बूत बहुभाषी ASR के लिए लोकप्रिय हुआ, यहाँ डिप्लॉयमेंट नाम `whisper` के तहत, OpenAI क्लाउड id `whisper-1` के बजाय। `/v1/audio/transcriptions` पर `model=whisper` (मल्टीपार्ट फ़ॉर्म अपलोड) से उपयोग करें, OpenAI ऑडियो ट्रांसक्रिप्शन API आकार के समान।

Whisper सामान्य-उद्देश्य स्पीच रिकग्निशन मॉडल है, दर्जनों भाषाएँ, स्वचालित भाषा पहचान, स्रोत भाषा में ट्रांसक्रिप्शन, और OpenAI प्लेटफ़ॉर्म पर अनुवाद एंडपॉइंट से वैकल्पिक अंग्रेज़ी अनुवाद। Azure प्रति अनुरोध 25 MB तक फ़ाइल और mp3, mp4, mpeg, mpga, m4a, wav, webm फ़ॉर्मैट दर्शाता है (learn.microsoft.com/azure/foundry/openai/whisper-quickstart)। CallMissed पर प्राइसिंग $0.40 प्रति ऑडियो घंटा — Cloudflare `whisper-large-v3-turbo` से अधिक, पर Azure एंटरप्राइज़ रूटिंग और सुसंगत OpenAI वेट।

`whisper` चुनें जब मीटिंग, पॉडकास्ट या कॉल रिकॉर्डिंग का बैच ट्रांसक्रिप्शन चाहिए जहाँ स्ट्रीमिंग आंशिक ट्रांसक्रिप्ट अनावश्यक हों, खासकर यदि आप पहले से OpenAI-संगत ऑडियो एंडपॉइंट पर मानकीकृत हैं। यह `whisper-large-v3-turbo` की जगह नहीं — Cloudflare मॉडल बल्क बहुभाषी काम के लिए सस्ता; Azure Whisper OpenAI/Azure अनुपालन मानदंड वाली टीमों के लिए।

इंटीग्रेशन: `file` के रूप में ऑडियो POST, `model=whisper`, वैकल्पिक `language` ISO कोड, `response_format` (`json`, `text`, `srt`, `vtt` जहाँ समर्थित)। Whisper verbose JSON सेगमेंट टाइमस्टैम्प — सबटाइटल पाइपलाइन के लिए उपयोगी। अनुवाद मोड Whisper-परिवार विशिष्ट; नए `gpt-4o-transcribe` मॉडल हर Whisper फ़ीचर नहीं दर्शाते — माइग्रेशन से पहले डॉक्स देखें।

सीमाएँ: CallMissed वॉइस सतहों पर केवल बैच (लाइव वॉइस एजेंट `saaras:v3`, `nova-3`, `gpt-4o-transcribe` जैसी स्ट्रीमिंग STT पसंद करते हैं), Whisper पथ पर स्पीकर डायराइज़ेशन नहीं (`gpt-4o-transcribe-diarize` उपयोग करें), प्रति अनुरोध फ़ाइल आकार सीमा। लंबी रिकॉर्डिंग क्लाइंट-साइड विभाजित करें। अंग्रेज़ी-भारी आर्काइव पर सबसे कम लागत: `whisper-large-v3-turbo` से बेंचमार्क। सबसे कम विलंबता आंशिक: `gpt-4o-mini-transcribe`।

बैच पाइपलाइन: घंटे भर की रिकॉर्डिंग 25 MB के तहत 10–15 मिनट के हिस्सों में, समानांतर वर्कर, ऑफ़सेट से टाइमस्टैम्प जोड़ें। Whisper verbose JSON में सेगमेंट टाइमस्टैम्प — एकीकृत टाइमलाइन के लिए।

भाषा रणनीति: बहुभाषी कॉल सेंटर पर `language` छोड़ें; चैनल ज्ञात हो तो `language=en`। Whisper कई भाषाएँ समर्थित पर गुणवत्ता भिन्न — Indic टेलीफ़ोनी पर Hindi बनाम `saaras:v3` बेंचमार्क करें।

अनुवाद पथ: Whisper-परिवार अंग्रेज़ी अनुवाद gpt-4o-transcribe क्षमताओं से अलग — `/audio/translations` पर निर्भर हों तो माइग्रेशन से पहले पुष्टि करें।

सबटाइटल: verbose JSON से start/end से SRT; मानव कैप्शनर से विराम चिह्न अंतर।

Azure बनाम Cloudflare Whisper: CallMissed `whisper-large-v3-turbo` कम $/घंटे भी देता है — Azure `whisper` जब अनुपालन पथ Azure OpenAI माँगे; टर्बो बड़े पैमाने पर आर्काइव लागत के लिए।

त्रुटि हैंडलिंग: दूषित ऑडियो 400 — अपस्ट्रीम कंटेनर सत्यापित करें। क्लिपिंग और खामोशी VAD-रहित बैच ASR को नुकसान पहुँचाती है।

पोस्ट-प्रोसेसिंग: ASR के बाद डोमेन शब्दकोश (मेडिकल, SKU) — मॉडल आंतरिक कोडनेम शायद ही जानते।

ऐतिहासिक संदर्भ: OpenAI ने 2022 में Whisper ओपन-सोर्स किया; Azure OpenAI और CallMissed GPU खुद चलाए बिना API के लिए `whisper` होस्ट करते हैं।

curl: `curl -X POST https://api.callmissed.com/v1/audio/transcriptions -H "Authorization: Bearer cm_KEY" -F model=whisper -F file=@call.mp3` JSON टेक्स्ट। `-F response_format=verbose_json` सेगमेंट टाइमस्टैम्प के लिए।

मीडिया तैयारी: अपलोड से पहले लाउडनेस (EBU R128); क्लिप्ड ऑडियो पर कठिनाई। ffmpeg से 16 kHz मोनो WAV।

उद्योग: पॉडकास्ट नेटवर्क रात भर बैच; कानूनी फर्म डिपोज़िशन; स्वास्थ्य HIPAA-लपेट स्टोरेज — CallMissed ट्रांज़िट एन्क्रिप्शन अकेले बकेट अनुपालन नहीं बनाता।

प्रतिस्पर्धी मैट्रिक्स: बनाम `gpt-4o-transcribe` — Whisper कुछ इंटीग्रेशन पर स्ट्रीमिंग आंशिक नहीं, अनुवाद एंडपॉइंट हाँ; बनाम `saaras:v3` — Sarvam कई Indic टेलीफ़ोनी सेट जीतता; बनाम Deepgram Nova — Nova डायराइज़ेशन वाले लाइव अंग्रेज़ी कॉल सेंटर।

अपग्रेड: स्ट्रीमिंग कैप्शन, स्पीकर लेबल या GPT-4o-क्लास पर सबसे कम WER चाहिए तो Whisper से हटें — सबसे सस्ता Azure-पथ बैच अनुवाद चाहिए तो Whisper पर रहें।

बैच साइज़िंग: वर्कर संख्या min(API रेट लिमिट, CPU कोर) — Whisper अपलोड पर नेटवर्क-बाउंड।

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹40.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • 99 भाषाएँ
  • ट्रांसक्राइब + अनुवाद
  • बैच + VAD

बेंचमार्क

बेंचमार्कस्कोर
Languages99

तकनीकी विवरण

  • मॉडल id: whisper
  • POST /v1/audio/transcriptions

ताकतें

  • व्यापक भाषा कवरेज

सीमाएं

  • इस सतह पर केवल बैच

उपयोग के मामले

ट्रांसक्रिप्शनअनुवादसबटाइटल

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -F file=@audio.mp3 -F model=whisper

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: whisper

whisper अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।