Whisper Large v3 Turbo
द्वारा OpenAI · रिलीज़ 2024
OpenAI Whisper Large v3 Turbo — ऑटो-डिटेक्ट के साथ 99 भाषाओं में ASR। ट्रांसक्रिप्शन और अनुवाद दोनों मोड। वैश्विक बहुभाषी स्पीच के लिए सर्वोत्तम सटीकता/लागत अनुपात।
Whisper Large v3 Turbo
द्वारा संचालित OpenAI · Encoder-decoder Transformer (distilled decoder)
कॉन्टेक्स्ट विंडो
N/A
पैरामीटर
809M
अधिकतम आउटपुट
N/A
श्रेणी
स्पीच टू टेक्स्ट
अवलोकन
Whisper Large v3 Turbo OpenAI का ओपन-वेट ASR मॉडल है, तेज़ इन्फ़रेंस के लिए अनुकूलित, Large v3 परिवार की बहुभाषी व्यापकता बनाए रखते हुए। 99 भाषाएँ तुरंत, बोली की भाषा स्वचालित पहचान जब निर्दिष्ट न हो, और या तो ट्रांसक्राइब (स्रोत भाषा में टेक्स्ट) या अनुवाद (इनपुट की परवाह किए बिना अंग्रेज़ी आउटपुट)। उत्पाद में वैश्विक बहुभाषी स्पीच रिकग्निशन जोड़ने का सबसे लागत-कुशल तरीका।
Cloudflare Workers AI पर तैनात, मानक फ़ॉर्मैट (MP3, WAV, FLAC) में base64 ऑडियो स्वीकार करता है और ट्रांसक्रिप्शन टेक्स्ट के साथ संरचित JSON लौटाता है, सबटाइटल वर्कफ़्लो के लिए वैकल्पिक VTT सेगमेंट। Turbo वेरिएंट Large v3 से छोटा डिकोडर — अधिकांश भाषाओं पर मामूली सटीकता हानि के साथ ~8× तेज़ इन्फ़रेंस।
$0.06 प्रति ऑडियो घंटे पर, भारतीय भाषा कोड-मिक्सिंग न चाहने वाले उपयोग में Sarvam Saaras से लगभग 9× सस्ता। मीटिंग सारांश, पॉडकास्ट इंडेक्सिंग, एक्सेसिबिलिटी कैप्शन या अनुपालन आर्काइविंग के लिए हमारे LLM के साथ जोड़ें।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| कीमत /hour | ₹6.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- 99 भाषाएँ स्वचालित भाषा पहचान के साथ
- ट्रांसक्राइब + अनुवाद मोड
- डाउनस्ट्रीम टूलिंग के लिए VTT सबटाइटल आउटपुट
- Whisper Large v3 से 8× तेज़ इन्फ़रेंस
बेंचमार्क
| बेंचमार्क | स्कोर |
|---|---|
| Languages | 99 |
| Speed | 8× |
| Hourly cost | $0.06 |
तकनीकी विवरण
- Cloudflare Workers AI पर (`@cf/openai/whisper-large-v3-turbo`)
- base64 MP3/WAV/FLAC स्वीकार; अनुरोध पर अधिकतम ~30 मिनट
- transcription_info.text + segments[].vtt लौटाता है
- task=transcribe (डिफ़ॉल्ट) या task=translate
- वैकल्पिक: vad_filter, initial_prompt, beam_size, hallucination_silence_threshold
ताकतें
- सर्वोत्तम बहुभाषी कवरेज (99 भाषाएँ)
- स्वचालित भाषा पहचान — ISO टैग की ज़रूरत नहीं
- अंग्रेज़ी में अंतर्निहित अनुवाद
- गैर-भारतीय भाषाओं में Sarvam Saaras से ~9× सस्ता
सीमाएं
- भारतीय भाषाओं और कोड-मिक्स्ड स्पीच पर Saaras से कम सटीक
- इस सतह पर केवल बैच — स्ट्रीमिंग के लिए Nova-3 या Flux
- vad_filter के बिना लंबी खामोशी पर हॉल्यूसिनेशन
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/audio/transcriptions \ -H "Authorization: Bearer cm_YOUR_KEY" \ -F file=@audio.mp3 \ -F model=whisper-large-v3-turbo \ -F language=en
एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: whisper-large-v3-turbo
Whisper Large v3 Turbo अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।