स्पीच टू टेक्स्टmultilingualbudget

Whisper Large v3 Turbo

द्वारा OpenAI · रिलीज़ 2024

OpenAI Whisper Large v3 Turbo — ऑटो-डिटेक्ट के साथ 99 भाषाओं में ASR। ट्रांसक्रिप्शन और अनुवाद दोनों मोड। वैश्विक बहुभाषी स्पीच के लिए सर्वोत्तम सटीकता/लागत अनुपात।

स्पीच टू टेक्स्ट

Whisper Large v3 Turbo

द्वारा संचालित OpenAI · Encoder-decoder Transformer (distilled decoder)

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

809M

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

Whisper Large v3 Turbo OpenAI का ओपन-वेट ASR मॉडल है, तेज़ इन्फ़रेंस के लिए अनुकूलित, Large v3 परिवार की बहुभाषी व्यापकता बनाए रखते हुए। 99 भाषाएँ तुरंत, बोली की भाषा स्वचालित पहचान जब निर्दिष्ट न हो, और या तो ट्रांसक्राइब (स्रोत भाषा में टेक्स्ट) या अनुवाद (इनपुट की परवाह किए बिना अंग्रेज़ी आउटपुट)। उत्पाद में वैश्विक बहुभाषी स्पीच रिकग्निशन जोड़ने का सबसे लागत-कुशल तरीका।

Cloudflare Workers AI पर तैनात, मानक फ़ॉर्मैट (MP3, WAV, FLAC) में base64 ऑडियो स्वीकार करता है और ट्रांसक्रिप्शन टेक्स्ट के साथ संरचित JSON लौटाता है, सबटाइटल वर्कफ़्लो के लिए वैकल्पिक VTT सेगमेंट। Turbo वेरिएंट Large v3 से छोटा डिकोडर — अधिकांश भाषाओं पर मामूली सटीकता हानि के साथ ~8× तेज़ इन्फ़रेंस।

$0.06 प्रति ऑडियो घंटे पर, भारतीय भाषा कोड-मिक्सिंग न चाहने वाले उपयोग में Sarvam Saaras से लगभग 9× सस्ता। मीटिंग सारांश, पॉडकास्ट इंडेक्सिंग, एक्सेसिबिलिटी कैप्शन या अनुपालन आर्काइविंग के लिए हमारे LLM के साथ जोड़ें।

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹6.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • 99 भाषाएँ स्वचालित भाषा पहचान के साथ
  • ट्रांसक्राइब + अनुवाद मोड
  • डाउनस्ट्रीम टूलिंग के लिए VTT सबटाइटल आउटपुट
  • Whisper Large v3 से 8× तेज़ इन्फ़रेंस

बेंचमार्क

बेंचमार्कस्कोर
Languages99
Speed
Hourly cost$0.06

तकनीकी विवरण

  • Cloudflare Workers AI पर (`@cf/openai/whisper-large-v3-turbo`)
  • base64 MP3/WAV/FLAC स्वीकार; अनुरोध पर अधिकतम ~30 मिनट
  • transcription_info.text + segments[].vtt लौटाता है
  • task=transcribe (डिफ़ॉल्ट) या task=translate
  • वैकल्पिक: vad_filter, initial_prompt, beam_size, hallucination_silence_threshold

ताकतें

  • सर्वोत्तम बहुभाषी कवरेज (99 भाषाएँ)
  • स्वचालित भाषा पहचान — ISO टैग की ज़रूरत नहीं
  • अंग्रेज़ी में अंतर्निहित अनुवाद
  • गैर-भारतीय भाषाओं में Sarvam Saaras से ~9× सस्ता

सीमाएं

  • भारतीय भाषाओं और कोड-मिक्स्ड स्पीच पर Saaras से कम सटीक
  • इस सतह पर केवल बैच — स्ट्रीमिंग के लिए Nova-3 या Flux
  • vad_filter के बिना लंबी खामोशी पर हॉल्यूसिनेशन

उपयोग के मामले

मीटिंग ट्रांसक्रिप्शनपॉडकास्ट इंडेक्सिंगसबटाइटल जनरेशनबहुभाषी वॉइस खोज

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -F file=@audio.mp3 \
  -F model=whisper-large-v3-turbo \
  -F language=en

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: whisper-large-v3-turbo

Whisper Large v3 Turbo अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।