स्पीच टू टेक्स्टproductionstreaming

Nova 3

द्वारा Deepgram · रिलीज़ 2025

Deepgram Nova 3 — डायराइज़ेशन, स्मार्ट फ़ॉर्मैटिंग, डोमेन मोड (general / medical / finance) के साथ उत्पादन-ग्रेड STT। 11 भाषाएँ, वैकल्पिक ऑटो-डिटेक्ट।

स्पीच टू टेक्स्ट

Nova 3

द्वारा संचालित Deepgram · Proprietary E2E ASR with diarization

कॉन्टेक्स्ट विंडो

N/A

पैरामीटर

Undisclosed

अधिकतम आउटपुट

N/A

श्रेणी

स्पीच टू टेक्स्ट

अवलोकन

Nova 3 Deepgram का नवीनतम उत्पादन STT मॉडल है, समृद्ध पोस्ट-प्रोसेसिंग के साथ उच्च-सटीकता ट्रांसक्रिप्शन। स्पीकर डायराइज़ेशन (प्रत्येक स्पीकर नंबर), स्वचालित विराम, स्मार्ट फ़ॉर्मैटिंग (संख्या, तारीख, मुद्रा, पता), अश्लीलता फ़िल्टर, विषय/भावना निष्कर्षण। विशेष डोमेन मोड ("medical" या "finance") उद्योग-विशिष्ट शब्दावली के लिए ध्वनिक और भाषा मॉडल ट्यून।

Cloudflare Workers AI पर, Nova 3 बैच (REST) और रियल-टाइम (WebSocket) — यह सतह बैच। स्ट्रीमिंग वॉइस एजेंट के लिए WebSocket मोड अंतरिम परिणाम, VAD इवेंट, sub-300ms विलंबता पर एंड-ऑफ़-अवधारणा संकेत।

$0.50 प्रति ऑडियो घंटा बैच / $0.92 प्रति घंटा स्ट्रीमिंग — Whisper (सस्ता, अंग्रेज़ी-झुका) और Saaras (केवल भारतीय भाषाएँ) के बीच। डायराइज़ेशन, स्मार्ट फ़ॉर्मैटिंग या उद्योग-ट्यून रिकग्निशन चाहिए तो Nova 3 चुनें।

प्राइसिंग

मेट्रिककीमत
कीमत /hour₹50.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • बॉक्स से स्पीकर डायराइज़ेशन
  • स्मार्ट फ़ॉर्मैटिंग: संख्या, तारीख, मुद्रा
  • डोमेन मोड: general / medical / finance
  • बैच + रियल-टाइम WebSocket समर्थन

बेंचमार्क

बेंचमार्कस्कोर
Languages11
Streaming latency<300ms
Domains3

तकनीकी विवरण

  • Cloudflare Workers AI पर (`@cf/deepgram/nova-3`)
  • बैच: POST audio/mpeg → JSON ट्रांसक्रिप्ट
  • स्ट्रीमिंग: interim_results, vad_events, utterance_end_ms के साथ WebSocket
  • वैकल्पिक: diarize, punctuate, smart_format, profanity_filter, sentiment, topics
  • डोमेन मोड: mode=general | medical | finance

ताकतें

  • अंतर्निहित डायराइज़ेशन — अलग स्पीकर मॉडल नहीं
  • स्मार्ट फ़ॉर्मैटिंग पोस्ट-प्रोसेसिंग पाइपलाइन बचाती है
  • उद्योग-ट्यून डोमेन मोड
  • सब-सेकंड वॉइस एजेंट के लिए रियल-टाइम WebSocket

सीमाएं

  • Whisper की 99 के मुकाबले केवल 11 भाषाएँ
  • स्ट्रीमिंग मोड WebSocket प्लंबिंग चाहिए (REST से एक्सपोज़ नहीं)
  • सामान्य उपयोग में Whisper से अधिक प्रति-घंटा लागत

उपयोग के मामले

कॉल सेंटर एनालिटिक्समेडिकल स्क्राइबिंगवित्तीय अनुपालन रिकॉर्डिंगवॉयस एजेंट

API उदाहरण

curl https://api.callmissed.com/v1/audio/transcriptions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -F file=@call.mp3 \
  -F model=nova-3 \
  -F language=en-US

एंडपॉइंट: POST /v1/audio/transcriptions · मॉडल ID: nova-3

Nova 3 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।