LLM चैट

Nemotron 3 Super

द्वारा NVIDIA · रिलीज़ March 11, 2026

NVIDIA का हाइब्रिड Mamba-Transformer MoE। 120B कुल, प्रति टोकन 12B सक्रिय — GPT-OSS-120B से 2.2x अधिक थ्रूपुट। 1M टोकन कॉन्टेक्स्ट; एजेंटिक तर्क, सॉफ़्टवेयर विकास, साइबर सुरक्षा।

LLM चैट

Nemotron 3 Super

द्वारा संचालित NVIDIA · Hybrid Mamba-Transformer MoE (120B total / 12B active)

कॉन्टेक्स्ट विंडो

128K

पैरामीटर

120B total / 12B active (Hybrid MoE)

अधिकतम आउटपुट

16K

श्रेणी

LLM चैट

अवलोकन

Nemotron 3 Super (11 मार्च 2026) NVIDIA का फ्लैगशिप LM — प्रोडक्शन AI की दो समस्याएँ: "thinking tax" (हर सब-टास्क पर भारी reasoning मॉडल) और "context explosion" (मल्टी-एजेंट 15x टोकन)। 120B कुल, 12B सक्रिय — GPT-OSS-120B से 2.2x थ्रूपुट, पिछले Nemotron Super से 5x।

Latent MoE रूटिंग, मल्टी-टोकन prediction, Mamba-2 + Transformer हाइब्रिड बैकबोन — state-space दक्षता + अटेंशन सटीकता।

NVFP4 नेटिव प्रीट्रेनिंग — Blackwell पर B200 vs H100 FP8 पर 4x; पोस्ट-क्वांट नहीं। NeMo Gym/RL: 21 वातावरण, 1.2M+ रोलआउट। PinchBench 85.6% — OpenClaw के लिए सर्वश्रेष्ठ open। AIME 2025, SWE-Bench, terminal-bench में open मॉडलों में अग्रणी।

1M कॉन्टेक्स्ट Mamba-2 के साथ व्यावहारिक। एजेंटिक तर्क, SD, साइबर ट्रायज, मल्टी-एजेंट — थ्रूपुट और दक्षता जहाँ मायने रखते हैं।

प्राइसिंग

मेट्रिककीमत
इनपुट /1M tokens₹150.0000
आउटपुट /1M tokens₹600.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • हाइब्रिड Mamba-Transformer आर्किटेक्चर
  • GPT-OSS-120B से 2.2x अधिक थ्रूपुट
  • 120B कुल, प्रति टोकन केवल 12B सक्रिय
  • AIME 2025, SWE-Bench, terminal-bench में अग्रणी

बेंचमार्क

बेंचमार्कस्कोर
PinchBench85.6%
AIME 2025Leading
SWE-benchLeading
Terminal-benchLeading
Throughput vs GPT-OSS2.2x
Throughput vs Prev5x

तकनीकी विवरण

  • हाइब्रिड Mamba-Transformer MoE: 120B कुल / 12B सक्रिय
  • Latent MoE: समान लागत पर 4x अधिक विशेषज्ञ
  • मल्टी-टोकन prediction: एक पास में कई भविष्य टोकन
  • हाइब्रिड बैकबोन: Mamba दक्षता, Transformer सटीकता
  • Blackwell के लिए NVFP4: B200 पर H100 FP8 से 4x
  • NeMo Gym से 21 वातावरण, 1.2M रोलआउट पर RL
  • पिछले Nemotron Super से 5x, GPT-OSS-120B से 2.2x थ्रूपुट
  • 1M टोकन कॉन्टेक्स्ट (Mamba परतों से व्यावहारिक)
  • NVIDIA API और CallMissed unified gateway पर उपलब्ध

ताकतें

  • GPT-OSS-120B से 2.2x थ्रूपुट — असाधारण दक्षता
  • हाइब्रिड Mamba-Transformer — दोनों की सर्वोत्तम बातें
  • 120B कुल पर भी प्रति टोकन 12B — बहुत किफ़ायती
  • नवीनतम NVIDIA Blackwell के लिए NVFP4
  • 21 वातावरण RL — मजबूत एजेंटिक क्षमताएँ

सीमाएं

  • शुद्ध Transformer से कम परखा हुआ हाइब्रिड
  • मुख्यतः NVIDIA हार्डवेयर — अन्य एक्सेलेरेटर पर कम पोर्टेबल
  • GPT-OSS-120B पर आधारित होने पर भी अधिक कीमत

उपयोग के मामले

एजेंटिक तर्कसॉफ़्टवेयर विकाससाइबर सुरक्षा ट्रायजमल्टी-एजेंट सिस्टम

API उदाहरण

curl https://api.callmissed.com/v1/chat/completions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "nemotron-3-super", "messages": [{"role": "user", "content": "Debug this Kubernetes deployment configuration"}]}'

एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: nemotron-3-super

Nemotron 3 Super अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।