Mistral Small 4
द्वारा Mistral · रिलीज़ March 16, 2026
Mistral AI का एकीकृत हाइब्रिड: instruct, reasoning (Magistral), coding (Devstral)। 119B कुल, 6.5B सक्रिय। reasoning_effort पैरामीटर, टेक्स्ट+इमेज, उद्योग में पहला एकीकृत आर्किटेक्चर।
Mistral Small 4
द्वारा संचालित Mistral · Hybrid MoE (119B total / 6.5B active)
कॉन्टेक्स्ट विंडो
128K
पैरामीटर
119B total / 6.5B active (MoE)
अधिकतम आउटपुट
16K
श्रेणी
LLM चैट
अवलोकन
Mistral Small 4 (16 मार्च 2026) — पहला Mistral मॉडल जो instruct (Mistral), reasoning (Magistral), multimodal (Pixtral), coding (Devstral) को एक 119B MoE में मिलाता है — प्रति टोकन 6.5B सक्रिय (एम्बेडिंग/आउटपुट सहित 8B)। उद्योग में पहला — विशेष मॉडलों के बीच रूटिंग की ज़रूरत नहीं।
128 विशेषज्ञ, 4 सक्रिय प्रति टोकन, 256K कॉन्टेक्स्ट, reasoning_effort: "none" तेज़, "high" गहन CoT। टेक्स्ट+इमेज, Apache 2.0।
टोकन दक्षता: AA LCR पर 0.72, केवल 1.6K अक्षर; Qwen को 5.8–6.1K — लगभग एक-चौथाई टोकन में समान गुणवत्ता। LiveCodeBench पर GPT-OSS-120B से आगे, 20% कम आउटपुट।
Mistral Small 3 से 40% कम विलंबता, 3x थ्रूपुट; GPT-OSS-120B से प्रतिस्पर्धी। NVIDIA Nemotron Coalition; day-0 NVIDIA NIM; NeMo से फ़ाइन-ट्यून।
सेल्फ-होस्ट: कम से कम 4x HGX H100, 2x HGX H200, या 1x DGX B200; vLLM, llama.cpp, SGLang, Transformers। La Plateforme, Vertex AI, Bedrock, Azure AI Foundry, CallMissed gateway।
$0.20/M इनपुट, $0.80/M आउटपुट — सबसे किफ़ायती frontier-स्तर मॉडलों में। instruct+reasoning+coding+multimodal एक मॉडल में — रूटिंग जटिलता बिना।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| इनपुट /1M tokens | ₹20.0000 |
| आउटपुट /1M tokens | ₹80.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- एक मॉडल में instruct, reasoning और coding
- 119B कुल, 6.5B सक्रिय — अत्यंत कुशल
- उद्योग-पहला reasoning_effort पैरामीटर
- मल्टीमोडल: टेक्स्ट और इमेज इनपुट
बेंचमार्क
| बेंचमार्क | स्कोर |
|---|---|
| MMLU-Pro | 78.2% |
| HumanEval | 86.8% |
| MATH-500 | 84.5% |
| AA LCR | 0.72 |
| Throughput | 3x Small 3 |
| Latency | -40% |
तकनीकी विवरण
- आर्किटेक्चर: 119B MoE, 128 विशेषज्ञ, 4 सक्रिय (6.5B, एम्बेडिंग सहित 8B)
- Magistral + Pixtral + Devstral एकीकृत
- reasoning_effort: तेज़ के लिए "none", गहन के लिए "high"
- कॉन्टेक्स्ट: 256K टोकन
- Apache 2.0 — पूर्ण व्यावसायिक स्वतंत्रता
- Mistral Small 3 से 40% कम विलंबता, 3x थ्रूपुट
- कम आउटपुट के साथ GPT-OSS-120B से प्रतिस्पर्धी
- न्यूनतम: 4x HGX H100, 2x HGX H200, या 1x DGX B200
- vLLM, llama.cpp, SGLang, Transformers पर उपलब्ध
- Mistral API और CallMissed unified gateway पर उपलब्ध
ताकतें
- instruct+reasoning+coding — मॉडल रूटिंग की ज़रूरत नहीं
- 119B से केवल 6.5B सक्रिय — अत्यंत कुशल
- Apache 2.0 — पूर्ण व्यावसायिक स्वतंत्रता
- कम्प्यूट-गुणवत्ता ट्रेड-ऑफ के लिए reasoning_effort
- अत्यंत किफ़ायती: $0.20/$0.80 प्रति 1M टोकन
सीमाएं
- बड़े frontier (GPT-5.4, Opus 4.6) से कम पूर्ण क्षमता
- 6.5B सक्रिय — सबसे जटिल तर्क पर गहराई सीमित
- नया एकीकृत आर्किटेक्चर — कम प्रोडक्शन ट्रैक रिकॉर्ड
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/chat/completions \
-H "Authorization: Bearer cm_YOUR_KEY" \
-d '{"model": "mistralai/mistral-small-2603", "messages": [{"role": "user", "content": "Write a Rust function with error handling"}]}'एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: mistralai/mistral-small-2603
Mistral Small 4 अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।