LLM चैटfastaffordable

Mistral Small 4

द्वारा Mistral · रिलीज़ March 16, 2026

Mistral AI का एकीकृत हाइब्रिड: instruct, reasoning (Magistral), coding (Devstral)। 119B कुल, 6.5B सक्रिय। reasoning_effort पैरामीटर, टेक्स्ट+इमेज, उद्योग में पहला एकीकृत आर्किटेक्चर।

LLM चैट

Mistral Small 4

द्वारा संचालित Mistral · Hybrid MoE (119B total / 6.5B active)

कॉन्टेक्स्ट विंडो

128K

पैरामीटर

119B total / 6.5B active (MoE)

अधिकतम आउटपुट

16K

श्रेणी

LLM चैट

अवलोकन

Mistral Small 4 (16 मार्च 2026) — पहला Mistral मॉडल जो instruct (Mistral), reasoning (Magistral), multimodal (Pixtral), coding (Devstral) को एक 119B MoE में मिलाता है — प्रति टोकन 6.5B सक्रिय (एम्बेडिंग/आउटपुट सहित 8B)। उद्योग में पहला — विशेष मॉडलों के बीच रूटिंग की ज़रूरत नहीं।

128 विशेषज्ञ, 4 सक्रिय प्रति टोकन, 256K कॉन्टेक्स्ट, reasoning_effort: "none" तेज़, "high" गहन CoT। टेक्स्ट+इमेज, Apache 2.0।

टोकन दक्षता: AA LCR पर 0.72, केवल 1.6K अक्षर; Qwen को 5.8–6.1K — लगभग एक-चौथाई टोकन में समान गुणवत्ता। LiveCodeBench पर GPT-OSS-120B से आगे, 20% कम आउटपुट।

Mistral Small 3 से 40% कम विलंबता, 3x थ्रूपुट; GPT-OSS-120B से प्रतिस्पर्धी। NVIDIA Nemotron Coalition; day-0 NVIDIA NIM; NeMo से फ़ाइन-ट्यून।

सेल्फ-होस्ट: कम से कम 4x HGX H100, 2x HGX H200, या 1x DGX B200; vLLM, llama.cpp, SGLang, Transformers। La Plateforme, Vertex AI, Bedrock, Azure AI Foundry, CallMissed gateway।

$0.20/M इनपुट, $0.80/M आउटपुट — सबसे किफ़ायती frontier-स्तर मॉडलों में। instruct+reasoning+coding+multimodal एक मॉडल में — रूटिंग जटिलता बिना।

प्राइसिंग

मेट्रिककीमत
इनपुट /1M tokens₹20.0000
आउटपुट /1M tokens₹80.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • एक मॉडल में instruct, reasoning और coding
  • 119B कुल, 6.5B सक्रिय — अत्यंत कुशल
  • उद्योग-पहला reasoning_effort पैरामीटर
  • मल्टीमोडल: टेक्स्ट और इमेज इनपुट

बेंचमार्क

बेंचमार्कस्कोर
MMLU-Pro78.2%
HumanEval86.8%
MATH-50084.5%
AA LCR0.72
Throughput3x Small 3
Latency-40%

तकनीकी विवरण

  • आर्किटेक्चर: 119B MoE, 128 विशेषज्ञ, 4 सक्रिय (6.5B, एम्बेडिंग सहित 8B)
  • Magistral + Pixtral + Devstral एकीकृत
  • reasoning_effort: तेज़ के लिए "none", गहन के लिए "high"
  • कॉन्टेक्स्ट: 256K टोकन
  • Apache 2.0 — पूर्ण व्यावसायिक स्वतंत्रता
  • Mistral Small 3 से 40% कम विलंबता, 3x थ्रूपुट
  • कम आउटपुट के साथ GPT-OSS-120B से प्रतिस्पर्धी
  • न्यूनतम: 4x HGX H100, 2x HGX H200, या 1x DGX B200
  • vLLM, llama.cpp, SGLang, Transformers पर उपलब्ध
  • Mistral API और CallMissed unified gateway पर उपलब्ध

ताकतें

  • instruct+reasoning+coding — मॉडल रूटिंग की ज़रूरत नहीं
  • 119B से केवल 6.5B सक्रिय — अत्यंत कुशल
  • Apache 2.0 — पूर्ण व्यावसायिक स्वतंत्रता
  • कम्प्यूट-गुणवत्ता ट्रेड-ऑफ के लिए reasoning_effort
  • अत्यंत किफ़ायती: $0.20/$0.80 प्रति 1M टोकन

सीमाएं

  • बड़े frontier (GPT-5.4, Opus 4.6) से कम पूर्ण क्षमता
  • 6.5B सक्रिय — सबसे जटिल तर्क पर गहराई सीमित
  • नया एकीकृत आर्किटेक्चर — कम प्रोडक्शन ट्रैक रिकॉर्ड

उपयोग के मामले

कोड जनरेशनतर्क कार्यमल्टीमोडल विश्लेषणलागत-कुशल डिप्लॉयमेंट

API उदाहरण

curl https://api.callmissed.com/v1/chat/completions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "mistralai/mistral-small-2603", "messages": [{"role": "user", "content": "Write a Rust function with error handling"}]}'

एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: mistralai/mistral-small-2603

Mistral Small 4 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।