Kimi K2.5
द्वारा Moonshot · रिलीज़ January 27, 2026
Moonshot AI का फ्लैगशिप मॉडल। 1 ट्रिलियन पैरामीटर MoE, प्रति टोकन 32B सक्रिय। नेटिव मल्टीमोडल, 15 ट्रिलियन मिश्रित विज़ुअल+टेक्स्ट टोकन पर प्रशिक्षित। Thinking, Instant, Agent और Agent Swarm (100 समानांतर एजेंट) मोड।
Kimi K2.5
द्वारा संचालित Moonshot · Sparse Mixture-of-Experts (1T total / 32B active)
कॉन्टेक्स्ट विंडो
128K
पैरामीटर
1T total / 32B active (MoE)
अधिकतम आउटपुट
16K
श्रेणी
LLM चैट
अवलोकन
Kimi K2.5 Moonshot AI का फ्लैगशिप मॉडल है — 1 ट्रिलियन कुल पैरामीटर MoE, 61 परतें (1 dense + 60 MoE), प्रत्येक MoE में 384 विशेषज्ञ नेटवर्क। राउटर प्रति टोकन शीर्ष 8 + 1 साझा विशेषज्ञ सक्रिय करता है — लगभग 3.2% पैरामीटर सक्रिय (~32B)। 15 ट्रिलियन विज़न+टेक्स्ट टोकन पर प्रीट्रेन — नेटिव मल्टीमोडल, बाद में जोड़ी गई विज़न नहीं।
आर्किटेक्चर में MoonViT (400M विज़न एन्कोडर) और Multi-Head Latent Attention (MLA) है — KV कैश ~10x कम, 256K कॉन्टेक्स्ट व्यावहारिक।
चार ऑपरेटिंग मोड: Instant (~75% कम टोकन), Thinking (AIME 2025 पर 96.1%), Agent (200–300 टूल कॉल), Agent Swarm (100 उप-एजेंट, 4.5x तेज़, BrowseComp 60.6%→78.4%)।
बेंचमार्क: AIME 2025 96.1%, HMMT 2025 95.4%, MMLU-Pro 87.1%, SWE-Bench Verified 76.8%, LiveCodeBench v6 85%, BrowseComp 60.6% (Agent Swarm से 78.4%)। मल्टीमोडल: MMMU-Pro 78.5%, MathVision 84.2%, VideoMMMU 86.6%।
संशोधित MIT लाइसेंस — open-weight, पूर्ण open-source नहीं। सेल्फ-होस्टिंग: FP16 ~2TB; INT4 ~630GB (8x A100/H100/H200); 2-bit ~375GB; 1.58-bit ~240GB (1–2 tok/s)। INT4 पर भी अटेंशन BF16 — VRAM ~549GB।
API: ~$0.60/M इनपुट, ~$3.00/M आउटपुट। HuggingFace पर उपलब्ध।
सावधानी: verbose आउटपुट, रूटिंग यादृच्छिकता, अप्रकट प्रशिक्षण डेटा, SOC 2/ISO प्रमाणन नहीं। फिर भी जटिल कोडिंग, मल्टी-एजेंट, गणित और विज़ुअल समझ के लिए सबसे सक्षम open मॉडलों में से एक।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| इनपुट /1M tokens | ₹52.0000 |
| आउटपुट /1M tokens | ₹230.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- 1 ट्रिलियन कुल पैरामीटर, प्रति टोकन 32B सक्रिय
- Agent Swarm मोड: 100 समानांतर AI एजेंट, 4.5x तेज़
- नेटिव मल्टीमोडल: 15T मिश्रित विज़ुअल+टेक्स्ट टोकन पर प्रशिक्षित
- Open-weight मॉडल — HuggingFace पर उपलब्ध
बेंचमार्क
| बेंचमार्क | स्कोर |
|---|---|
| AIME 2025 | 96.1% |
| HMMT 2025 | 95.4% |
| MMLU-Pro | 87.1% |
| SWE-bench Verified | 76.8% |
| LiveCodeBench v6 | 85% |
| BrowseComp | 78.4% |
| MMMU-Pro | 78.5% |
| MathVision | 84.2% |
| VideoMMMU | 86.6% |
तकनीकी विवरण
- आर्किटेक्चर: 1T कुल, 61 परत (1 dense + 60 MoE), प्रति MoE 384 विशेषज्ञ
- राउटर: शीर्ष 8 + 1 साझा विशेषज्ञ प्रति टोकन (~3.2% सक्रिय)
- 15 ट्रिलियन विज़न+टेक्स्ट टोकन पर प्रीट्रेन
- MoonViT: आर्किटेक्चर में एम्बेडेड 400M विज़न एन्कोडर
- Multi-Head Latent Attention (MLA): KV कैश ~10x कम, 256K कॉन्टेक्स्ट
- चार मोड: Instant, Thinking, Agent, Agent Swarm (100 उप-एजेंट, 4.5x)
- ~12% टूल-कॉल विफलता दर
- संशोधित MIT लाइसेंस (open-weight, पूर्ण open-source नहीं)
- INT4 क्वांटाइज़ेशन: ~630 GB, 8x A100/H100/H200 GPU चाहिए
- API कीमत: ~$0.60/M इनपुट, ~$3.00/M आउटपुट
ताकतें
- 1T पैरामीटर MoE — सबसे बड़े open-weight मॉडलों में
- Agent Swarm: 100 समानांतर एजेंट, 4.5x स्पीडअप
- 15T मिश्रित टोकन पर नेटिव मल्टीमोडल — बाद में जोड़ी विज़न नहीं
- HuggingFace पर open-weight — सेल्फ-होस्ट और फ़ाइन-ट्यून
- मजबूत कोडिंग: 76.8% SWE-bench, 85.0% LiveCodeBench
सीमाएं
- 128K कॉन्टेक्स्ट 1M-कॉन्टेक्स्ट प्रतिस्पर्धियों से छोटा
- सेल्फ-होस्टिंग के लिए 1T पैरामीटर — भारी इन्फ्रास्ट्रक्चर
- OpenAI/Anthropic की तुलना में कम प्रोडक्शन ट्रैक रिकॉर्ड
- Agent Swarm सभी API प्रदाताओं पर उपलब्ध नहीं हो सकता
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/chat/completions \
-H "Authorization: Bearer cm_YOUR_KEY" \
-d '{"model": "kimi-k2.5", "messages": [{"role": "user", "content": "Build a React dashboard component"}]}'एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: kimi-k2.5
Kimi K2.5 अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।