LLM चैट

Kimi K2.5

द्वारा Moonshot · रिलीज़ January 27, 2026

Moonshot AI का फ्लैगशिप मॉडल। 1 ट्रिलियन पैरामीटर MoE, प्रति टोकन 32B सक्रिय। नेटिव मल्टीमोडल, 15 ट्रिलियन मिश्रित विज़ुअल+टेक्स्ट टोकन पर प्रशिक्षित। Thinking, Instant, Agent और Agent Swarm (100 समानांतर एजेंट) मोड।

LLM चैट

Kimi K2.5

द्वारा संचालित Moonshot · Sparse Mixture-of-Experts (1T total / 32B active)

कॉन्टेक्स्ट विंडो

128K

पैरामीटर

1T total / 32B active (MoE)

अधिकतम आउटपुट

16K

श्रेणी

LLM चैट

अवलोकन

Kimi K2.5 Moonshot AI का फ्लैगशिप मॉडल है — 1 ट्रिलियन कुल पैरामीटर MoE, 61 परतें (1 dense + 60 MoE), प्रत्येक MoE में 384 विशेषज्ञ नेटवर्क। राउटर प्रति टोकन शीर्ष 8 + 1 साझा विशेषज्ञ सक्रिय करता है — लगभग 3.2% पैरामीटर सक्रिय (~32B)। 15 ट्रिलियन विज़न+टेक्स्ट टोकन पर प्रीट्रेन — नेटिव मल्टीमोडल, बाद में जोड़ी गई विज़न नहीं।

आर्किटेक्चर में MoonViT (400M विज़न एन्कोडर) और Multi-Head Latent Attention (MLA) है — KV कैश ~10x कम, 256K कॉन्टेक्स्ट व्यावहारिक।

चार ऑपरेटिंग मोड: Instant (~75% कम टोकन), Thinking (AIME 2025 पर 96.1%), Agent (200–300 टूल कॉल), Agent Swarm (100 उप-एजेंट, 4.5x तेज़, BrowseComp 60.6%→78.4%)।

बेंचमार्क: AIME 2025 96.1%, HMMT 2025 95.4%, MMLU-Pro 87.1%, SWE-Bench Verified 76.8%, LiveCodeBench v6 85%, BrowseComp 60.6% (Agent Swarm से 78.4%)। मल्टीमोडल: MMMU-Pro 78.5%, MathVision 84.2%, VideoMMMU 86.6%।

संशोधित MIT लाइसेंस — open-weight, पूर्ण open-source नहीं। सेल्फ-होस्टिंग: FP16 ~2TB; INT4 ~630GB (8x A100/H100/H200); 2-bit ~375GB; 1.58-bit ~240GB (1–2 tok/s)। INT4 पर भी अटेंशन BF16 — VRAM ~549GB।

API: ~$0.60/M इनपुट, ~$3.00/M आउटपुट। HuggingFace पर उपलब्ध।

सावधानी: verbose आउटपुट, रूटिंग यादृच्छिकता, अप्रकट प्रशिक्षण डेटा, SOC 2/ISO प्रमाणन नहीं। फिर भी जटिल कोडिंग, मल्टी-एजेंट, गणित और विज़ुअल समझ के लिए सबसे सक्षम open मॉडलों में से एक।

प्राइसिंग

मेट्रिककीमत
इनपुट /1M tokens₹52.0000
आउटपुट /1M tokens₹230.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • 1 ट्रिलियन कुल पैरामीटर, प्रति टोकन 32B सक्रिय
  • Agent Swarm मोड: 100 समानांतर AI एजेंट, 4.5x तेज़
  • नेटिव मल्टीमोडल: 15T मिश्रित विज़ुअल+टेक्स्ट टोकन पर प्रशिक्षित
  • Open-weight मॉडल — HuggingFace पर उपलब्ध

बेंचमार्क

बेंचमार्कस्कोर
AIME 202596.1%
HMMT 202595.4%
MMLU-Pro87.1%
SWE-bench Verified76.8%
LiveCodeBench v685%
BrowseComp78.4%
MMMU-Pro78.5%
MathVision84.2%
VideoMMMU86.6%

तकनीकी विवरण

  • आर्किटेक्चर: 1T कुल, 61 परत (1 dense + 60 MoE), प्रति MoE 384 विशेषज्ञ
  • राउटर: शीर्ष 8 + 1 साझा विशेषज्ञ प्रति टोकन (~3.2% सक्रिय)
  • 15 ट्रिलियन विज़न+टेक्स्ट टोकन पर प्रीट्रेन
  • MoonViT: आर्किटेक्चर में एम्बेडेड 400M विज़न एन्कोडर
  • Multi-Head Latent Attention (MLA): KV कैश ~10x कम, 256K कॉन्टेक्स्ट
  • चार मोड: Instant, Thinking, Agent, Agent Swarm (100 उप-एजेंट, 4.5x)
  • ~12% टूल-कॉल विफलता दर
  • संशोधित MIT लाइसेंस (open-weight, पूर्ण open-source नहीं)
  • INT4 क्वांटाइज़ेशन: ~630 GB, 8x A100/H100/H200 GPU चाहिए
  • API कीमत: ~$0.60/M इनपुट, ~$3.00/M आउटपुट

ताकतें

  • 1T पैरामीटर MoE — सबसे बड़े open-weight मॉडलों में
  • Agent Swarm: 100 समानांतर एजेंट, 4.5x स्पीडअप
  • 15T मिश्रित टोकन पर नेटिव मल्टीमोडल — बाद में जोड़ी विज़न नहीं
  • HuggingFace पर open-weight — सेल्फ-होस्ट और फ़ाइन-ट्यून
  • मजबूत कोडिंग: 76.8% SWE-bench, 85.0% LiveCodeBench

सीमाएं

  • 128K कॉन्टेक्स्ट 1M-कॉन्टेक्स्ट प्रतिस्पर्धियों से छोटा
  • सेल्फ-होस्टिंग के लिए 1T पैरामीटर — भारी इन्फ्रास्ट्रक्चर
  • OpenAI/Anthropic की तुलना में कम प्रोडक्शन ट्रैक रिकॉर्ड
  • Agent Swarm सभी API प्रदाताओं पर उपलब्ध नहीं हो सकता

उपयोग के मामले

जटिल कोडिंग कार्यमल्टी-एजेंट वर्कफ़्लोविज़ुअल समझलंबी सामग्री जनरेशन

API उदाहरण

curl https://api.callmissed.com/v1/chat/completions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "kimi-k2.5", "messages": [{"role": "user", "content": "Build a React dashboard component"}]}'

एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: kimi-k2.5

Kimi K2.5 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।