Moonshot AI's flagship model. A 1 trillion parameter MoE model with 32B active parameters per token. Native multimodal, trained on 15 trillion mixed visual and text tokens. Supports Thinking, Instant, Agent, and Agent Swarm (100 parallel agents) modes.

How much does Kimi K2.5 cost?

Kimi K2.5 costs $0.81/1M tokens for input and $4.05/1M tokens for output on CallMissed. 1 credit = ₹1 = $0.01 USD.

How do I use Kimi K2.5 via API?

Send a POST request to POST /v1/chat/completions with model "kimi-k2.5" and your API key. CallMissed uses the OpenAI-compatible format — just change the base URL and model field.

What is the context window of Kimi K2.5?

Kimi K2.5 supports a 128K token context window with up to 16K output tokens.

सभी मॉडल पर वापस जाएं

LLM चैट

Kimi K2.5

द्वारा Moonshot · रिलीज़ January 27, 2026

Moonshot AI का फ्लैगशिप मॉडल। 1 ट्रिलियन पैरामीटर MoE, प्रति टोकन 32B सक्रिय। नेटिव मल्टीमोडल, 15 ट्रिलियन मिश्रित विज़ुअल+टेक्स्ट टोकन पर प्रशिक्षित। Thinking, Instant, Agent और Agent Swarm (100 समानांतर एजेंट) मोड।

LLM चैट

Kimi K2.5

द्वारा संचालित Moonshot · Sparse Mixture-of-Experts (1T total / 32B active)

कॉन्टेक्स्ट विंडो

128K

पैरामीटर

1T total / 32B active (MoE)

अधिकतम आउटपुट

16K

श्रेणी

LLM चैट

अवलोकन

Kimi K2.5 Moonshot AI का फ्लैगशिप मॉडल है — 1 ट्रिलियन कुल पैरामीटर MoE, 61 परतें (1 dense + 60 MoE), प्रत्येक MoE में 384 विशेषज्ञ नेटवर्क। राउटर प्रति टोकन शीर्ष 8 + 1 साझा विशेषज्ञ सक्रिय करता है — लगभग 3.2% पैरामीटर सक्रिय (~32B)। 15 ट्रिलियन विज़न+टेक्स्ट टोकन पर प्रीट्रेन — नेटिव मल्टीमोडल, बाद में जोड़ी गई विज़न नहीं।

आर्किटेक्चर में MoonViT (400M विज़न एन्कोडर) और Multi-Head Latent Attention (MLA) है — KV कैश ~10x कम, 256K कॉन्टेक्स्ट व्यावहारिक।

चार ऑपरेटिंग मोड: Instant (~75% कम टोकन), Thinking (AIME 2025 पर 96.1%), Agent (200–300 टूल कॉल), Agent Swarm (100 उप-एजेंट, 4.5x तेज़, BrowseComp 60.6%→78.4%)।

बेंचमार्क: AIME 2025 96.1%, HMMT 2025 95.4%, MMLU-Pro 87.1%, SWE-Bench Verified 76.8%, LiveCodeBench v6 85%, BrowseComp 60.6% (Agent Swarm से 78.4%)। मल्टीमोडल: MMMU-Pro 78.5%, MathVision 84.2%, VideoMMMU 86.6%।

संशोधित MIT लाइसेंस — open-weight, पूर्ण open-source नहीं। सेल्फ-होस्टिंग: FP16 ~2TB; INT4 ~630GB (8x A100/H100/H200); 2-bit ~375GB; 1.58-bit ~240GB (1–2 tok/s)। INT4 पर भी अटेंशन BF16 — VRAM ~549GB।

API: ~$0.60/M इनपुट, ~$3.00/M आउटपुट। HuggingFace पर उपलब्ध।

सावधानी: verbose आउटपुट, रूटिंग यादृच्छिकता, अप्रकट प्रशिक्षण डेटा, SOC 2/ISO प्रमाणन नहीं। फिर भी जटिल कोडिंग, मल्टी-एजेंट, गणित और विज़ुअल समझ के लिए सबसे सक्षम open मॉडलों में से एक।

प्राइसिंग

मेट्रिक	कीमत
इनपुट /1M tokens	₹81.0000
आउटपुट /1M tokens	₹405.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

1 ट्रिलियन कुल पैरामीटर, प्रति टोकन 32B सक्रिय
Agent Swarm मोड: 100 समानांतर AI एजेंट, 4.5x तेज़
नेटिव मल्टीमोडल: 15T मिश्रित विज़ुअल+टेक्स्ट टोकन पर प्रशिक्षित
Open-weight मॉडल — HuggingFace पर उपलब्ध

बेंचमार्क

बेंचमार्क	स्कोर	नोट्स
AIME 2025	96.1%	प्रतियोगिता गणित
HMMT 2025	95.4%	प्रतियोगिता गणित
MMLU-Pro	87.1%	व्यावसायिक ज्ञान
SWE-bench Verified	76.8%	वास्तविक सॉफ़्टवेयर इंजीनियरिंग
LiveCodeBench v6	85%	लाइव प्रतियोगिता प्रोग्रामिंग
BrowseComp	78.4%	60.6% मानक, Agent Swarm से 78.4%
MMMU-Pro	78.5%	मल्टीमोडल समझ
MathVision	84.2%	विज़ुअल गणित तर्क
VideoMMMU	86.6%	वीडियो समझ

तकनीकी विवरण

आर्किटेक्चर: 1T कुल, 61 परत (1 dense + 60 MoE), प्रति MoE 384 विशेषज्ञ
राउटर: शीर्ष 8 + 1 साझा विशेषज्ञ प्रति टोकन (~3.2% सक्रिय)
15 ट्रिलियन विज़न+टेक्स्ट टोकन पर प्रीट्रेन
MoonViT: आर्किटेक्चर में एम्बेडेड 400M विज़न एन्कोडर
Multi-Head Latent Attention (MLA): KV कैश ~10x कम, 256K कॉन्टेक्स्ट
चार मोड: Instant, Thinking, Agent, Agent Swarm (100 उप-एजेंट, 4.5x)
~12% टूल-कॉल विफलता दर
संशोधित MIT लाइसेंस (open-weight, पूर्ण open-source नहीं)
INT4 क्वांटाइज़ेशन: ~630 GB, 8x A100/H100/H200 GPU चाहिए
API कीमत: ~$0.60/M इनपुट, ~$3.00/M आउटपुट

ताकतें

1T पैरामीटर MoE — सबसे बड़े open-weight मॉडलों में
Agent Swarm: 100 समानांतर एजेंट, 4.5x स्पीडअप
15T मिश्रित टोकन पर नेटिव मल्टीमोडल — बाद में जोड़ी विज़न नहीं
HuggingFace पर open-weight — सेल्फ-होस्ट और फ़ाइन-ट्यून
मजबूत कोडिंग: 76.8% SWE-bench, 85.0% LiveCodeBench

सीमाएं

128K कॉन्टेक्स्ट 1M-कॉन्टेक्स्ट प्रतिस्पर्धियों से छोटा
सेल्फ-होस्टिंग के लिए 1T पैरामीटर — भारी इन्फ्रास्ट्रक्चर
OpenAI/Anthropic की तुलना में कम प्रोडक्शन ट्रैक रिकॉर्ड
Agent Swarm सभी API प्रदाताओं पर उपलब्ध नहीं हो सकता

उपयोग के मामले

जटिल कोडिंग कार्यमल्टी-एजेंट वर्कफ़्लोविज़ुअल समझलंबी सामग्री जनरेशन

API उदाहरण

curl https://api.callmissed.com/v1/chat/completions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "kimi-k2.5", "messages": [{"role": "user", "content": "Build a React dashboard component"}]}'

एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: kimi-k2.5

Kimi K2.5 अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।

फ्री शुरू करें डॉक्स पढ़ें