LLM चैटfast

Kimi K2.5 Fast

द्वारा Moonshot · रिलीज़ January 2026

Kimi K2.5 का तेज़ इन्फरेंस वेरिएंट। वही 1T आर्किटेक्चर, कम-विलंबता के लिए अनुकूलित। रीयल-टाइम ऐप के लिए आदर्श।

LLM चैट

Kimi K2.5 Fast

द्वारा संचालित Moonshot · Sparse Mixture-of-Experts (1T total / 32B active, optimized)

कॉन्टेक्स्ट विंडो

128K

पैरामीटर

1T total / 32B active (MoE)

अधिकतम आउटपुट

16K

श्रेणी

LLM चैट

अवलोकन

Kimi K2.5 Fast Moonshot AI के K2.5 का स्पीड-ऑप्टिमाइज़्ड वेरिएंट है। 1T MoE, 32B सक्रिय — कम-विलंबता इन्फरेंस, Clarifai पर 414 टोकन/सेकंड थ्रूपुट — बड़े पैमाने के सबसे तेज़ मॉडलों में।

इन्फरेंस दक्षता पर फ़ोकस, आउटपुट गुणवत्ता में बड़ी कमी नहीं। K2.5 की मुख्य क्षमताएँ — नेटिव मल्टीमोडल, मजबूत कोडिंग, लचीले मोड — रीयल-टाइम चैट, वॉयस एजेंट बैकएंड और इंटरैक्टिव कोडिंग के लिए पर्याप्त तेज़।

K2.5-स्तरीय क्षमता चाहिए पर विलंबता प्राथमिक हो तो यही सुझाव। रीयल-टाइम संवादी AI, इंटरैक्टिव कोडिंग और वॉयस-चालित ऐप।

प्राइसिंग

मेट्रिककीमत
इनपुट /1M tokens₹52.0000
आउटपुट /1M tokens₹230.0000

1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।

मुख्य बातें

  • कम-विलंबता इन्फरेंस के लिए अनुकूलित
  • K2.5 स्टैंडर्ड जैसा आर्किटेक्चर
  • Clarifai पर 414 टोकन/सेकंड थ्रूपुट
  • रीयल-टाइम चैट ऐप के लिए आदर्श

बेंचमार्क

बेंचमार्कस्कोर
SWE-bench75.2%
LiveCodeBench83.8%
HumanEval90.7%
Throughput414 tok/s

तकनीकी विवरण

  • K2.5 स्टैंडर्ड जैसा: 1T कुल / 32B सक्रिय MoE
  • कम-विलंबता: Clarifai पर 414 टोकन/सेकंड
  • क्वांटाइज़ेशन और speculative decoding सहित ऑप्टिमाइज़ेशन
  • K2.5 से नेटिव मल्टीमोडल क्षमताएँ बरकरार
  • कॉन्टेक्स्ट विंडो: 128K टोकन
  • Open-weight — K2.5 के समान वेट, ऑप्टिमाइज़्ड सर्विंग
  • Moonshot API और CallMissed unified gateway पर उपलब्ध

ताकतें

  • 414 tok/s — बड़े पैमाने के सबसे तेज़ मॉडलों में
  • K2.5 आर्किटेक्चर, न्यूनतम गुणवत्ता ट्रेड-ऑफ
  • रीयल-टाइम और वॉयस-चालित ऐप के लिए आदर्श
  • Open-weight — ऑप्टिमाइज़्ड सर्विंग के साथ सेल्फ-होस्ट

सीमाएं

  • जटिल कार्यों पर K2.5 स्टैंडर्ड से थोड़ी कम गुणवत्ता
  • K2.5 जैसी कीमत — गति ऑप्टिमाइज़ेशन, लागत नहीं
  • 128K कॉन्टेक्स्ट 1M-कॉन्टेक्स्ट प्रतिस्पर्धियों से छोटा

उपयोग के मामले

रीयल-टाइम चैटवॉयस एजेंट बैकएंडकम-विलंबता अनुप्रयोगइंटरैक्टिव कोडिंग

API उदाहरण

curl https://api.callmissed.com/v1/chat/completions \
  -H "Authorization: Bearer cm_YOUR_KEY" \
  -d '{"model": "kimi-k2.5-fast", "messages": [{"role": "user", "content": "Quick answer: what is the capital of France?"}]}'

एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: kimi-k2.5-fast

Kimi K2.5 Fast अभी आज़माएं

साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।