Claude Opus 4.6
द्वारा Anthropic · रिलीज़ February 5, 2026
Anthropic का सबसे सक्षम मॉडल। Claude Opus 4.6 में 1M टोकन कॉन्टेक्स्ट विंडो, 128K अधिकतम आउटपुट टोकन, extended thinking और 14.5-घंटे कार्य पूर्णता क्षितिज। वित्तीय विश्लेषण, जटिल कोड डिबगिंग, बहु-चरण योजना और स्वायत्त कार्य निष्पादन में उत्कृष्ट।
Claude Opus 4.6
द्वारा संचालित Anthropic · Transformer (proprietary)
कॉन्टेक्स्ट विंडो
1M
पैरामीटर
Undisclosed
अधिकतम आउटपुट
128K
श्रेणी
LLM चैट
अवलोकन
Claude Opus 4.6 Anthropic का सबसे सक्षम मॉडल है और पहला Opus-क्लास सिस्टम जिसमें 1-मिलियन-टोकन कॉन्टेक्स्ट विंडो (बीटा में उपलब्ध)। यह अधिकतम आउटपुट को 128K टोकन (64K से दोगुना) करता है और 200K टोकन से अधिक कॉन्टेक्स्ट के लिए प्रीमियम मूल्य ($10 इनपुट / $37.50 आउटपुट प्रति मिलियन टोकन) पेश करता है। मॉडल अधिक सावधानी से योजना बनाता है, एजेंटिक कार्य लंबे समय तक बनाए रखता है, बड़े कोडबेस में अधिक विश्वसनीय संचालित होता है, और पूर्ववर्तियों से काफ़ी बेहतर कोड समीक्षा और डिबगिंग देता है।
Opus 4.6 पिछले Claude मॉडलों से गहरा सोचता है, उत्तर तय करने से पहले अपने तर्क पर पुनर्विचार करता है। यह गहरा विचार साधारण कार्यों पर लागत और लेटेंसी बढ़ा सकता है, इसलिए Anthropic नियमित प्रश्नों के लिए प्रयास स्तर medium पर सेट करने की सिफ़ारिश करता है। मॉडल चार कॉन्फ़िगर करने योग्य प्रयास स्तर — low, medium, high (डिफ़ॉल्ट), max — के साथ adaptive thinking सपोर्ट करता है, और देता है कि किसी प्रॉम्प्ट को कितना तर्क चाहिए इसके संदर्भ संकेत पकड़ता है। Context compaction (बीटा में) टोकन सीमा के निकट पहुँचने पर पुराने कॉन्टेक्स्ट का स्वचालित सारांश, मैन्युअल काटने के बिना बातचीत सुसंगत रखता है।
Claude Code में एजेंट टीम (रिसर्च preview) कई एजेंटों को समानांतर काम और स्वायत्त समन्वय की अनुमति देती है, जटिल multi-repo वर्कफ़्लो खोलती है। एक प्रदर्शन में Opus 4.6 ने एक दिन में 13 मुद्दे स्वायत्त रूप से बंद किए और 12 को सही टीम सदस्यों को सौंपे, लगभग 50-व्यक्ति संगठन को 6 रिपॉज़िटरी में प्रबंधित किया। साझेदारों ने मॉडल को लगभग कई-मिलियन-पंक्ति कोडबेस माइग्रेशन "वरिष्ठ इंजीनियर की तरह" संभालने का वर्णन किया।
बेंचमार्क परिणाम क्षमता में गुणात्मक बदलाव दर्शाते हैं। 1M कॉन्टेक्स्ट पर MRCR v2 8-needle, Opus 4.6 76% स्कोर करता है बनाम Sonnet 4.5 केवल 18.5% — लंबे-कॉन्टेक्स्ट उपयोग में नाटकीय सुधार। Terminal-Bench 2.0 पर सर्वोच्च स्कोर और Humanity's Last Exam पर सभी frontier मॉडलों का नेतृत्व। GDPval-AA पर, यह GPT-5.2 से लगभग 144 Elo अंक और Opus 4.5 से 190 अंक से बेहतर, लगभग 70% head-to-head तुलना जीत में। BrowseComp परिणाम ऑनलाइन दुर्लभ जानकारी खोजने में किसी भी मॉडल के सर्वश्रेष्ठ, multi-agent harness सटीकता 86.8% तक।
कानूनी और साइबर सुरक्षा डोमेन में, Opus 4.6 BigLaw Bench पर 90.2% 40% पूर्ण स्कोर और 84% प्रतिसाद 0.8 से ऊपर। साइबर सुरक्षा के लिए, 40 जांचों में से 38 ने Claude 4.5 मॉडलों के विरुद्ध अंधी रैंकिंग में सर्वोत्तम परिणाम दिए, प्रत्येक मॉडल प्रति जांच 9 subagents और 100+ टूल कॉल तक।
सुरक्षा मुख्य फ़ोकस। Opus 4.6 में किसी भी हाल के Claude मॉडल की तुलना में सबसे कम over-refusal दर और Anthropic द्वारा अब तक के सबसे व्यापक सुरक्षा मूल्यांकन, 6 नए साइबर सुरक्षा जांच सहित। सभी परीक्षित परिदृश्यों में misaligned व्यवहार दर कम। कम refusals का अर्थ वैध किनारे-केस प्रश्नों पर अधिक सहायक, वास्तव में हानिकारक अनुरोधों से समझौता नहीं।
साझेदार अपनाना मज़बूत रहा। Notion, Devin, Cognition, Windsurf, Lovable, Box, Figma और v0 की टीमों ने Opus 4.6 को उत्पादों में एकीकृत किया, निरंतर एजेंटिक प्रदर्शन और प्रोडक्शन विश्वसनीयता का हवाला। Claude in Excel में सुधार, Claude in PowerPoint रिसर्च preview के रूप में उपलब्ध। डेटा निवास आवश्यकताओं वाले संगठनों के लिए US-only inference 1.1x मानक मूल्य पर।
$7/$35 प्रति मिलियन टोकन मानक मूल्य (200K से अधिक कॉन्टेक्स्ट पर प्रीमियम) पर, Opus 4.6 एंटरप्राइज़ टीमों के लिए है जिन्हें सबसे गहरा तर्क, सबसे लंबे स्वायत्त कार्य क्षितिज और सबसे विश्वसनीय एजेंटिक प्रदर्शन चाहिए — विशेष रूप से वित्तीय विश्लेषण, कानूनी समीक्षा, जटिल कोड डिबगिंग और बहु-चरण स्वायत्त वर्कफ़्लो।
प्राइसिंग
| मेट्रिक | कीमत |
|---|---|
| इनपुट /1M tokens | ₹700.0000 |
| आउटपुट /1M tokens | ₹3500.0000 |
1 क्रेडिट = ₹1 = $0.01 USD। कीमतें प्रोवाइडर से दिखाई गई हैं; CallMissed ~35% मार्कअप के साथ पास-थ्रू करता है।
मुख्य बातें
- 1M टोकन कॉन्टेक्स्ट विंडो, 128K अधिकतम आउटपुट
- 14.5-घंटे स्वायत्त कार्य पूर्णता क्षितिज
- Finance Agent बेंचमार्क पर #1
- गहरे तर्क श्रृंखलाओं के लिए extended thinking
बेंचमार्क
| बेंचमार्क | स्कोर |
|---|---|
| SWE-bench Verified | 80.8% |
| OSWorld-Verified | 72.7% |
| Terminal-Bench 2.0 | 65.4% |
| Humanity's Last Exam | #1 |
| BigLaw Bench | 90.2% |
| MRCR (1M) | 76% |
| Finance Agent v1.1 | 60.1% |
| GDPval-AA | 1606 Elo |
तकनीकी विवरण
- कॉन्टेक्स्ट विंडो: 1,000,000 टोकन, 128K अधिकतम आउटपुट (64K से दोगुना)
- Adaptive thinking: तर्क गहराई नियंत्रण के लिए 4 कॉन्फ़िगर करने योग्य प्रयास स्तर
- Interleaved thinking: बेहतर एजेंटिक प्रदर्शन के लिए टूल कॉल के बीच तर्क
- Context compaction: सीमा के भीतर रहने के लिए लंबी बातचीत का स्वचालित सारांश
- लंबे चलने वाले वर्कफ़्लो के लिए 14.5-घंटे स्वायत्त कार्य पूर्णता क्षितिज
- Constitutional AI (CAI) और RLHF के साथ post-trained
- टूल उपयोग, structured outputs और computer use सपोर्ट
- Anthropic API और CallMissed यूनिफ़ाइड गेटवे
ताकतें
- Finance Agent, Terminal-Bench और Humanity's Last Exam बेंचमार्क पर #1
- 14.5-घंटे कार्य क्षितिज वास्तव में स्वायत्त लंबे वर्कफ़्लो सक्षम
- Adaptive thinking डेवलपरों को तर्क गहराई बनाम लागत नियंत्रित करने देता है
- टूल कॉल के बीच interleaved thinking एजेंटिक सटीकता नाटकीय रूप से सुधारता है
- 128K अधिकतम आउटपुट पूर्ण कोडबेस और विस्तृत रिपोर्ट जनरेट करने के लिए
सीमाएं
- $7/$35 प्रति 1M टोकन प्रीमियम मूल्य — उच्च-वॉल्यूम उपयोग के लिए महँगा
- extended thinking सक्षम होने पर अधिक लेटेंसी, विशेष रूप से max प्रयास पर
- मालिकाना और closed-source — self-hosting विकल्प नहीं
- भारी टूल उपयोग के साथ 1M कॉन्टेक्स्ट प्रति-अनुरोध लागत बढ़ा सकता है
उपयोग के मामले
API उदाहरण
curl https://api.callmissed.com/v1/chat/completions \
-H "Authorization: Bearer cm_YOUR_KEY" \
-d '{"model": "anthropic/claude-opus-4.6", "messages": [{"role": "user", "content": "Analyze this financial report and identify risks"}]}'एंडपॉइंट: POST /v1/chat/completions · मॉडल ID: anthropic/claude-opus-4.6
Claude Opus 4.6 अभी आज़माएं
साइनअप पर 1000 फ्री API क्रेडिट पाएं। कोई क्रेडिट कार्ड ज़रूरी नहीं।