नमस्ते दोस्तों! आजकल AI (Artificial Intelligence) की दुनिया बहुत तेजी से बदल रही है। Anthropic कंपनी, जो Claude AI बनाती है, ने हाल ही में एक नया इंजीनियरिंग ब्लॉग पोस्ट शेयर किया है। इसका टाइटल है – Harness Design for Long-Running Application Development।
इस पोस्ट में हम इसी लेख को सरल हिंदी भाषा में समझेंगे। अगर आप डेवलपर हैं, AI enthusiast हैं या बस जानना चाहते हैं कि AI खुद से पूरे ऐप कैसे बना सकता है, तो यह आर्टिकल आपके लिए बहुत उपयोगी होगा। हम बात करेंगे कि पुराने तरीके क्यों काम नहीं करते, नया Harness सिस्टम कैसे काम करता है, और इससे क्या फायदा होता है।
यह आर्टिकल SEO फ्रेंडली तरीके से लिखा गया है ताकि Google सर्च में आसानी से मिले। कीवर्ड्स जैसे “Anthropic Harness”, “Claude AI long running apps”, “multi agent harness design” और “लंबे समय चलने वाले AI ऐप्स” को नैचुरली इस्तेमाल किया गया है। चलिए शुरू करते हैं!
AI Apps बनाने में पुरानी दिक्कतें क्या थीं?
पहले Claude AI या दूसरे AI मॉडल्स को लंबे समय तक कोई ऐप बनाने के लिए इस्तेमाल किया जाता था। लेकिन कई समस्याएं आती थीं:
- Context Window की सीमा – AI का दिमाग (context) भरा हुआ हो जाता था। लंबे काम में पुरानी बातें भूलने लगता था।
- Context Anxiety – कुछ मॉडल्स (जैसे Claude Sonnet 4.5) जल्दी काम खत्म कर देते थे क्योंकि उन्हें डर लगता था कि context भर जाएगा।
- Self-Evaluation Bias – AI खुद अपनी बनाई चीज को “बहुत अच्छा” कह देता था, भले ही असल में डिजाइन या कोड में गलतियां हों।
इन समस्याओं की वजह से AI सिर्फ छोटे-छोटे टास्क कर पाता था। फुल-स्टैक ऐप (जिसमें frontend + backend + database सब हो) बनाना मुश्किल हो जाता था। Anthropic की टीम ने इन्हीं समस्याओं को सुलझाने के लिए Harness नाम का स्मार्ट सिस्टम बनाया।
Harness क्या है और यह GANs से कैसे inspired है?
Harness एक multi-agent सिस्टम है। मतलब, इसमें कई AI एजेंट्स एक साथ काम करते हैं। यह Generative Adversarial Networks (GANs) से inspired है। GANs में एक generator चित्र बनाता है और दूसरा evaluator बताता है कि कितना अच्छा बना।
इसी तरह यहां:
- Generator Agent → ऐप का कोड या डिजाइन बनाता है।
- Evaluator Agent → उसकी जांच करता है और सख्ती से फीडबैक देता है।
इससे AI खुद को बेहतर बनाता रहता है। पहले की तुलना में अब AI घंटों तक बिना रुके काम कर सकता है।
फ्रंटएंड डिजाइन को ग्रेडेबल कैसे बनाया?
डिजाइन बहुत subjective होता है। “यह सुंदर है या नहीं” – इसका कोई साफ जवाब नहीं। Anthropic टीम ने 4 क्लियर grading criteria बनाए:
- Design Quality – रंग, फॉन्ट, लेआउट सब मिलकर एक mood और identity बनाते हैं या नहीं।
- Originality – टेम्प्लेट जैसा नहीं, बल्कि नया और deliberate डिजाइन हो।
- Craft – स्पेसिंग, टाइपोग्राफी, कलर हार्मोनी सही हो।
- Functionality – यूजर बिना सोचे आसानी से काम कर सके।
Generator HTML/CSS/JS बनाता है। Evaluator Playwright टूल से लाइव पेज खोलता है, स्क्रीनशॉट लेता है, क्लिक करता है और स्कोर देता है।
5 से 15 बार यह लूप चलता है। हर बार generator फीडबैक लेकर बेहतर बनाता है। नतीजा? पहले का साधारण landing page अब 3D नेविगेशन वाला museum-style gallery बन जाता है!
फुल-स्टैक ऐप्स के लिए 3 एजेंट आर्किटेक्चर
फ्रंटएंड के बाद टीम ने पूरा ऐप बनाने का सिस्टम बनाया। इसमें तीन एजेंट्स हैं:
- Planner Agent – यूजर के 1-4 वाक्य के प्रॉम्प्ट से पूरा प्रोडक्ट स्पेसिफिकेशन बनाता है। डिजाइन, फीचर्स, AI integration सब प्लान करता है।
- Generator Agent – एक-एक फीचर (sprint) में कोड लिखता है। React, Vite, FastAPI, SQLite इस्तेमाल करता है। Git से version control रखता है।
- Evaluator Agent – Playwright से UI, API, डेटाबेस सब टेस्ट करता है। अगर कुछ गलत तो सख्त फीडबैक देता है।
Sprint Contract नाम का सिस्टम है – generator और evaluator पहले सहमति बनाते हैं कि क्या बनाना है और कैसे चेक करना है। इससे drift नहीं होता।
पहले Sonnet 4.5 में context resets (context साफ करके नया शुरू करना) जरूरी था। लेकिन Opus 4.5 और 4.6 आने के बाद resets की जरूरत कम हो गई। अब Claude Agent SDK का automatic compaction काम करता है।
रियल केस स्टडी: Retro Game Maker
एक साधारण प्रॉम्प्ट: “Create a 2D retro game maker with level editor, sprite editor, etc.”
- सिर्फ एक Agent (solo): 20 मिनट, $9 → ऐप टूटा हुआ, play mode काम नहीं कर रहा।
- पूरी Harness (3 agents): 6 घंटे, $200 → 16 फीचर्स, polished UI, AI sprite generator, shareable links, working play mode!
Evaluator ने 27 bugs पकड़े। जैसे rectangle fill tool सिर्फ शुरू और अंत में tile डाल रहा था। Generator ने फिक्स किया।
अब एक और उदाहरण – Digital Audio Workstation (DAW)। यहां भी evaluator ने बताया कि clips drag नहीं हो रहे, instrument panels missing हैं। Generator ने तुरंत सुधार दिया।
Harness को सिंपल कैसे बनाया? (Simplification Principle)
Anthropic की टीम ने कहा – “सबसे सरल समाधान ढूंढो, जितना जरूरी हो उतना ही complexity बढ़ाओ।”
Opus 4.6 आने के बाद:
- Sprint system हटा दिया।
- Context resets बंद कर दिए।
- सिर्फ planner + generator + अंत में evaluator QA।
- टोकन खर्च और समय दोनों कम हुए।
लेकिन evaluator अभी भी जरूरी है क्योंकि AI कभी-कभी subtle bugs छोड़ देता है।
मुख्य सीखें और बेस्ट प्रैक्टिस
- Evaluator को सख्त और skeptical रखो। शुरू में वो ढीला था, बाद में prompt ट्यून करके बेहतर बनाया।
- Context resets compaction से बेहतर हैं (पुराने मॉडल्स में)।
- नया मॉडल आए तो harness को फिर से टेस्ट करो और अनावश्यक पार्ट हटाओ।
- AI फीचर्स (जैसे Claude से sprite generate) को स्पष्ट प्रॉम्प्ट से जोड़ो।
- Harness हमेशा model के साथ evolve करता रहे।
भविष्य में क्या होगा?
जैसे-जैसे Claude Opus 4.6 या आगे के मॉडल्स बेहतर होते जाएंगे, harness और सरल होगा। लेकिन फिर भी evaluator जैसी चीजें बनी रहेंगी क्योंकि creative और complex काम में human-like judgment जरूरी है।
यह Harness डेवलपर्स को empower करेगा – अब छोटी टीम या सोलो डेवलपर भी प्रोफेशनल लेवल के AI-powered ऐप्स घंटों में बना सकेंगे।
निष्कर्ष: Harness क्यों गेम-चेंजर है?
Anthropic का Harness दिखाता है कि AI को सिर्फ प्रॉम्प्ट देने से काम नहीं चलेगा। सही design (generator + evaluator), context management और simplification से AI घंटों तक autonomously काम कर सकता है।
अगर आप Claude AI इस्तेमाल करते हैं तो Claude Agent SDK और GitHub पर दिए गए examples देखें। लिंक: Anthropic Official Blog
इसी तरह की और टेक्नोलॉजी खबरें पढ़ने के लिए हमारे अन्य लेख भी जरूर पढ़ें।
Nano Banana 2: गूगल का नया AI टूल जो सेकंडों में बनाता है शानदार इमेज
Nvidia का Thinking Machines Lab में निवेश: AI Chips और 1GW कंप्यूटिंग पावर से बदलेगा AI का भविष्य