AI एजेंट्स पर भरोसा मत करो

28 फ़रवरी 2026 · Gavriel Cohen

जब आप AI एजेंट्स के साथ काम कर रहे हों, तो उन्हें अविश्वसनीय और संभावित रूप से दुर्भावनापूर्ण मानना चाहिए। चाहे आप prompt injection से चिंतित हों, किसी मॉडल के sandbox से बाहर निकलने की कोशिश से, या किसी ऐसे ख़तरे से जिसके बारे में अभी तक किसी ने सोचा भी नहीं — आपका threat model चाहे जो भी हो, एजेंट पर भरोसा नहीं करना चाहिए। सही तरीक़ा बेहतर परमिशन चेक या स्मार्ट allowlists नहीं है। सही तरीक़ा ऐसा आर्किटेक्चर है जो यह मानकर चलता है कि एजेंट्स ग़लत काम करेंगे और जब करें तो नुकसान सीमित रहे।

NanoClaw इसी सिद्धांत पर बनाया गया है।

प्रोसेस पर भरोसा मत करो

OpenClaw डिफ़ॉल्ट रूप से सीधे होस्ट मशीन पर चलता है। इसमें एक ऑप्ट-इन Docker sandbox मोड है, लेकिन यह बॉक्स से बाहर बंद रहता है, और ज़्यादातर यूज़र्स इसे कभी चालू नहीं करते। इसके बिना, सुरक्षा पूरी तरह एप्लिकेशन-लेवल चेक्स पर निर्भर करती है: allowlists, कन्फ़र्मेशन प्रॉम्प्ट्स, “सुरक्षित” कमांड्स का एक सेट। ये चेक्स इस अंतर्निहित भरोसे से आते हैं कि एजेंट कुछ ग़लत करने की कोशिश नहीं करेगा। जब आप यह मानसिकता अपना लेते हैं कि एजेंट संभावित रूप से दुर्भावनापूर्ण है, तो यह स्पष्ट हो जाता है कि एप्लिकेशन-लेवल ब्लॉक्स काफ़ी नहीं हैं। ये hermetic सुरक्षा प्रदान नहीं करते। एक दृढ़ संकल्प या compromised एजेंट इनसे बचने के रास्ते ढूंढ सकता है।

NanoClaw में, कंटेनर आइसोलेशन आर्किटेक्चर का मूल हिस्सा है। हर एजेंट अपने कंटेनर में चलता है, Docker पर या macOS पर Apple Container में। कंटेनर्स अस्थायी होते हैं, हर बार नए बनाए जाते हैं और बाद में नष्ट कर दिए जाते हैं। एजेंट एक अनप्रिविलेज्ड यूज़र के रूप में चलता है और केवल वे डायरेक्टरीज़ देख सकता है जो स्पष्ट रूप से माउंट की गई हों। कंटेनर बाउंड्री OS द्वारा लागू की जाती है।

दूसरे एजेंट्स पर भरोसा मत करो

जब OpenClaw का sandbox चालू भी हो, तब भी सभी एजेंट्स एक ही कंटेनर साझा करते हैं। हो सकता है कि आपके पास एक एजेंट पर्सनल असिस्टेंट के रूप में हो और दूसरा काम के लिए, अलग-अलग WhatsApp ग्रुप्स या Telegram चैनल्स में। वे सब एक ही एनवायरनमेंट में हैं, जिसका मतलब है कि ऐसे एजेंट्स के बीच जानकारी लीक हो सकती है जिन्हें अलग-अलग डेटा एक्सेस करना चाहिए।

एजेंट्स को एक-दूसरे पर उतना ही कम भरोसा करना चाहिए जितना आप उन पर करते हैं। NanoClaw में, हर एजेंट को अपना कंटेनर, फ़ाइल सिस्टम, और Claude सेशन हिस्ट्री मिलती है। आपका पर्सनल असिस्टेंट आपके वर्क एजेंट का डेटा नहीं देख सकता क्योंकि वे पूरी तरह अलग sandbox में चलते हैं।

कंटेनर बाउंड्री कठोर सुरक्षा परत है — एजेंट कॉन्फ़िगरेशन चाहे जो भी हो, इससे बाहर नहीं निकल सकता। इसके ऊपर, ~/.config/nanoclaw/mount-allowlist.json पर एक माउंट allowlist डिफ़ेंस-इन-डेप्थ की एक अतिरिक्त परत के रूप में काम करती है: यह यूज़र को गलती से कुछ ऐसा माउंट करने से रोकने के लिए है जो एक्सपोज़ नहीं होना चाहिए, न कि एजेंट को ब्रेकआउट से रोकने के लिए। संवेदनशील पाथ (.ssh, .gnupg, .aws, .env, private_key, credentials) डिफ़ॉल्ट रूप से ब्लॉक हैं। allowlist प्रोजेक्ट डायरेक्टरी के बाहर रहती है, इसलिए एक compromised एजेंट अपनी खुद की परमिशन्स नहीं बदल सकता। होस्ट एप्लिकेशन कोड रीड-ओनली माउंट किया जाता है, इसलिए कंटेनर नष्ट होने के बाद एजेंट की कोई भी कार्रवाई बनी नहीं रहती।

आपके ग्रुप्स में मौजूद लोगों पर भी भरोसा नहीं किया जाना चाहिए। नॉन-मेन ग्रुप्स डिफ़ॉल्ट रूप से अविश्वसनीय होते हैं। दूसरे ग्रुप्स, और उनमें मौजूद लोग, अन्य चैट्स को मैसेज नहीं भेज सकते, दूसरे ग्रुप्स के लिए टास्क शेड्यूल नहीं कर सकते, या दूसरे ग्रुप्स का डेटा नहीं देख सकते। ग्रुप में कोई भी prompt injection भेज सकता है, और सुरक्षा मॉडल इसे ध्यान में रखता है।

जो पढ़ नहीं सकते उस पर भरोसा मत करो

OpenClaw में लगभग पांच लाख लाइन्स कोड, 53 कॉन्फ़िग फ़ाइलें, और 70 से ज़्यादा डिपेंडेंसीज़ हैं। यह ओपन सोर्स सुरक्षा के मूल सिद्धांत को तोड़ता है। Chromium में 3.5 करोड़ से ज़्यादा लाइन्स हैं, लेकिन आप Google की रिव्यू प्रक्रियाओं पर भरोसा करते हैं। ज़्यादातर ओपन सोर्स प्रोजेक्ट्स दूसरे तरीक़े से काम करते हैं: वे इतने छोटे रहते हैं कि कई लोग वाकई उनकी समीक्षा कर सकें। OpenClaw की 4,00,000 लाइन्स की किसी ने समीक्षा नहीं की है। यह हफ़्तों में बिना किसी उचित रिव्यू प्रक्रिया के लिखा गया था। जटिलता वह जगह है जहाँ कमज़ोरियाँ छिपती हैं, और Microsoft के विश्लेषण ने इसकी पुष्टि की: OpenClaw के जोखिम सामान्य API कॉल्स के ज़रिए सामने आ सकते हैं, क्योंकि कोई एक व्यक्ति पूरी तस्वीर नहीं देख सकता था।

कोड की लाइन्स की तुलना: OpenClaw ~4,00,000 लाइन्स बनाम NanoClaw ~3,000 लाइन्स

NanoClaw एक प्रोसेस और कुछ फ़ाइलें हैं। हम सेशन मैनेजमेंट, मेमोरी कॉम्पैक्शन, और बहुत कुछ के लिए पहिया दोबारा बनाने के बजाय Anthropic के Agent SDK पर, जो Claude Code के ऊपर एक wrapper है, बहुत ज़्यादा निर्भर हैं। एक सक्षम डेवलपर पूरे कोडबेस की एक दोपहर में समीक्षा कर सकता है। यह एक जानबूझकर की गई सीमा है, कमज़ोरी नहीं। हमारे कॉन्ट्रिब्यूशन गाइडलाइन्स केवल बग फ़िक्स, सिक्योरिटी फ़िक्स, और सिम्प्लीफ़िकेशन स्वीकार करती हैं।

नई कार्यक्षमता skills के ज़रिए आती है: ऐसे निर्देश जिनमें एक पूरा वर्किंग रेफ़रेंस इम्प्लीमेंटेशन होता है जिसे एक कोडिंग एजेंट आपके कोडबेस में मर्ज करता है। कोड जुड़ने से पहले आप ठीक-ठीक देखते हैं कि क्या कोड जोड़ा जाएगा। और आप केवल वही इंटीग्रेशन जोड़ते हैं जिनकी आपको वास्तव में ज़रूरत है। हर इंस्टॉलेशन मालिक की सटीक ज़रूरतों के अनुसार कुछ हज़ार लाइन्स कोड बन जाता है।

यही असली अंतर है। 4,00,000 लाइन्स के एक मोनोलिथिक कोडबेस में, भले ही आप सिर्फ़ दो इंटीग्रेशन चालू करें, बाक़ी कोड अभी भी वहाँ है। वह अभी भी लोड है, अभी भी आपकी अटैक सर्फ़ेस का हिस्सा है, अभी भी prompt injections और rogue एजेंट्स की पहुँच में है। आप यह अलग नहीं कर सकते कि क्या सक्रिय है और क्या निष्क्रिय। आप इसका ऑडिट नहीं कर सकते क्योंकि आप “आपका कोड” की सीमा को परिभाषित भी नहीं कर सकते। skills के साथ, सीमा स्पष्ट है: यह कुछ हज़ार लाइन्स है, यह सब वह कोड है जिसे आपने जोड़ना चुना, और आप इसकी हर लाइन पढ़ सकते हैं। कोर वास्तव में समय के साथ छोटा होता जा रहा है: WhatsApp सपोर्ट, उदाहरण के लिए, बाहर निकाला जा रहा है और एक skill के रूप में पैकेज किया जा रहा है।

अविश्वास के लिए डिज़ाइन करो

अगर एक hallucination या ग़लत व्यवहार करने वाला एजेंट सुरक्षा समस्या पैदा कर सकता है, तो सुरक्षा मॉडल टूटा हुआ है। सुरक्षा को एजेंटिक सर्फ़ेस के बाहर लागू किया जाना चाहिए, न कि एजेंट के सही व्यवहार पर निर्भर होना चाहिए। कंटेनर्स, माउंट प्रतिबंध, और फ़ाइल सिस्टम आइसोलेशन — ये सब इसलिए हैं ताकि जब एजेंट कुछ अप्रत्याशित करे, तो नुकसान का दायरा सीमित रहे।

इसमें से कुछ भी जोखिम को खत्म नहीं करता। आपके डेटा तक पहुँच रखने वाला AI एजेंट स्वाभाविक रूप से एक उच्च-जोखिम व्यवस्था है। लेकिन सही जवाब उस भरोसे को जितना संकीर्ण और जितना सत्यापन योग्य हो सके बनाना है। एजेंट पर भरोसा मत करो। उसके चारों ओर दीवारें खड़ी करो।

आप NanoClaw का सोर्स कोड और पूरा सुरक्षा मॉडल पढ़ सकते हैं; ये इतने छोटे हैं कि एक दोपहर में पढ़े जा सकते हैं।