5,945 रीडिंग

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

द्वारा tyingshoelaces.com9m2024/06/24

बहुत लंबा; पढ़ने के लिए

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक का फोरेंसिक विश्लेषण। आर्टिफैक्ट्स संरचित आउटपुट कार्यों जैसे कोड जनरेशन के लिए हैं, जो वेक्टर सर्च रैग के लिए है, परिभाषित आउटपुट के लिए खोज और पुनर्प्राप्ति प्रणाली।

Companies Mentioned

Coins Mentioned

featured image - क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

विषयसूची

कलाकृतियों का परिचय
संरचित आउटपुट उत्पादन में एक कदम आगे।

सोच
तार्किक सोच पीढ़ी प्रक्रिया का एक महत्वपूर्ण हिस्सा है।

पहचानकर्ता और खोज
कलाकृतियों की खोज और पुनर्प्राप्ति सिस्टम प्रॉम्प्ट का एक महत्वपूर्ण हिस्सा है।

टेम्पलेटिंग भाषा संरचना
एक रेंडरिंग टेम्प्लेट जो इनपुट वैरिएबल के आधार पर बदलेगा

निष्कर्ष
क्लाउड के लिए एक छोटी सी कलाकृति, एआई के लिए एक बड़ी छलांग।

क्लाउड 3.5 प्रणाली
सिस्टम पूर्ण रूप से संकेत देता है

कलाकृतियों का परिचय

संरचित आउटपुट उत्पादन में एक कदम आगे।

यह क्लाउड 3.5 सॉनेट के लिए सिस्टम प्रॉम्प्ट जनरेशन का विश्लेषण है। इस विश्लेषण के लिए कोड का लिंक स्रोत के साथ नीचे उपलब्ध है। इस विश्लेषण का मुख्य फोकस कलाकृतियों की अवधारणा का परिचय है, और यह एक बुद्धिमान वर्गीकरण और पुनर्प्राप्ति प्रणाली के हिस्से के रूप में कैसे काम कर सकता है।

“कलाकृतियाँ सारगर्भित, स्व-निहित विषय-वस्तु के लिए होती हैं, जिन्हें उपयोगकर्ता संशोधित या पुनः उपयोग कर सकते हैं।

आर्टिफैक्ट एक प्रतिमान परिवर्तन है क्योंकि यह एक नई अवधारणा को औपचारिक रूप देता है। स्थायी डेटा की अवधारणा। स्थायी डेटा हमारे लिए एक उच्च क्यूरेटेड और संरचित सामग्री लाइब्रेरी तक पहुँचने के लिए एक कदम है। निश्चित संदर्भ प्रदान करके, हम पुनरावृत्ति को अनब्लॉक करते हैं और आउटपुट को क्रमिक रूप से सुधारने और परिष्कृत करने की क्षमता रखते हैं। यह वर्बोज़ LLM आउटपुट की क्षणभंगुर प्रकृति को नियंत्रित करने की दिशा में एक कदम है।

कोड पूर्णता जैसे कार्यात्मक कार्यों के लिए जनरेटिव एआई के साथ अंतर्निहित समस्याओं में से एक यह है कि वे अक्सर सरल परिवर्तनों के लिए पूरी फ़ाइलों को दोहराते हैं। 'डिफ' सुविधा की बहुत मांग है, जहां हम समान सामग्री को दोहराने के बजाय पहले और बाद के बीच के अंतर को आउटपुट करते हैं।

इस प्रकार कलाकृतियाँ दोहरे उद्देश्य की पूर्ति करती हैं; सबसे पहले, वे इस बात के लिए संदर्भ बिंदु के रूप में कार्य करते हैं कि हमें कैसे और कहाँ आउटपुट की आवश्यकता है। यह दायरे की स्थापना या संदर्भ बिंदु की परिभाषा की तरह है। यह LLM को मूल समस्या पर ध्यान केंद्रित करने से रोकेगा और आउटपुट में संरचना और वर्गीकरण को भी बनाए रखेगा।

बोनस पॉइंट के रूप में, हमारे पास एक स्वतः पूर्ण सुविधा भी है। 'बेस' कोड और परिवर्तनों के दायरे को परिभाषित करके, हमने अब अपने LLM को एक विशिष्ट कार्य या समस्या पर ध्यान केंद्रित करने के लिए निर्देशित किया है, एक विचारशील और क्यूरेटेड तरीके से। यह ज़ूम में अनियमित बदलावों को रोकता है और प्रॉम्प्ट को प्रगति में पूरा कार्य भी प्रदान करता है। कोई भी इंजीनियर जिसने गलती से अपना कोड "बाकी कोड यहाँ" के साथ मिटा दिया है, आपका धन्यवाद। हम यहाँ दायरे की सेटिंग देख सकते हैं:

"आत्म-निहित, जटिल विषय-वस्तु जिसे बातचीत के संदर्भ के बिना, अपने आप ही समझा जा सकता है

हम अनियंत्रित वर्बोज़ आउटपुट से ध्यान हटाकर ठोस आर्टिफैक्ट पर केंद्रित कर रहे हैं। बातचीत के संदर्भ को अनदेखा करने के स्पष्ट निर्देश पर ध्यान देना उचित है। यह क्यूरेटेड डेटा के संदर्भ में गुणवत्ता सुनिश्चित करने की एक विधि है। यह एक गुणवत्ता नियंत्रण तंत्र है जो इनपुट की वर्बोज़ और संभावित रूप से यादृच्छिक विशेषताओं को नियंत्रित करता है।

यह सब पुनर्प्राप्ति के लिए एक वास्तुकला के साथ मिलकर काम करता है। क्यूरेटेड आर्टिफैक्ट्स की एक गहरी लाइब्रेरी होने से, अब हम अपने सिस्टम को नियंत्रित डेटासेट से पुनर्प्राप्त करने के लिए निर्देशित कर सकते हैं। हम जानते हैं कि सभी बड़े AI प्रदाता उच्च गुणवत्ता वाले क्यूरेटेड डेटा में निवेश करने पर बहुत अधिक ध्यान केंद्रित कर रहे हैं। आर्टिफैक्ट्स एक संरचना के साथ वर्बोज़ इनपुट और आउटपुट को तैयार करने की दिशा में एक कदम है।

हम प्रॉम्प्ट में इनपुट और मैपिंग से हटकर सिस्टम-परिभाषित शोध पर ध्यान केंद्रित होते देख सकते हैं। यहाँ कुछ बहिष्करण मानदंडों का एक उदाहरण दिया गया है:

"वह सामग्री उपयोगी होगी जो वर्तमान वार्तालाप संदर्भ पर निर्भर हो।"
ऐसी सामग्री जिसे उपयोगकर्ता द्वारा संशोधित या पुनरावृत्त किए जाने की संभावना नहीं है।
उपयोगकर्ताओं से अनुरोध जो एक बार का प्रश्न प्रतीत होता है।

प्रॉम्प्ट सक्रिय रूप से सिस्टम संदर्भ और हाथ में मौजूद कार्य पर ध्यान केंद्रित कर रहा है। प्रॉम्प्ट स्पष्ट रूप से उस इनपुट को फ़िल्टर करने का प्रयास कर रहा है जो किसी बहुत विशिष्ट आउटपुट के लिए प्रासंगिक नहीं है। इसलिए, आर्टिफैक्ट जेनरेट किए गए टेक्स्ट और पर्दे के पीछे संरचित डेटा दोनों में एक ठोस संदर्भ बिंदु के रूप में कार्य करता है। यह हमें तेज़ और सटीक पुनर्प्राप्ति और फ़ोकस देता है। कुछ ऐसा जो बहुत मददगार है...

सोच

तार्किक सोच पीढ़ी प्रक्रिया का एक महत्वपूर्ण हिस्सा है।

प्रॉम्प्ट इंजीनियर लंबे समय से हमें बता रहे हैं कि विश्वसनीय आउटपुट की एक कुंजी एलएलएम को एक बहु-चरणीय संरचित और तार्किक विचार प्रक्रिया बनाने के लिए बाध्य करना है। हम प्रॉम्प्ट में इसकी औपचारिक मान्यता देखते हैं।

“1. किसी आर्टिफैक्ट को लागू करने से पहले, <antthinking> टैग में एक वाक्य के लिए सोचें कि यह एक अच्छे और बुरे आर्टिफैक्ट के मानदंडों के विरुद्ध कैसे मूल्यांकन करता है। विचार करें कि क्या सामग्री आर्टिफैक्ट के बिना ठीक काम करेगी। यदि यह आर्टिफैक्ट-योग्य है, तो दूसरे वाक्य में यह निर्धारित करें कि यह एक नया आर्टिफैक्ट है या किसी मौजूदा आर्टिफैक्ट का अपडेट (सबसे आम)। अपडेट के लिए, पूर्व पहचानकर्ता का पुनः उपयोग करें।

यहाँ, हम अपने सिस्टम को कार्य और आउटपुट का विश्लेषण करने के लिए एक संरचित बहु-चरणीय प्रक्रिया अपनाने के लिए बाध्य कर रहे हैं। फिर से, विस्तृत सामग्री की मजबूत परिभाषा की ओर बढ़ते हुए और कलाकृतियों के लिए खोज और पुनर्प्राप्ति प्रणाली की ओर इशारा करते हुए।

“<antthinking>फैक्टोरियल की गणना करने के लिए पायथन स्क्रिप्ट बनाना एक अच्छे आर्टिफैक्ट के लिए मानदंड को पूरा करता है। यह कोड का एक स्व-निहित टुकड़ा है जिसे अपने आप समझा जा सकता है और इसका पुन: उपयोग या संशोधन किया जा सकता है। यह एक नई बातचीत है, इसलिए कोई पहले से मौजूद आर्टिफैक्ट नहीं हैं। इसलिए, मैं एक नया आर्टिफैक्ट बना रहा हूँ।</antthinking>

<antthinking>यह अनुरोध मौजूदा फैक्टोरियल-कैलकुलेटर आर्टिफैक्ट का प्रत्यक्ष संशोधन है। यह कोई नया आर्टिफैक्ट नहीं है, बल्कि स्क्रिप्ट को और अधिक मजबूत बनाने के लिए एक अपडेट है। मैं निरंतरता बनाए रखने और हमारे कोड के विकास को दिखाने के लिए फैक्टोरियल-कैलकुलेटर पहचानकर्ता का पुनः उपयोग करूँगा।</antthinking>

यहाँ, हम परिभाषित आउटपुट की पीढ़ी के लिए एक तार्किक विचार प्रक्रिया के कार्यान्वयन को देख सकते हैं। यह सुनिश्चित करके कि हमारा एल्गोरिदम समान तार्किक चरणों से गुजरता है, हमारे पास एक बुद्धिमान और दोहराए जाने योग्य पीढ़ी प्रक्रिया के बीज हैं।

हम इस तर्क को किसी व्यक्ति की विचार प्रक्रिया से जोड़ सकते हैं। सबसे पहले, हमारे पास तार्किक और तर्कसंगत समस्या-समाधान दृष्टिकोण है। हम इसे कठोर कलाकृतियों के साथ पूरक करते हैं। एलएलएम डेटा सेट मस्तिष्क है, लेकिन कलाकृतियाँ कौशल और ज्ञान हैं जो हमें एक निश्चित आउटपुट पर पहुंचने में सक्षम बनाती हैं।

यदि हम सभी प्रतिस्पर्धी मॉडलों की कल्पना करें, तो हम यह निष्कर्ष निकाल सकते हैं कि वे तार्किक विचार प्रक्रियाओं की प्रतिकृति पर निर्भर करते हैं। हम अनिवार्य रूप से एक रोबोट मस्तिष्क बना रहे हैं जो मानव की तार्किक विचार प्रक्रिया की नकल करता है। हम मस्तिष्क को ईंधन देने वाले लापता भागों, ज्ञान, संरचनाओं और पुनर्प्राप्ति प्रक्रियाओं का निर्माण कर रहे हैं।

इससे सिस्टम संकेत और निर्देश अविश्वसनीय रूप से मूल्यवान संपत्ति बन जाते हैं। "तार्किक सोच" की समझ और परिशोधन निर्माण प्रक्रिया का एक महत्वपूर्ण हिस्सा है।

हम कोड में इस संरचित सोच के कुछ बुनियादी कार्यान्वयन देख सकते हैं...

पहचानकर्ता और खोज

कलाकृतियों की खोज और पुनर्प्राप्ति सिस्टम प्रॉम्प्ट का एक महत्वपूर्ण हिस्सा है।

“<antartifact identifier="factorial-script" type="application/vnd.ant.code" language="python" title="सरल पायथन फैक्टोरियल स्क्रिप्ट"> def फैक्टोरियल(n): यदि n == 0: return 1 अन्यथा: return n * फैक्टोरियल(n - 1)

तो एप्लीकेशन/vnd.ant.code क्या है? एप्लीकेशन काफी सरल है, VND विक्रेता है, ANT एंथ्रोपिक (क्लाउड के निर्माता) और कोड होगा; यह उनकी वास्तुकला में एक अंतर्दृष्टि है। मैं किसी प्रकार की वर्गीकरण और संरचित डेटा की अपेक्षा करता हूँ जो उन कार्यों को सूचीबद्ध करता है जिन्हें लोग LLM के साथ प्राप्त करने का प्रयास कर रहे हैं।

कोडिंग कार्य
प्रस्तुतियों
दस्तावेज़
विश्लेषण
बहुत अधिक...

उदाहरण के लिए, हम पावरपॉइंट प्रेजेंटेशन के लिए कुछ छद्म कोड बना सकते हैं।

 <antartifact identifier="powerpoint-presentation" type="application/vnd.ant.presentation" purpose="business" title="Simple powerpoint presentation"> Slide 1: Title slide Slide 2: Introduction Slide 3: Problem statement Slide 4: Solution </antartifact>

यह लगभग निश्चित रूप से उत्पादन कोड जैसा कुछ नहीं है, लेकिन एक दिलचस्प मानसिक प्रतिमान है। विस्तृत आउटपुट को नियंत्रित और संरचित करने के लिए, हमें इनपुट और आउटपुट को वर्गीकृत और मानकीकृत करने के लिए तार्किक और तर्कसंगत प्रक्रियाओं का सामना करना पड़ता है।

मुझे संदेह है कि इसका मतलब यह है कि जब इनपुट आते हैं, तो वे अलग-अलग युद्ध-कठोर एल्गोरिदम चलाते हैं जो इकाई निष्कर्षण और वर्गीकरण चलाते हैं। यह संरचित डेटा तब एक परिसंपत्ति खोज और पुनर्प्राप्ति प्रक्रिया के माध्यम से चलाया जाता है। जहाँ, पाठ के लिए, हम वेक्टर डेटाबेस का उपयोग करते हैं; अन्य परिभाषित आउटपुट के लिए, हमने अब कलाकृतियों की इस अवधारणा को पेश किया है। उदाहरण के लिए, एक रिएक्ट कोड कार्य कुछ इस तरह हो सकता है।

 "INPUT: Create a react component for a metrics dashboard", "ENTITY_EXTRACTION: Coding, React, Metrics Dashboard", "ENTITY_SEARCH: Retrieve code artifacts for Metrics Dashboard where type = React", "SYSTEM_PROMPT: create_system_prompt(artifact_id='metrics-dashboard-component', type='application/vnd.ant.code', language='react')"

बहुत कुछ चल रहा है, और हम देख सकते हैं कि पर्दे के पीछे कितनी मेहनत की ज़रूरत है ताकि उच्च गुणवत्ता वाले उदाहरण और टैक्सोनॉमी तैयार की जा सके, जो कि अनिवार्य रूप से असीमित सैद्धांतिक कार्यों का समूह है। इसे स्वचालित करने के लिए पर्दे के पीछे अन्य AI वर्गीकरण एल्गोरिदम के साथ पुनरावृत्ति होगी।

लेकिन, जहां तक हम देख सकते हैं, यह मूलतः एक फैंसी खोज और पुनर्प्राप्ति प्रणाली है, जो एक स्वामित्वयुक्त टेम्पलेटिंग भाषा पर आधारित है।

टेम्प्लेटिंग भाषा संरचना

एक रेंडरिंग टेम्प्लेट जो इनपुट वेरिएबल के आधार पर स्थानांतरित होगा।

मैंने कई साल पहले ड्रूपल डेवलपर के रूप में अपना करियर शुरू किया था। प्रॉम्प्ट पढ़ते समय, जो शब्द मेरे दिमाग में आया वह था TWIG। Twig एक HTML टेम्प्लेटिंग भाषा है जिसका इस्तेमाल आमतौर पर PHP से HTML में टेम्प्लेट रेंडर करने के लिए किया जाता था। क्लाउड लगभग निश्चित रूप से कुछ समतुल्य दृष्टिकोण का उपयोग करेगा जो संरचित डेटा (संभवतः LLM के बाहर निकाले गए) के आधार पर इनपुट और संदर्भ को तैयार करता है।

ऐसा लगता है कि क्लाउड सॉनेट 3.5 कुछ इसी तरह का उपयोग करता है, जो बिल्कुल सही है। LLM में टेक्स्ट इनपुट दिए जाने पर, हमें व्यवस्थित रूप से टेक्स्ट के ब्लॉक बनाने की आवश्यकता है। ये गतिशील टैग हैं जिन्हें प्रॉम्प्ट बनाने के लिए एक साथ रखा जाता है।

<antartifact></antartifact>
<कलाकृतियाँ_जानकारी><कलाकृतियाँ_जानकारी/>
<उदाहरण></उदाहरण>
<उपयोगकर्ता_क्वेरी></उपयोगकर्ता_क्वेरी>
<उदाहरण_docstring></उदाहरण_docstring>
<सहायक_प्रतिक्रिया></सहायक_प्रतिक्रिया>

यह एक तरह के फ़ंक्शन-कॉलिंग दृष्टिकोण का लाभ उठाएगा। प्रत्येक टैग का एक विशिष्ट उद्देश्य होता है। यह तब एक अमूर्तता के रूप में कार्य करता है क्योंकि हम अपने मॉडल को प्रत्येक विशिष्ट उद्देश्य के लिए सही श्रेणी और प्रकार खोजने के लिए निर्देशित करते हैं। मुझे लगता है कि प्रॉम्प्ट निर्माण कुछ इस तरह होता है। बड़े पैमाने पर सट्टा छद्म कोड आने वाला है…

 function generate_reference() { context=artifact_type, artifact_id, task examples = search_examples_by_type('react', 'hooks', 'current_ids') return structured_data } function generate_system_instruction(structured_data) { <antartifact> <artifacts_info {{ attribute(version, '1.00') }}> <% artifact_introduction %> <% artifact_selection %> <% artifact_elimination %> <% artifact_usage %> <% artifact_instruction {{ type(code, 'data-code') }} {{ type(react, 'data-react') }} %> </ artifacts_info/> <example {{ for react_example in react_code_artifact }}>{react_example }</example> <example_docstring {{ for example_thought_process in curated_artifact_generation_example }}>{example_thought_process }<example_docstring /> <user_query>{sanitized_user_query}</user_query> <assistant_response>{sanitized_user_query}</assistant_response> </antartifact }

तो, यहाँ हमारे पास एक विचार प्रक्रिया है, जिसे ब्लॉकों में विभाजित किया गया है। उन्नत खोज और पुनर्प्राप्ति के साथ इकाई निष्कर्षण मैप किया गया। तार्किक विचार प्रक्रिया के लिए बिल्डिंग ब्लॉक। आधारभूत डेटा आउटपुट की गुणवत्ता के लिए महत्वपूर्ण है।

निष्कर्ष

क्लाउड के लिए एक छोटी सी कलाकृति, एआई के लिए एक बड़ी छलांग।

आर्टिफैक्ट्स संरचित आउटपुट जैसे कोड जनरेशन के लिए वही हैं जो वेक्टर सर्च रैग के लिए है। यह संरचित आउटपुट के लिए खोज और पुनर्प्राप्ति प्रणाली है।

हम क्लाउड 3.5 में एक संरचित और तर्कसंगत विचार प्रक्रिया का सबूत देखते हैं। कुछ ऐसा जिसकी हमने हमेशा से ही जनरेटिव एआई में महत्वपूर्ण होने की उम्मीद की थी, लेकिन यह औपचारिक प्रमाण है।

मैं कल्पना कर सकता हूँ कि डेवलपर्स और मार्केटर्स की सेना क्यूरेटेड आर्टिफैक्ट्स की लाइब्रेरी बना रही है। इस लाइब्रेरी को वर्गीकरण और फिर खोज और पुनर्प्राप्ति कार्यों के माध्यम से एक्सेस किया जाता है। लेकिन आगे का असली कदम दृढ़ता की अवधारणा है।

कलाकृतियों के साथ काम करके, हमारे पास ऐसे संदर्भ बिंदु हैं जो क्षणभंगुर से परे मौजूद हैं। जिन्हें परिष्कृत किया जा सकता है और फिर से इस्तेमाल किया जा सकता है। हमारे पास पहले से ही विचार और विस्तृत आउटपुट था। अब, हमारे पास यादें और विशेषज्ञता है...