OpenAI ने ChatGPT की सफलता के पीछे एक महत्वपूर्ण भूमिका निभाई है, जिसमें एक बड़ी संख्या में मानव प्रशिक्षकों ने बॉट के पीछे के कृत्रिम बुद्धिमत्ता मॉडल को सही और गलत आउटपुट पर मार्गदर्शन दिया। OpenAI का अब कहना है कि इंसान प्रशिक्षकों की सहायता के लिए और अधिक AI जोड़ने से AI सहायकों को और भी अधिक स्मार्ट और भरोसेमंद बनाया जा सकता है।
रेइनफोर्समेंट लर्निंग विथ ह्यूमन फीडबैक (RLHF)
ChatGPT के विकास में, OpenAI ने रेइनफोर्समेंट लर्निंग विथ ह्यूमन फीडबैक (RLHF) का उपयोग किया। इस तकनीक में मानव परीक्षकों की इनपुट का उपयोग किया जाता है ताकि AI मॉडल को फाइन-ट्यून किया जा सके जिससे इसका आउटपुट अधिक संगठित, कम आपत्तिजनक और अधिक सटीक हो। प्रशिक्षकों द्वारा दी गई रेटिंग एक एल्गोरिदम में फीड की जाती है जो मॉडल के व्यवहार को संचालित करती है। यह तकनीक चैटबॉट्स को अधिक भरोसेमंद और उपयोगी बनाने और उन्हें गलत व्यवहार से रोकने में महत्वपूर्ण साबित हुई है।
नई तकनीक: CriticGPT
OpenAI ने अपने सबसे शक्तिशाली मॉडल, GPT-4, को फाइन-ट्यून करके एक नया मॉडल विकसित किया है जिसे CriticGPT कहा जाता है। यह मॉडल कोड को मूल्यांकन करने के लिए मानव प्रशिक्षकों की सहायता करता है। OpenAI ने पाया कि नया मॉडल इंसानों द्वारा छूटे हुए बग्स को पकड़ सकता है, और मानव न्यायाधीशों ने इसके कोड के आलोचनाओं को 63 प्रतिशत बेहतर पाया। OpenAI भविष्य में इस दृष्टिकोण को कोड के बाहर अन्य क्षेत्रों में भी विस्तारित करने का लक्ष्य रखता है।
RLHF की सीमाएं और संभावनाएं
OpenAI के शोधकर्ता नेट मैकलीस ने बताया कि RLHF बहुत अच्छी तरह से काम करता है, लेकिन इसमें कुछ महत्वपूर्ण सीमाएं हैं। एक तो यह कि मानव फीडबैक असंगत हो सकता है, और दूसरी यह कि जटिल आउटपुट, जैसे कि परिष्कृत सॉफ्टवेयर कोड को रेट करना, यहां तक कि कुशल इंसानों के लिए भी कठिन हो सकता है। CriticGPT का उपयोग करके, OpenAI इस प्रक्रिया को सुधारने का प्रयास कर रहा है ताकि इंसान प्रशिक्षकों की गलतियों को कम किया जा सके और AI मॉडल को और अधिक सटीक बनाया जा सके।
AI के साथ AI का प्रशिक्षण
OpenAI का कहना है कि AI मॉडल्स को प्रशिक्षित करने में AI की मदद से मानव क्षमताओं को पार किया जा सकता है। “और जैसे-जैसे मॉडल्स बेहतर होते जाएंगे, हमें और अधिक मदद की आवश्यकता होगी,” मैकलीस ने कहा। यह नई तकनीक न केवल AI मॉडल्स को बेहतर बनाने में मदद कर सकती है बल्कि यह सुनिश्चित करने में भी कि उनका आउटपुट अधिक भरोसेमंद और मानव मूल्यों के अनुरूप हो।
भविष्य की ओर
इस महीने की शुरुआत में, OpenAI के प्रतिद्वंद्वी Anthropic ने भी अपने चैटबॉट Claude का एक अधिक सक्षम संस्करण पेश किया, जो मॉडल की प्रशिक्षण प्रणाली और डेटा में सुधार के कारण था। Anthropic और OpenAI दोनों ने हाल ही में AI मॉडल्स की जांच के नए तरीकों का प्रचार किया है ताकि उनके आउटपुट को समझा जा सके और अवांछित व्यवहार जैसे कि धोखे से बचा जा सके।
AI की इस नई तकनीक से OpenAI को अधिक शक्तिशाली AI मॉडल्स का प्रशिक्षण देने में मदद मिल सकती है, जिससे यह सुनिश्चित हो सके कि उनका आउटपुट अधिक भरोसेमंद और मानव मूल्यों के अनुरूप हो। OpenAI अपने अगले प्रमुख AI मॉडल को प्रशिक्षण दे रहा है, और कंपनी यह दिखाने के लिए उत्सुक है कि यह सुनिश्चित करने के लिए गंभीर है कि यह मॉडल सही तरीके से व्यवहार करे।
विशेषज्ञों की राय
MIT के प्रोफेसर डायलन हैडफील्ड-मेनेल, जो AI को संरेखित करने के तरीकों पर शोध करते हैं, कहते हैं कि AI मॉडल्स की मदद से अधिक शक्तिशाली मॉडल्स को प्रशिक्षित करने का विचार कुछ समय से चल रहा है। “यह एक प्राकृतिक विकास है,” वे कहते हैं। हैडफील्ड-मेनेल बताते हैं कि RLHF के लिए इस्तेमाल की जाने वाली तकनीकों को विकसित करने वाले शोधकर्ताओं ने कई साल पहले संबंधित विचारों पर चर्चा की थी। वे कहते हैं कि यह देखा जाना बाकी है कि यह कितना सामान्य और शक्तिशाली है।
यह भी पढ़े: OpenAI का ChatGPT अपग्रेड: Google Drive इंटीग्रेशन और उन्नत डेटा एनालिटिक्स