रोबोट को वीडियो देखने से जाने के लिए प्रशिक्षण मिलता है
टूल-एएस-इंटरफ़ेस, एक दो-कैमरा, वीडियो-केवल विधि जो रोबोट टूल का उपयोग सिखाती है, उच्च औसत सफलता दर के साथ और डेटा संग्रह समय में कटौती करती है।
कोलंबिया विश्वविद्यालय और यूटी ऑस्टिन के सहयोग से इलिनोइस विश्वविद्यालय की एक शोध टीम ने एक फ्रेमवर्क का अनावरण किया है जो रोबोटों को सामान्य मानव वीडियो से सीधे सीखकर उपकरणों का उपयोग करने के लिए प्रशिक्षित करता है।विधि विशेष कार्यों को करने के लिए उच्च सफलता दर की रिपोर्ट करती है और टेलीओपरेशन-आधारित बेसलाइन की तुलना में तेजी से डेटा संग्रह, गतिशील कौशल सिखाने के लिए कम लागत वाले मार्ग की ओर इशारा करती है।
टूल-ए-इंटरफ़ेस नामक दृष्टिकोण, रोबोट डेटा से सीखता है, जो एक कार्य करने वाले व्यक्ति के दो आरजीबी कैमरा विचारों द्वारा एकत्र किया जाता है।एक 3 डी पुनर्निर्माण मॉडल (MAST3R) दृश्य ज्यामिति बनाता है;3 डी गौसियन स्प्लैटिंग को मजबूती में सुधार करने के लिए अतिरिक्त विचारों को संश्लेषित करता है।
असली जादू होता है, वीडियो से मनुष्यों को हटाने के साथ।ग्राउंडेड-सैम के साथ, सेगमेंट कुछ भी मॉडल (एसएएम) के साथ गठबंधन करने के लिए एक ओपन-सेट ऑब्जेक्ट डिटेक्टर।सिस्टम केवल उपकरण और दृश्य के साथ बातचीत को ट्रैक करता है, इससे मानव को अनदेखा करता है।
सिस्टम तब टूल के 6-डीओएफ, 6 डिग्री की स्वतंत्रता की नकल करने और एक टूल-केंद्रित नीति सीखने का अनुमान लगाता है, जो क्रॉस-रोबोट ट्रांसफर से लिंक करता है।
टीम ने पांच कार्यों पर फ्रेमवर्क को मान्य किया, जिसमें गति या सटीकता की आवश्यकता होती है: एक नाखून को हथौड़ा देना, एक मीटबॉल को स्कूप करना, एक पैन में भोजन फहराना, शराब की बोतल को संतुलित करना, और एक फुटबॉल को एक गोल में लात मारना।इन कार्यों के दौरान, विधि ने टेलीपोर्टेशन डेटा पर प्रशिक्षित प्रसार नीतियों की तुलना में 71% अधिक औसत सफलता दर हासिल की और डेटा-संग्रह समय को 77% तक कम कर दिया।कुछ कार्यों को केवल रिपोर्ट किए गए परीक्षणों में इस ढांचे द्वारा हल किया गया था।
डेटा पाइपलाइन कमोडिटी कैमरों का उपयोग करती है और इसे रोबोट-साइड ऑपरेटरों या मोशन-कैप्चर रिग्स की आवश्यकता नहीं होती है।यह सेटअप जटिलता को कम करता है और प्रयोगशाला के बाहर रिकॉर्ड किए गए प्रदर्शनों को पैमाना कर सकता है।
सीमाएं बनी हुई हैं।वर्तमान प्रणाली ग्रिपर को तय एक कठोर उपकरण मानती है और मुद्रा-एस्टीमेशन त्रुटियों से पीड़ित हो सकती है;उपन्यास-व्यू संश्लेषण बड़े दृष्टिकोण परिवर्तनों के तहत नीचा हो सकता है।ये बाधाएं इंजीनियरिंग लक्ष्यों के अगले सेट को निर्देशित करती हैं।