• बैनर

ओपनएआई प्वाइंट ई: एक जीपीयू पर मिनटों में जटिल वेवफॉर्म से 3डी प्वाइंट क्लाउड बनाएं

एक नए लेख प्वाइंट-ई में: जटिल संकेतों से 3डी बिंदु बादलों को उत्पन्न करने के लिए एक प्रणाली, ओपनएआई शोध दल प्वाइंट ई, एक 3डी बिंदु बादल पाठ सशर्त संश्लेषण प्रणाली पेश करता है जो जटिल पाठ द्वारा संचालित विविध और जटिल 3डी आकार बनाने के लिए प्रसार मॉडल का उपयोग करता है। संकेत।एक जीपीयू पर मिनटों में।
आज के अत्याधुनिक इमेज जेनरेशन मॉडल के अद्भुत प्रदर्शन ने 3डी टेक्स्ट ऑब्जेक्ट्स के निर्माण में अनुसंधान को प्रेरित किया है।हालाँकि, 2D मॉडल के विपरीत, जो मिनटों या सेकंड में आउटपुट उत्पन्न कर सकता है, ऑब्जेक्ट जेनेरेटिव मॉडल को आमतौर पर एकल नमूना उत्पन्न करने के लिए कई घंटों के GPU कार्य की आवश्यकता होती है।
एक नए लेख प्वाइंट-ई में: कॉम्प्लेक्स सिग्नल से 3डी पॉइंट क्लाउड उत्पन्न करने के लिए एक प्रणाली, ओपनएआई रिसर्च टीम पॉइंट·ई प्रस्तुत करती है, जो 3डी पॉइंट क्लाउड के लिए एक शाब्दिक सशर्त संश्लेषण प्रणाली है।यह नया दृष्टिकोण एक GPU पर केवल एक या दो मिनट में जटिल पाठ संकेतों से विविध और जटिल 3D आकार बनाने के लिए प्रचार मॉडल का उपयोग करता है।
टीम पाठ को 3डी में बदलने की चुनौती पर केंद्रित है, जो आभासी वास्तविकता और गेमिंग से लेकर औद्योगिक डिजाइन तक के वास्तविक दुनिया के अनुप्रयोगों के लिए 3डी सामग्री का लोकतंत्रीकरण करने के लिए महत्वपूर्ण है।टेक्स्ट को 3डी में बदलने के लिए मौजूदा तरीके दो श्रेणियों में आते हैं, जिनमें से प्रत्येक में इसकी कमियां हैं: 1) जनरेटिव मॉडल का उपयोग कुशलता से नमूने उत्पन्न करने के लिए किया जा सकता है, लेकिन विविध और जटिल टेक्स्ट सिग्नल के लिए कुशलता से स्केल नहीं किया जा सकता है;2) जटिल और विविध टेक्स्ट संकेतों को संभालने के लिए एक पूर्व-प्रशिक्षित टेक्स्ट-इमेज मॉडल, लेकिन यह दृष्टिकोण कम्प्यूटेशनल रूप से गहन है और मॉडल आसानी से स्थानीय मिनिमा में फंस सकता है जो सार्थक या सुसंगत 3डी ऑब्जेक्ट्स के अनुरूप नहीं है।
इसलिए, टीम ने एक वैकल्पिक दृष्टिकोण की खोज की जिसका उद्देश्य टेक्स्ट-टू-इमेज प्रसार मॉडल का उपयोग करके पाठ-छवि जोड़े के एक बड़े सेट पर प्रशिक्षित (इसे विविध और जटिल संकेतों को संभालने की अनुमति) का उपयोग करके उपरोक्त दो दृष्टिकोणों की ताकत को जोड़ना है। पाठ-छवि जोड़े के एक छोटे सेट पर प्रशिक्षित एक 3डी छवि प्रसार मॉडल।छवि-3D जोड़ी डेटासेट।टेक्स्ट-टू-इमेज मॉडल पहले एकल सिंथेटिक प्रतिनिधित्व बनाने के लिए इनपुट इमेज का नमूना लेता है, और इमेज-टू-3डी मॉडल चयनित इमेज के आधार पर 3डी पॉइंट क्लाउड बनाता है।
कमांड का जनरेटिव स्टैक पाठ से छवियों को सशर्त रूप से उत्पन्न करने के लिए हाल ही में प्रस्तावित जनरेटिव फ्रेमवर्क पर आधारित है (सोहल-डिकस्टीन एट अल।, 2015; सॉन्ग एंड एर्मन, 2020बी; हो एट अल।, 2020)।वे 3 बिलियन ग्लाइड मापदंडों (निकोल एट अल।, 2021) के साथ एक GLIDE मॉडल का उपयोग करते हैं, उनके टेक्स्ट-टू-इमेज ट्रांसफ़ॉर्मेशन मॉडल के रूप में रेंडर किए गए 3D मॉडल पर फ़ाइन-ट्यून किया जाता है, और प्रसार मॉडल का एक सेट जो उनके रूप में RGB पॉइंट क्लाउड उत्पन्न करता है परिवर्तन मॉडल।छवियों को छवि।3 डी मॉडल।
जबकि पिछले काम ने पॉइंट क्लाउड को प्रोसेस करने के लिए 3डी आर्किटेक्चर का इस्तेमाल किया था, शोधकर्ताओं ने दक्षता में सुधार के लिए एक साधारण ट्रांसड्यूसर-आधारित मॉडल (वासवानी एट अल।, 2017) का इस्तेमाल किया।उनके प्रसार मॉडल आर्किटेक्चर में, पॉइंट क्लाउड छवियों को पहले पूर्व-प्रशिक्षित ViT-L/14 CLIP मॉडल में फीड किया जाता है और फिर आउटपुट मेश को मार्कर के रूप में कनवर्टर में फीड किया जाता है।
अपने अनुभवजन्य अध्ययन में, टीम ने COCO ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन और सिग्नेचर डेटासेट से स्कोरिंग सिग्नल पर अन्य जनरेटिव 3डी मॉडल के साथ प्रस्तावित प्वाइंट·ई विधि की तुलना की।परिणाम इस बात की पुष्टि करते हैं कि प्वाइंट · ई जटिल पाठ संकेतों से विविध और जटिल 3डी आकार उत्पन्न करने में सक्षम है और परिमाण के एक से दो आदेशों तक अनुमान समय को गति देता है।टीम को उम्मीद है कि उनका काम 3डी टेक्स्ट सिंथेसिस में और शोध को प्रेरित करेगा।
परियोजना के गिटहब पर एक पूर्व-प्रशिक्षित बिंदु क्लाउड प्रसार मॉडल और मूल्यांकन कोड उपलब्ध हैं।दस्तावेज़ बिंदु-ई: जटिल सुरागों से 3डी बिंदु बादल बनाने के लिए एक प्रणाली arXiv पर है।
हम जानते हैं कि आप किसी समाचार या वैज्ञानिक खोज को छोड़ना नहीं चाहेंगे।साप्ताहिक एआई अपडेट प्राप्त करने के लिए हमारे लोकप्रिय सिंक्ड ग्लोबल एआई साप्ताहिक न्यूजलेटर की सदस्यता लें।


पोस्ट समय: दिसम्बर-28-2022