سه‌شنبه 18 دی 1403

متا از مجموعه داده‌های HOT3D برای آموزش پیشرفته بینایی کامپیوتری رونمایی کرد

خبرگزاری دانشجو مشاهده در مرجع
متا از مجموعه داده‌های HOT3D برای آموزش پیشرفته بینایی کامپیوتری رونمایی کرد

به گزارش گروه دانشگاه خبرگزاری دانشجو، در حالی که بیشتر انسان‌ها به طور ذاتی می‌توانند از دست‌های خود برای برقراری ارتباط با دیگران یا گرفتن و دستکاری اشیا استفاده کنند، بسیاری از سیستم‌های رباتیک موجود فقط در انجام کار‌های ساده دستی برتری دارند. در سال‌های اخیر، دانشمندان کامپیوتر در سرتاسر جهان در حال توسعه مدل‌های مبتنی بر یادگیری ماشینی بوده‌اند که می‌توانند تصاویر انسان‌ها را در...

به گزارش گروه دانشگاه خبرگزاری دانشجو، در حالی که بیشتر انسان‌ها به طور ذاتی می‌توانند از دست‌های خود برای برقراری ارتباط با دیگران یا گرفتن و دستکاری اشیا استفاده کنند، بسیاری از سیستم‌های رباتیک موجود فقط در انجام کار‌های ساده دستی برتری دارند. در سال‌های اخیر، دانشمندان کامپیوتر در سرتاسر جهان در حال توسعه مدل‌های مبتنی بر یادگیری ماشینی بوده‌اند که می‌توانند تصاویر انسان‌ها را در حال انجام کار‌های دستی پردازش کنند و از اطلاعات به‌دست‌آمده برای بهبود دستکاری ربات استفاده کنند، که به نوبه خود می‌تواند تعامل یک ربات را هم با انسان و هم با اشیاء اطرافش افزایش دهد. همچنین می‌توان از مدل‌های مشابه برای ایجاد رابط‌های انسان و ماشین استفاده کرد که بر بینایی رایانه تکیه می‌کنند یا قابلیت‌های سیستم‌های واقعیت افزوده و مجازی (AR و VR) را گسترش می‌دهند. برای آموزش این مدل‌های یادگیری ماشین، محققان نیاز به دسترسی به مجموعه داده‌های با کیفیت بالا دارند که شامل فیلم‌های مشروح شده از انسان‌ها در انجام کار‌های دستی مختلف در دنیای واقعی است. محققان در Meta Reality Labs اخیرا HOT3D را معرفی کردند، مجموعه داده جدیدی که می‌تواند به سرعت بخشیدن به تحقیقات یادگیری ماشین برای تجزیه و تحلیل تعاملات دست و شی کمک کند. این مجموعه داده، که در مقاله منتشر شده در سرور preprint arXiv ارائه شده است، حاوی ویدیو‌های سه بعدی من محور با کیفیت بالا از کاربران انسانی است که اشیاء مختلف را می‌گیرند و دستکاری می‌کنند، که از دیدگاه خود محوری گرفته شده است (یعنی آینه کاری که فردی که کار را انجام می‌دهد منعکس می‌کند. ببینید). بنجری، شکودرانی و همکارانشان در مقاله خود نوشتند: ما HOT3D را یک مجموعه داده در دسترس عموم برای ردیابی دست و اشیاء خودمحور به صورت سه بعدی معرفی می‌کنیم. این مجموعه داده بیش از 833 دقیقه (بیش از 3.7 میلیون تصویر) جریان تصویر RGB/ تک رنگ با چند نمای را ارائه می‌دهد که 19 سوژه را در حال تعامل با 33 شی صلب مختلف، سیگنال‌های چند وجهی مانند نگاه چشم یا ابر‌های نقطه صحنه و حاشیه نویسی‌های حقیقت زمین شامل حالت‌های سه بعدی اشیا، دست‌ها و دوربین ها، و مدل‌های سه بعدی دست‌ها و اشیا جامع است. " مجموعه داده جدید گردآوری شده توسط این تیم در Meta Reality Labs شامل نمایش‌های ساده‌ای از انسان‌ها در برداشتن و مشاهده اشیاء و همچنین قرار دادن آنها بر روی سطح است. با این حال، همچنین شامل نمایش‌های دقیق تری است که نشان می‌دهد کاربران اعمالی را که معمولاً در محیط‌های اداری و خانگی مشاهده می‌شود، مانند برداشتن و استفاده از ظروف آشپزخانه، دستکاری غذا‌های مختلف، تایپ کردن روی صفحه کلید و... انجام می‌دهند. فیلم مشروح موجود در مجموعه داده با استفاده از دو دستگاه توسعه یافته در متا، یعنی عینک Project Aria و هدست Quest 3 جمع آوری شده است. پروژه آریا منجر به ایجاد نمونه اولیه عینک حسگر سبک وزن برای کاربرد‌های واقعیت افزوده (AR) شد. عینک Project Aria می‌تواند داده‌های صوتی و تصویری را ضبط کند و در عین حال حرکات چشم کاربرانی را که از آن استفاده می‌کنند ردیابی کند و اطلاعاتی درباره مکان اشیاء در میدان دید آنها جمع‌آوری کند. Quest 3، دومین دستگاه مورد استفاده برای جمع آوری داده ها، یک هدست واقعیت مجازی (VR) تجاری است که در Meta توسعه یافته است. بانرجی، اسکودرانی و همکارانشان نوشتند: ژست‌های حقیقت زمینی توسط یک سیستم عکاسی حرکتی حرفه‌ای با استفاده از نشانگر‌های نوری کوچک متصل به دست‌ها و اشیاء به دست آمدند. حاشیه‌نویسی‌های دستی در فرمت‌های UmeTrack و MANO ارائه می‌شوند و اشیا با مش‌های سه بعدی با مواد PBR که توسط یک اسکنر داخلی به‌دست می‌آیند نشان داده می‌شوند. برای ارزیابی پتانسیل مجموعه داده HOT3D برای تحقیق در رباتیک و بینایی کامپیوتر، محققان از آن برای آموزش مدل‌های پایه در سه کار مختلف استفاده کردند. آنها دریافتند که این مدل‌ها زمانی که بر روی داده‌های چند نمای موجود در HOT3D آموزش داده می‌شوند، به‌طور قابل‌توجهی بهتر از زمانی که بر روی نمایش‌هایی که یک دیدگاه را به تصویر می‌کشند، آموزش داده می‌شوند. بانرجی، اسکودرانی و همکارانشان نوشتند: «در آزمایش‌های خود، کارآمدی داده‌های خود محوری چند نما را برای سه کار رایج نشان می‌دهیم: ردیابی دست سه بعدی، تخمین وضعیت جسمی 6DoF، و بلند کردن سه بعدی اجسام ناشناخته در دست. روش‌های ارزیابی‌شده چند نما، که محک زدن آنها به‌طور منحصربه‌فردی توسط HOT3D فعال شده است، به‌طور قابل‌توجهی از همتایان تک‌نمای خود بهتر عمل می‌کنند. مجموعه داده HOT3D منبع باز است و می‌تواند توسط محققان در سراسر جهان در وب سایت پروژه آریا دانلود شود. در آینده می‌تواند به توسعه و پیشرفت فناوری‌های مختلف، از جمله رابط‌های انسان و ماشین، ربات‌ها و دیگر سیستم‌های مبتنی بر بینایی کامپیوتری کمک کند.