هوش مصنوعی گوگل تنها با یک عکس ویدیو سه‌بعدی می‌سازد

خبرگزاری دانشجو 1401/05/31 - 12:38 مشاهده در مرجع

به گزارش گروه دانشگاه خبرگزاری دانشجو، شبکه عصبی «دیپ مایند» (Deepmind) گوگل اکنون قادر به ساختن ویدیو‌های 30 ثانیه‌ای از یک تصویر واحد است. «ترنسفریمر» (Transframer)، نامی که بر این ابزار جدید گذاشته شده است، تنها به یک عکس نیاز دارد تا با آن کار کند، به این صورت که [در ابتدا شروع می‌کند] به شناسایی آنچه در چارچوب عکس وجود دارد. محتوای تصویر را تجزیه‌وتحلیل می‌کند و سپس با استفاده از «تصاویر زمینه‌ای» آنچه را که احتمالا در پیرامون آن است پیش‌بینی می‌کند - و بر اساس حجم عظیمی از داده‌هایی [که از قبل با آن‌ها] آموزش دیده است، حدس می‌زند که اشیاء از زوایای مختلف احتمالا چه شکلی‌اند. تیم دیپ مایند در مطلب ارسالی خود نوشت: «وظیفه [ترنسفریمر] با در اختیار داشتن مجموعه‌ای از تصاویر زمینه‌ای با حواشی مرتبط (ازجمله برچسب زمانی، زاویه دید دوربین و غیره) و همچنین تحقیق و بررسی درباره این حواشی و تفاسیر، این است که سهم احتمالی [این موارد را] بر روی تصویر مورد نظر پیش‌بینی کند.» «این چارچوب [هوش مصنوعی]، از طیف وسیعی از کار‌های پیش‌بینی بصری، ازجمله مدل‌سازی ویدیویی، ترکیب نمای جدید و دید چند وظیفه‌ای (multi-task) پشتیبانی می‌کند.»

این امکان وجود دارد که بتوان به‌جای [روش] مرسوم رندرینگ که در حال حاضر در بازی‌های ویدیویی و دیگر فضا‌های آنلاین استفاده می‌شود، از این فناوری در ساخت محیط‌های دیجیتالی سه بعدی استفاده شود. تیم ما همچنین یک مدل واحد را آموزش داد تا 8 وظیفه مختلف، برای‌مثال تخمین عمق، گروه‌بندی موارد نمونه، جریان نوری و تشخیصی در تصاویر و ویدیو‌ها را انجام دهد. از طریق تارنمای پروژه بیشتر دراین‌باره بدانید.