ادعای متا در مورد مدل جدید هوش مصنوعی‌اش

خبرگزاری فارس 1402/04/24 - 20:30 مشاهده در مرجع

به گزارش گروه علم و پیشرفت خبرگزاری فارس به نقل از تک‌کرانچ، متا مدل CM3Leon (آفت‌پرست‌پرست) را معرفی کرد، یک مدل هوش مصنوعی که این شرکت ادعا می‌کند عملکردی پیشرفته برای تولید متن به تصویر دارد.

این شرکت می‌گوید CM3Leon به عنوان یکی از اولین تولیدکننده‌های تصویر قادر به تولید شرح تصاویر است و پایه‌ای را برای مدل‌های با قابلیت درک تصویر در آینده ایجاد می‌کند.

متا در یک پست وبلاگی نوشت: «با قابلیت‌های CM3Leon، ابزارهای تولید تصویر می‌توانند تصاویر منسجم‌تری تولید کنند که از دستورات ورودی بهتر پیروی می‌کند. ما معتقدیم که عملکرد قوی CM3Leon در کارهای مختلف گامی به سوی تولید و درک تصویر با کیفیت بالاتر است.»

بیشتر تولیدکننده‌های تصویر مدرن، از جمله دال - ای2، اپن‌ای‌آی و استیبل دفیوژن برای خلق هنر به فرآیندی به نام انتشار متکی هستند. مثلا در دیفیوژن، یک مدل یاد می‌گیرد که چگونه به تدریج نویز را از یک تصویری که تماماً از نویز ساخته شده کم کرده و آن را گام به گام به اعلان هدف نزدیک‌تر کند. نتایج خوب است اما انتشار از نظر محاسباتی فشرده است و کارکرد آن را گران و آنقدر کند می کند که غیرعملی هستند.

در مقابل، CM3Leon یک مدل ترانسفورماتور است که از مکانیزمی به نام «توجه» برای سنجش ارتباط داده های ورودی مانند متن یا تصاویر استفاده می کند. توجه و دیگر ویژگی‌های معماری ترانسفورماتورها می‌تواند سرعت آموزش مدل را افزایش داده و آن‌ها را آسان‌تر کند.

متا ادعا می کند که CM3Leon حتی از بسیاری از ترانسفورماتورها کارآمدتر است، به 5 برابر محاسبات و مجموعه داده آموزشی کمتری نسبت به روش های قبلی نیاز دارد.

جالب اینجاست که شرکت اپن‌ای‌آی چندین سال پیش ترانسفورماتورها را به عنوان وسیله ای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را به نفع انتشار کنار گذاشت.

تنظیم دستورالعمل، عملکرد CM3Leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر، بهبود بخشید و آن را قادر می‌سازد تا با پیروی از دستورالعمل‌های متنی به سؤالات مربوط به تصاویر پاسخ دهد و تصاویر را ویرایش کند.

به گفته متا CM3leon یک مدل پایه چندوجهی برای ایجاد متن به تصویر و همچنین ایجاد تصویر به متن است که برای ایجاد خودکار شرح تصاویر مفید است. این مدل می تواند دستورالعمل های ویرایش تصاویر موجود را درک کند و برخلاف دال - ای2، می‌تواند طیف وسیعی از اعلان‌ها را برای ایجاد زیرنویس‌های کوتاه یا طولانی و پاسخ به سؤالات مربوط به یک تصویر خاص دنبال کند. متا ادعا می‌کند که مدلش در این زمینه‌ها، حتی از مدل‌های تخصصی شرح‌نویسی تصویر بهتر عمل کرد.

مدل‌های هوش مصنوعی مولد مانند دال - ای2، سوگیری‌های اجتماعی را تقویت می‌کنند و تصاویری از موقعیت‌های اقتدار ایجاد می‌کنند مانند تصاویری از مردان سفید پوست در نقش مدیرعاملی. متا این سوال را بدون پاسخ رها کرد و فقط گفت که CM3Leon می تواند هرگونه سوگیری موجود در داده‌های آموزشی را منعکس کند.

در حال حاضر CM3leon یک تلاش تحقیقاتی است و مشخص نیست متا چه زمانی این فناوری را در یکی از پلتفرم‌های خود به صورت عمومی در دسترس قرار خواهد داد.

از طرف دیگر فایننشال تایمز گزارش داد که متا آماده است تا نسخه تجاری مدل بزرگ زبانی منبع بازی را منتشر کند، که توسعه دهندگان و کسب و کارها را قادر می سازد تا برنامه های کاربردی را با استفاده از مدل پایه بسازند. این راه‌اندازی به این معنی است که متا به طور مستقیم با اپن‌ای‌آی و گوگل تحت حمایت مایکروسافت رقابت می‌کند و این رقابت می‌تواند به معنای پیشرفت‌های قابل توجهی در زمینه هوش مصنوعی باشد. نرم افزار بسته یا اختصاصی، مانند چت‌جی‌پی‌تی انتقادهایی را در مورد شفافیت و امنیت به دنبال داشته است.

پایان پیام /

شما می توانید این مطلب را ویرایش نمایید

این مطلب را برای صفحه اول پیشنهاد کنید متا مدل هوش مصنوعی تبدیل متن به تصویر این خبر توسط افراد زیر ویرایش شده است