ادعای متا در مورد مدل جدید هوش مصنوعیاش
به گزارش گروه علم و پیشرفت خبرگزاری فارس به نقل از تککرانچ، متا مدل CM3Leon (آفتپرستپرست) را معرفی کرد، یک مدل هوش مصنوعی که این شرکت ادعا میکند عملکردی پیشرفته برای تولید متن به تصویر دارد.
این شرکت میگوید CM3Leon به عنوان یکی از اولین تولیدکنندههای تصویر قادر به تولید شرح تصاویر است و پایهای را برای مدلهای با قابلیت درک تصویر در آینده ایجاد میکند.
متا در یک پست وبلاگی نوشت: «با قابلیتهای CM3Leon، ابزارهای تولید تصویر میتوانند تصاویر منسجمتری تولید کنند که از دستورات ورودی بهتر پیروی میکند. ما معتقدیم که عملکرد قوی CM3Leon در کارهای مختلف گامی به سوی تولید و درک تصویر با کیفیت بالاتر است.»
بیشتر تولیدکنندههای تصویر مدرن، از جمله دال - ای2، اپنایآی و استیبل دفیوژن برای خلق هنر به فرآیندی به نام انتشار متکی هستند. مثلا در دیفیوژن، یک مدل یاد میگیرد که چگونه به تدریج نویز را از یک تصویری که تماماً از نویز ساخته شده کم کرده و آن را گام به گام به اعلان هدف نزدیکتر کند. نتایج خوب است اما انتشار از نظر محاسباتی فشرده است و کارکرد آن را گران و آنقدر کند می کند که غیرعملی هستند.
در مقابل، CM3Leon یک مدل ترانسفورماتور است که از مکانیزمی به نام «توجه» برای سنجش ارتباط داده های ورودی مانند متن یا تصاویر استفاده می کند. توجه و دیگر ویژگیهای معماری ترانسفورماتورها میتواند سرعت آموزش مدل را افزایش داده و آنها را آسانتر کند.
متا ادعا می کند که CM3Leon حتی از بسیاری از ترانسفورماتورها کارآمدتر است، به 5 برابر محاسبات و مجموعه داده آموزشی کمتری نسبت به روش های قبلی نیاز دارد.
جالب اینجاست که شرکت اپنایآی چندین سال پیش ترانسفورماتورها را به عنوان وسیله ای برای تولید تصویر با مدلی به نام Image GPT بررسی کرد. اما در نهایت این ایده را به نفع انتشار کنار گذاشت.
تنظیم دستورالعمل، عملکرد CM3Leon را نه تنها در تولید تصویر، بلکه در نوشتن شرح تصویر، بهبود بخشید و آن را قادر میسازد تا با پیروی از دستورالعملهای متنی به سؤالات مربوط به تصاویر پاسخ دهد و تصاویر را ویرایش کند.
به گفته متا CM3leon یک مدل پایه چندوجهی برای ایجاد متن به تصویر و همچنین ایجاد تصویر به متن است که برای ایجاد خودکار شرح تصاویر مفید است. این مدل می تواند دستورالعمل های ویرایش تصاویر موجود را درک کند و برخلاف دال - ای2، میتواند طیف وسیعی از اعلانها را برای ایجاد زیرنویسهای کوتاه یا طولانی و پاسخ به سؤالات مربوط به یک تصویر خاص دنبال کند. متا ادعا میکند که مدلش در این زمینهها، حتی از مدلهای تخصصی شرحنویسی تصویر بهتر عمل کرد.
مدلهای هوش مصنوعی مولد مانند دال - ای2، سوگیریهای اجتماعی را تقویت میکنند و تصاویری از موقعیتهای اقتدار ایجاد میکنند مانند تصاویری از مردان سفید پوست در نقش مدیرعاملی. متا این سوال را بدون پاسخ رها کرد و فقط گفت که CM3Leon می تواند هرگونه سوگیری موجود در دادههای آموزشی را منعکس کند.
در حال حاضر CM3leon یک تلاش تحقیقاتی است و مشخص نیست متا چه زمانی این فناوری را در یکی از پلتفرمهای خود به صورت عمومی در دسترس قرار خواهد داد.
از طرف دیگر فایننشال تایمز گزارش داد که متا آماده است تا نسخه تجاری مدل بزرگ زبانی منبع بازی را منتشر کند، که توسعه دهندگان و کسب و کارها را قادر می سازد تا برنامه های کاربردی را با استفاده از مدل پایه بسازند. این راهاندازی به این معنی است که متا به طور مستقیم با اپنایآی و گوگل تحت حمایت مایکروسافت رقابت میکند و این رقابت میتواند به معنای پیشرفتهای قابل توجهی در زمینه هوش مصنوعی باشد. نرم افزار بسته یا اختصاصی، مانند چتجیپیتی انتقادهایی را در مورد شفافیت و امنیت به دنبال داشته است.
پایان پیام /