شبیه سازی ادراک انسان با هوش مصنوعی برای همبستگی فرا تصویری
“پیوند تصویر” یک مدل هوش مصنوعی از “کار مدل چند وجهی” توسط شرکت متا است که از یک نوع داده برای تولید انواع دیگر داده ها استفاده می کند. به عنوان مثال، ImageBind می تواند صدا، تصاویر تولید کند یا از آن برای بهبود سایر مدل های چند وجهی استفاده کند.
متا نسل جدیدی از هوش مصنوعی با ادراک انسانمانند و تخیل انسانمانند را نشان داد. همانطور که یک فرد می تواند چشمان خود را ببندد و صدای اردک یا کلاغ را تصور کند، این شکل از هوش مصنوعی نیز می تواند انواع دیگری از داده ها را با گرفتن شکل متفاوتی از داده ها ایجاد کند. برای مثال این مدل که «Image Bind» یا ImageBind نام دارد، می تواند صدای یک جاده شلوغ را بگیرد و عکس های جمعآوری شده از این جاده را بگیرد.
در واقع، این مدل منبع باز توسط افراد برای درک «چگونگی درک» و «چگونگی جذب اطلاعات» اطراف افراد ایجاد شده است. با این مدل می توانید ربات ها و ماشین هایی بسازید که مانند انسان فکر کنند. تصور کنید یک ربات بتواند مانند یک انسان در یک خیابان شلوغ قدم بزند و فقط با گوش دادن به صداهای اطراف بداند که کدام موجود یا ماشین از پشت به آن نزدیک می شود، بدون اینکه به آن نگاه کند.
ImageBind با استفاده از یک رویکرد چند حسی از منابع داده های مختلف بدون نیاز به نظارت صریح یاد می گیرد.
این منابع داده، داده های مختلف را در یک «فرآیند جامع واحد» یا «میدان اختیاری» ترکیب می کنند.
محققان Meta میگویند: «ImageBind ابزارهایی را مجهز به درک عمیق میکند که اشیاء موجود در یک تصویر را با نحوه صدا، شکل سهبعدی آنها، گرم یا سرد بودن و نحوه حرکت آنها متصل میکند.
این مدل هوش مصنوعی را می توان با مدل هایی مانند DALLE-2 یا Make-a-Scene (در صورت آموزش قبلی) ترکیب کرد تا ورودی ها را بهتر درک کنید. این مدل همچنین میتواند برای بهبود مدلهای هوش مصنوعی موجود مانند Meta Make-A-Scene (با استفاده از رویکرد هوش مصنوعی مولد چند نمای) برای ایجاد بهتر تصاویر واقعی از ورودی متن استفاده شود.
متا همچنین استفاده از مدلهای ImageBind را برای پیادهسازی مدلهای Make-A-Scene پیشنهاد میکند تا بتوانند با اتصال صداهای موجود تصویری ایجاد کنند. مانند ایجاد یک تصویر بر اساس صداهای یک جنگل بارانی یا یک بازار شلوغ.
محققان متا می گویند این نوع جدید هوش مصنوعی می تواند برای کاهش محتوا یا بهبود طراحی آن استفاده شود. این محققان می توانند از روش های دیگری مانند پرس و جوهای ورودی ImageBind برای یافتن خروجی انواع دیگر داده ها استفاده کنند.