شبیه سازی ادراک انسان با هوش مصنوعی برای همبستگی فرا تصویری

صفحه اصلی فناوری

شبیه سازی ادراک انسان با هوش مصنوعی برای همبستگی فرا تصویری

“پیوند تصویر” یک مدل هوش مصنوعی از “کار مدل چند وجهی” توسط شرکت متا است که از یک نوع داده برای تولید انواع دیگر داده ها استفاده می کند. به عنوان مثال، ImageBind می تواند صدا، تصاویر تولید کند یا از آن برای بهبود سایر مدل های چند وجهی استفاده کند.

متا نسل جدیدی از هوش مصنوعی با ادراک انسان‌مانند و تخیل انسان‌مانند را نشان داد. همانطور که یک فرد می تواند چشمان خود را ببندد و صدای اردک یا کلاغ را تصور کند، این شکل از هوش مصنوعی نیز می تواند انواع دیگری از داده ها را با گرفتن شکل متفاوتی از داده ها ایجاد کند. برای مثال این مدل که «Image Bind» یا ImageBind نام دارد، می تواند صدای یک جاده شلوغ را بگیرد و عکس های جمع‌آوری شده از این جاده را بگیرد.

در واقع، این مدل منبع باز توسط افراد برای درک «چگونگی درک» و «چگونگی جذب اطلاعات» اطراف افراد ایجاد شده است. با این مدل می توانید ربات ها و ماشین هایی بسازید که مانند انسان فکر کنند. تصور کنید یک ربات بتواند مانند یک انسان در یک خیابان شلوغ قدم بزند و فقط با گوش دادن به صداهای اطراف بداند که کدام موجود یا ماشین از پشت به آن نزدیک می شود، بدون اینکه به آن نگاه کند.

ImageBind با استفاده از یک رویکرد چند حسی از منابع داده های مختلف بدون نیاز به نظارت صریح یاد می گیرد.

این منابع داده، داده های مختلف را در یک «فرآیند جامع واحد» یا «میدان اختیاری» ترکیب می کنند.

محققان Meta می‌گویند: «ImageBind ابزارهایی را مجهز به درک عمیق می‌کند که اشیاء موجود در یک تصویر را با نحوه صدا، شکل سه‌بعدی آن‌ها، گرم یا سرد بودن و نحوه حرکت آن‌ها متصل می‌کند.

این مدل هوش مصنوعی را می توان با مدل هایی مانند DALLE-2 یا Make-a-Scene (در صورت آموزش قبلی) ترکیب کرد تا ورودی ها را بهتر درک کنید. این مدل همچنین می‌تواند برای بهبود مدل‌های هوش مصنوعی موجود مانند Meta Make-A-Scene (با استفاده از رویکرد هوش مصنوعی مولد چند نمای) برای ایجاد بهتر تصاویر واقعی از ورودی متن استفاده شود.

متا همچنین استفاده از مدل‌های ImageBind را برای پیاده‌سازی مدل‌های Make-A-Scene پیشنهاد می‌کند تا بتوانند با اتصال صداهای موجود تصویری ایجاد کنند. مانند ایجاد یک تصویر بر اساس صداهای یک جنگل بارانی یا یک بازار شلوغ.

محققان متا می گویند این نوع جدید هوش مصنوعی می تواند برای کاهش محتوا یا بهبود طراحی آن استفاده شود. این محققان می توانند از روش های دیگری مانند پرس و جوهای ورودی ImageBind برای یافتن خروجی انواع دیگر داده ها استفاده کنند.