طبق اسناد عمومی توسعهدهندگان شرکت هوش مصنوعی xAI، این شرکت درحال افزودن قابلیت پردازش ورودیهای چندوجهی به چتبات Grok خود است. این بدان معناست که بهزودی، کاربران ممکن است بتوانند برای Grok تصویر بفرستند تا باتوجه به آن با هوش مصنوعی مکالمه داشته باشند.
حدود یک ماه پیش شرکت هوش مصنوعی «ایلان ماسک»، یعنی xAI، نسخه Grok-1.5 Vision را معرفی کرد که برای تعدادی از کاربران محدود در دسترس قرار گرفت. این نسخه از Grok میتواند نمودار، اسکرینشات و تصاویر را پردازش کند. اکنون به گزارش ورج و طبق آخرین آپدیت اسناد توسعهدهندگان، توسعه این مدل درحال پیشرفت است و احتمالاً بهزودی در دسترس قرار میگیرد.
پردازش بلادرنگ صدا و تصویر دیدیم، بعید نیست که شرکت ایلان ماسک نیز در این رقابت از قابلیتهای چندوجهی هوش مصنوعی خود رونمایی کند.
هوش مصنوعی Grok با ورودیهای چندوجهی
طبق سند موجود، یک نمونه از اسکریپت پایتون وجود دارد که نشان میدهد چگونه توسعهدهندگان میتوانند از SDK یا کتابخانه کیت توسعه نرمافزار xAI برای ایجاد پاسخ براساس متن و تصاویر استفاده کنند. این اسکریپت پس از خواندن یک فایل تصویری و پرامپت متنی، به کاربر پاسخ میدهد.
این قابلیت یک آپدیت بزرگ برای Grok محسوب خواهد شد. شرکت xAI برای اولینبار در نوامبر ۲۰۲۳ این چتبات را رونمایی کرد و کاربران پریمیوم پلاس ایکس میتوانند از آن استفاده کنند. این هوش مصنوعی با دادههای متنی از منابع عمومی در اینترنت تا سهماهه سوم ۲۰۲۳ آموزش دیده و در فرایند آموزش آن از پستهای شبکه اجتماعی ایکس استفاده نشده است.
شرکت xAI توسط ایلان ماسک در مارس ۲۰۲۳ (اسفند ۱۴۰۱) تأسیس شد، بااینحال در زمینه هوش مصنوعی شرکت نوپایی محسوب میشود و از رقبایی مانند OpenAI عقبتر است. البته xAI میگوید که مدل Grok 1.5 آنها دارد به GPT-4 در بنچمارکهای مختلف نزدیک میشود.
منبع: دیجیاتو