هوش مصنوعی Grok 4 چت‌بات‌های OpenAI و گوگل را شکست داد

در میانه‌ی اعتراضات گسترده نسبت به محتوای یهودی‌ستیزانه و تغییرات اساسی در سطح مدیریت، ایلان ماسک از مدل هوش مصنوعی جدید شرکت xAI با نام Grok 4 رونمایی کرده است. معرفی این مدل در شرایطی صورت گرفت که شرکت‌های متعلق به ماسک دستخوش ناآرامی بودند. بر اساس گزارش‌ها، ایگور بابوشکین، دانشمند ارشد xAI و لیندا یاکارینو، مدیرعامل X، هر دو اندکی پیش از اعلام رسمی، سمت‌های خود را ترک کرده‌اند.

ماسک، Grok 4 را به‌عنوان گامی بزرگ در توسعه‌ی هوش مصنوعی معرفی کرده و ادعا کرده که این مدل در مقایسه با رقبایی چون OpenAI و Google در معیارهای متعددی، با اختلاف چشم‌گیری عملکرد بهتری دارد. xAI دو نسخه از مدل جدید خود را ارائه کرده است: Grok 4 و Grok 4 Heavy. نسخه‌ی Grok 4 Heavy از سازوکاری چندعاملی بهره می‌برد که به کمک آن، چندین عامل به‌طور هم‌زمان روی یک مسئله کار کرده و نتایج را با یکدیگر مقایسه می‌کنند، فرایندی که شبیه به فعالیت گروه‌های مطالعاتی است. این روش باعث بهبود قابل‌توجه عملکرد مدل در آزمون‌های مرجع شده است.

در این نسخه، قابلیت‌های چندوجهی نیز افزوده شده‌اند، به‌طوری‌که مدل توانایی پردازش متن و تصویر را به‌طور همزمان داراست. همچنین، نسخه‌ای با نام Grok 4 Code برای کمک به برنامه‌نویسان طراحی شده و مدل Grok 4 Voice نیز برای تولید گفتار با لحن طبیعی ارائه شده است. Grok 4 همچنان از دسترسی مستقیم و لحظه‌ای به اینترنت از طریق سامانه DeepSearch برخوردار است که بخش عمده‌ای از داده‌های خود را از پلتفرم X متعلق به ماسک دریافت می‌کند.

اشتراک استفاده از Grok 4 با هزینه‌ی ماهانه‌ی $۳۰ در دسترس است. همچنین، با پرداخت $۳۰۰ در ماه، اشتراک “SuperGrok Heavy” امکان دسترسی زودهنگام به نسخه‌ی Grok 4 Heavy و قابلیت‌های آینده را فراهم می‌کند. ماسک ادعا دارد که Grok 4 در تمامی موضوعات از دانشجویان مقطع کارشناسی ارشد نیز پیشی گرفته، اگرچه اذعان داشته که این مدل در برخی موارد فاقد درک متعارف بوده و هنوز موفق به کشف علمی جدیدی نشده است. با این حال، از نظر xAI این مسئله تنها به زمان نیاز دارد.

برای اثبات توانایی‌های مدل، xAI نتایج مربوط به آزمون دشوار “Humanity’s Last Exam” را ارائه کرده است که شامل موضوعاتی در ریاضیات، علوم انسانی و علوم تجربی می‌شود. در این آزمون، Grok 4 بدون بهره‌گیری از ابزارهای کمکی موفق به کسب نمره‌ی ۲۵.۴ درصد شده، که بالاتر از Gemini 2.5 Pro از Google با ۲۱.۶ درصد و مدل o3 (high) از OpenAI با ۲۱ درصد قرار می‌گیرد. با استفاده از ابزارها، نسخه‌ی Grok 4 Heavy موفق به دستیابی به نمره‌ی ۴۴.۴ درصد شده و فاصله‌ی خود را با رقبا بیشتر کرده است.

در آزمون پیچیده‌ی ARC-AGI-2 مدل Grok 4 با کسب امتیاز ۱۶.۲ درصد، رکورد جدیدی ثبت کرده که تقریباً دو برابر امتیاز نزدیک‌ترین رقیب تجاری، یعنی Claude Opus 4 است. در شاخص Artificial Analysis Intelligence Index که ترکیبی از چندین معیار ارزیابی است، Grok 4 جایگاه نخست را به خود اختصاص داده و از شرکت‌هایی چون OpenAI، Google، Anthropic و Deepseek پیشی گرفته است. این نخستین باری‌ست که یکی از مدل‌های xAI به صدر این رتبه‌بندی رسیده است. همچنین، Grok 4 در آزمون کدنویسی SWE-Bench و مجموعه‌ای از تست‌های استاندارد دیگر نیز عملکرد برتری از خود نشان داده است.

رونمایی از Grok 4 با جنجال‌هایی همراه شد، چرا که یکی از نسخه‌های ادغام‌شده‌ی این مدل در پلتفرم X، پست‌هایی با محتوای ضدیهودی منتشر کرده بود که در آن‌ها از آدولف هیتلر تمجید شده و مدیران یهودی هالیوود مورد حمله قرار گرفته بودند. در واکنش، xAI به‌طور موقت فعالیت حساب خودکار Grok را متوقف کرده، مطالب توهین‌آمیز را حذف کرده و راهنمای سیستم را بازنویسی کرد تا عباراتی که زمینه‌ساز اظهارنظرهای نامتعارف سیاسی بودند، حذف شوند. با این حال، در مراسمی که تقریباً یک ساعت به طول انجامید، ماسک و تیمش به این مسئله اشاره‌ای نکردند. ماسک در پلتفرم X توضیح داد که Grok بیش از حد تحت تأثیر دستورات کاربران قرار گرفته و به آسانی قابلیت سوءاستفاده داشته است.