توسعه‌دهندگان هوش‌های مصنوعی هزینه و زمان زیادی را صرف این می‌کنند که هوش‌مصنوعی خود را برابر حملات هکرها مقاوم کنند. اما ظاهرا بزرگترین مشکل Gemini در این زمینه خود این هوش‌مصنوعی است. محققان دانشگاهی روشی پیدا کرده‌اند که مدل‌های هوش مصنوعی جمنای گوگل را به‌طور مؤثرتر در معرض حملات هکری قرار دهد و این کار را با استفاده از ابزارهای خود جمنای انجام داده‌اند.

این روش توسط تیمی از دانشگاه کالیفرنیای سن دیه‌گو و دانشگاه ویسکانسین توسعه یافته است و این تکنیک که Fun-Tuning نامیده می‌شود، نرخ موفقیت حملات از طریق دادن دستور به Gemini را به‌طور قابل توجهی افزایش می‌دهد. در این حملات، دستورات پنهانی در متنی که مدل هوش مصنوعی می‌خواند، جاسازی می‌شود. این حملات می‌توانند باعث نشت اطلاعات، دادن پاسخ‌های نادرست یا انجام دیگر اقدامات غیرمنتظره شوند.

آنچه این روش را جالب می‌کند این است که از ویژگی تنظیم دقیق (fine-tuning) خود جمنای استفاده می‌کند، که معمولاً با هدف کمک به کسب‌وکارها برای آموزش هوش مصنوعی روی داده‌های سفارشی طراحی شده است. اما حالا، محققان از آن برای آزمایش و بهینه‌سازی خودکار اعمال دستورها استفاده کرده‌اند. این مسئله تقریباً شبیه به این است که به جمنای آموزش دهیم چطور خودش را فریب دهد.

Fun-Tuning با ایجاد پیشوندها و پسوندهای عجیب و غریب عمل می‌کند که به اعمال دستوراتی که به‌طور معمول برای جمنای نامفهوم است، افزوده می‌شود. این افزودنی‌ها قدرت اعمال دستور را افزایش داده و موفقیت آن را بسیار محتمل‌تر می‌سازد. در آزمایش‌ها، این هک نرخ موفقیت ۶۵٪ را در مدل جمنای ۱.۵ Flash و ۸۲٪ را در مدل قدیمی‌تر جمنای ۱.۰ Pro بدست آورد که بیشتر از دو برابر نرخ موفقیت پایه بدون Fun-Tuning است. حملات همچنین به‌خوبی بین مدل‌ها منتقل می‌شدند، به این معنی که یک دستور که روی یک نسخه کار می‌کرد، اغلب روی نسخه‌های دیگر نیز مؤثر بود.

این آسیب‌پذیری از نحوه عملکرد تنظیم دقیق ناشی می‌شود. در طول آموزش، جمنی بازخوردی به‌صورت امتیاز ارائه می‌دهد که عددی است که نشان می‌دهد پاسخ مدل چقدر از نتیجه مطلوب فاصله دارد. هکرها می‌توانند از این بازخورد استفاده کنند تا دستورات خود را بهینه‌سازی کنند تا زمانی که سیستم یک دستور موفق پیدا کند.

قابلیت‌های جدید جمنای

گوگل به‌طور مستقیم به این تکنیک که می‌تواند باعث ایجاد خطر برای Gemini شود، پاسخ نداد. یک سخنگوی گوگل در بیانیه‌ای کلی گفت که “دفاع در برابر این نوع حملات اولویت همیشگی ما بوده است” و به اقدامات حفاظتی موجود در برابر اعمال این نوع دستورات و پاسخ‌های مضر اشاره کرد. گوگل همچنین افزود که جمنای به‌طور منظم در برابر این‌گونه حملات از طریق تمرینات داخلی red-teaming آزمایش می‌شود.

محققان معتقدند که شاید حل این مشکل دشوار باشد، زیرا بازخوردی که امکان Fun-Tuning را فراهم می‌آورد، بخش اصلی عملکرد تنظیم دقیق (Fine-Tuning) است. به عبارت دیگر، کم کردن اثربخشی آن برای جلوگیری از هک شدن، خطر کاهش کلی کاربرد آن را نیز به همراه دارد.