توسعهدهندگان هوشهای مصنوعی هزینه و زمان زیادی را صرف این میکنند که هوشمصنوعی خود را برابر حملات هکرها مقاوم کنند. اما ظاهرا بزرگترین مشکل Gemini در این زمینه خود این هوشمصنوعی است. محققان دانشگاهی روشی پیدا کردهاند که مدلهای هوش مصنوعی جمنای گوگل را بهطور مؤثرتر در معرض حملات هکری قرار دهد و این کار را با استفاده از ابزارهای خود جمنای انجام دادهاند.
این روش توسط تیمی از دانشگاه کالیفرنیای سن دیهگو و دانشگاه ویسکانسین توسعه یافته است و این تکنیک که Fun-Tuning نامیده میشود، نرخ موفقیت حملات از طریق دادن دستور به Gemini را بهطور قابل توجهی افزایش میدهد. در این حملات، دستورات پنهانی در متنی که مدل هوش مصنوعی میخواند، جاسازی میشود. این حملات میتوانند باعث نشت اطلاعات، دادن پاسخهای نادرست یا انجام دیگر اقدامات غیرمنتظره شوند.
آنچه این روش را جالب میکند این است که از ویژگی تنظیم دقیق (fine-tuning) خود جمنای استفاده میکند، که معمولاً با هدف کمک به کسبوکارها برای آموزش هوش مصنوعی روی دادههای سفارشی طراحی شده است. اما حالا، محققان از آن برای آزمایش و بهینهسازی خودکار اعمال دستورها استفاده کردهاند. این مسئله تقریباً شبیه به این است که به جمنای آموزش دهیم چطور خودش را فریب دهد.
Fun-Tuning با ایجاد پیشوندها و پسوندهای عجیب و غریب عمل میکند که به اعمال دستوراتی که بهطور معمول برای جمنای نامفهوم است، افزوده میشود. این افزودنیها قدرت اعمال دستور را افزایش داده و موفقیت آن را بسیار محتملتر میسازد. در آزمایشها، این هک نرخ موفقیت ۶۵٪ را در مدل جمنای ۱.۵ Flash و ۸۲٪ را در مدل قدیمیتر جمنای ۱.۰ Pro بدست آورد که بیشتر از دو برابر نرخ موفقیت پایه بدون Fun-Tuning است. حملات همچنین بهخوبی بین مدلها منتقل میشدند، به این معنی که یک دستور که روی یک نسخه کار میکرد، اغلب روی نسخههای دیگر نیز مؤثر بود.
این آسیبپذیری از نحوه عملکرد تنظیم دقیق ناشی میشود. در طول آموزش، جمنی بازخوردی بهصورت امتیاز ارائه میدهد که عددی است که نشان میدهد پاسخ مدل چقدر از نتیجه مطلوب فاصله دارد. هکرها میتوانند از این بازخورد استفاده کنند تا دستورات خود را بهینهسازی کنند تا زمانی که سیستم یک دستور موفق پیدا کند.

گوگل بهطور مستقیم به این تکنیک که میتواند باعث ایجاد خطر برای Gemini شود، پاسخ نداد. یک سخنگوی گوگل در بیانیهای کلی گفت که “دفاع در برابر این نوع حملات اولویت همیشگی ما بوده است” و به اقدامات حفاظتی موجود در برابر اعمال این نوع دستورات و پاسخهای مضر اشاره کرد. گوگل همچنین افزود که جمنای بهطور منظم در برابر اینگونه حملات از طریق تمرینات داخلی red-teaming آزمایش میشود.
محققان معتقدند که شاید حل این مشکل دشوار باشد، زیرا بازخوردی که امکان Fun-Tuning را فراهم میآورد، بخش اصلی عملکرد تنظیم دقیق (Fine-Tuning) است. به عبارت دیگر، کم کردن اثربخشی آن برای جلوگیری از هک شدن، خطر کاهش کلی کاربرد آن را نیز به همراه دارد.
دیدگاه ها