محققان دانشگاه نانیانگ سنگاپور روشی ابداع کردند که با آن میتوان چتباتهای معروف هوش مصنوعی از جمله گوگل بارد، کوپایلوت و ChatGPT را جیلبریک کرد؛ بدینمعنا که میتوان محدودیتهای مدل هوش مصنوعی را دور زد و اطلاعات ممنوعه را استخراج کرد. هدف محققان درواقع آزمایش محدودیتهای مدلهای زبانی بزرگ (LLM) بوده است.
براساس مقاله محققان دانشگاه نانیانگ سنگاپور (NTU)، روشی که برای جیلبریککردن چتبات هوش مصنوعی ابداع شده است Masterkey نام دارد. «مسترکی» یک روش دوگانه است که در آن مکانیسمهای دفاعی LLM مهندسی معکوس میشود. سپس، با دادههای بهدستآمده، LLM دیگری آموزش داده میشود تا نحوه بایپسکردن یا دورزدن چتبات اول را بیاموزد. به این ترتیب، یک Masterkey ایجاد میشود. با این مسترکی حتی اگر مدل هوش مصنوعی بهروز شود نیز میتوان آن را جیلبریک کرد.
جیلبریککردن هوش مصنوعی با روش Masterkey
روش مسترکی درواقع از نقطه قوت هوش مصنوعی علیه خودش استفاده میکند. مدلهای زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری معروف هستند. بنابراین مدلی که فهرستی از کلمات کلیدی ممنوعه برای جلوگیری از تولید محتوای خشونتآمیز و غیراخلاقی دارد را میتوان به وسیله یک هوش مصنوعی آموزشدیده دیگر دور زد. در اینجا در واقع مدل دوم از چتبات هوش مصنوعی اول برای دورزدن کلمات کلیدی لیست سیاه، جلو میزند.
در چند وقت اخیر، چتباتهای هوش مصنوعی بهطور تصاعدی درحال رشد بودهاند؛ ازاینرو، برای سازندگان و ارائهدهندگان خدمات هوش مصنوعی مهم است که دائماً در برابر جیلبریکها و دیگر سوءاستفادههای مخرب بهروز شوند. شرکتهای بزرگ فناوری معمولاً زمانی که بایپسهای جدید پیدا و منتشر میشوند، مدل هوش مصنوعی خود را بهروز میکنند. بااینحال، روش جدید Masterkey که خود از هوش مصنوعی بهره میبرد و به شکل خودکار درحال یادگیری است، میتواند نگرانکننده باشد.
هوش مصنوعی ابزار قدرتمندی است و اگر از چنین قدرتی به شکل مخرب استفاده شود، میتواند مشکلات زیادی به بار بیاورد. پژوهش محققان NTU میتواند به توسعهدهندگان هوش مصنوعی در یافتن راهحلهای مؤثر کمک کند.
source