هشدار امنیتی فوری: چتجیپیتی را وادار به آموزش ساخت سلاح کردند!
یک ویژگی تازهرونماییشده «چتجیپیتی» تنها یک روز پس از عرضه، با یک نقص امنیتی بزرگ مواجه شده است. پژوهشگران امنیتی نشان دادهاند که سرویس ترجمه این هوش مصنوعی به راحتی قابل هک است و میتوان آن را وادار به ارائه دستورالعملهای خطرناکی مانند ساخت کوکتل مولوتوف کرد. جزئیات این حمله سایبری را در ادامه بخوانید.
پژوهشگران امنیت سایبری یک آسیبپذیری نگرانکننده در قابلیت جدید «ترجمه چتجیپیتی» (ChatGPT Translate) کشف کردهاند. این سرویس که به تازگی توسط شرکت «اوپنایآی» به عنوان رقیبی برای «ترجمه گوگل» راهاندازی شده، در برابر حملات موسوم به «تزریق پرسوجو» (Prompt Injection) آسیبپذیر است و به سادگی میتواند محدودیتهای امنیتی خود را نادیده بگیرد.
کشف آسیبپذیری توسط پژوهشگران:
«تام بارنیا» و «کرن کاتز»، پژوهشگران شرکت امنیتی «Tenable»، بلافاصله پس از عرضه عمومی این ویژگی، اقدام به آزمایش آن کردند. هدف آنها بررسی امکان «دستکاری چتبات و دور زدن مکانیسمهای امنیتی اوپنایآی» بود.
نحوه اجرای حمله و یک مثال هشداردهنده:
این دو متخصص با اجرای یک «حمله تزریق پرسوجو» موفق شدند سیستم را فریب دهند. در این روش، دستورالعملهای مخرب درون یک درخواست به ظاهر قانونی (مانند درخواست ترجمه) جاسازی میشود.
کرن کاتز در توضیح یک آزمایش موفق گفت: «ویژگی ترجمه چتجیپیتی فقط یک روز است که عرضه شده و در حال حاضر از دستورالعمل ساخت کوکتل مولوتوف تعریف و تمجید میکند. ما از مدل ترجمه خواستیم متن ما را از انگلیسی به کرهای تبدیل کند اما در عوض، از دستورالعملهای موجود در متن پیروی کرد و دستورالعمل ساخت کوکتل مولوتوف را نشان داد.»
این آزمایش نشان داد که چتبات به سرعت از وظیفه اصلی خود (ترجمه) منحرف شده و به دستورالعمل مخرب جاسازیشده پاسخ داده است.
چرایی حساسیت مدلهای ترجمه:
این آسیبپذیری در مدلهای ترجمه تخصصی میتواند بارزتر باشد. این سیستمها ممکن است به جای پایبندی کامل به ترجمه، از دستورالعملهای پنهان در متن پیروی کرده و خروجیهای «غیرمنتظره یا حتی نامناسب» تولید کنند. این فقط یک سناریوی فرضی نیست و پژوهشگران موارد مستندی از ارائه ناخواسته اطلاعات حساس توسط مدلهای ترجمه ثبت کردهاند.
راهکارهای مقابله و توصیههای امنیتی:
مقابله با این نوع حملات نیازمند راهکارهای پویا و چندلایه است. گزارش بر چند اقدام حیاتی تأکید میکند:
-
بررسی منظم لاگهای ورودی برای تشخیص الگوهای غیرعادی.
-
استفاده از محیطهای آزمایشی سندباکس قبل از یکپارچهسازی کامل.
-
همکاری با تیمهای امنیت سایبری برای آموزش در مورد حملات خاص هوش مصنوعی.
-
بهروزرسانی مستمر مدلها با آخرین پژوهشهای امنیتی.
-
ترویج فرهنگ گزارشدهی مسئولانه ناهنجاریها توسط کاربران.