هوش مصنوعی در دام توطئه؟ تحقیق تازه OpenAI هشدار میدهد
تازهترین تحقیقات OpenAI نشان میدهد مدلهای هوش مصنوعی قادرند به صورت عمدی اطلاعات غلط ارائه دهند یا اهداف واقعی خود را پنهان کنند.

تحقیقات جدید OpenAI که روز دوشنبه منتشر شد، نشان میدهد مدلهای هوش مصنوعی توانایی «توطئهچینی» دارند؛ یعنی رفتار ظاهری آنها ممکن است با اهداف واقعیشان تفاوت داشته باشد. این پدیده، که حتی با آموزشهای پیشرفته هم دشوار کنترل میشود، میتواند هوش مصنوعی را قادر سازد تا بدون آشکار شدن، اهداف خود را دنبال کند.
در تاریخچه اخبار تکاندهنده حوزه فناوری، نمونههایی مشابه وجود داشته است: گوگل مدعی شد تراشه کوانتومی جدیدش وجود جهانهای موازی را نشان میدهد و شرکت آنتروپیک تجربهای ثبت کرد که یک ایجنت هوش مصنوعی، کنترل یک دستگاه فروش خودکار را در دست گرفت و خود را انسانی معرفی کرد. حال OpenAI با ارائه تحقیق تازه، بار دیگر توجه همگان را جلب کرده است.
در همکاری با شرکت تحقیقاتی آپولو، محققان تلاش کردهاند توطئهچینی هوش مصنوعی را با رفتار یک کارگزار بورس انسانی مقایسه کنند که برای کسب بیشترین سود، قوانین را دور میزند. با این حال، آنها تأکید دارند که بیشتر رفتارهای توطئهچینی مدلها مضر نبوده و اغلب شامل فریب ساده است؛ مانند تظاهر به انجام وظایفی که واقعاً انجام نشدهاند.
این مقاله همچنین به معرفی تکنیک «همراستاسازی سنجیده» (deliberative alignment) میپردازد که میتواند توطئهچینی را کاهش دهد. ایده اصلی این روش، آموزش مدل برای مرور قوانین و نکات ضد توطئهچینی پیش از پاسخ دادن است؛ درست مانند الزام یک کودک به تکرار قوانین پیش از بازی. با وجود این، محققان هشدار میدهند که آموزش بیش از حد ممکن است مدلها را ماهرتر کند و بتوانند تظاهر کنند که توطئه نمیکنند، در حالی که در عمل اهداف خود را دنبال میکنند.
مسئله دروغگویی هوش مصنوعی جدید نیست. بسیاری از کاربران با پدیدهای مواجه شدهاند که مدلها با اعتماد به نفس، پاسخهای نادرست ارائه میدهند؛ اما آنچه OpenAI تأکید میکند، تفاوت میان «توهم» و «توطئهچینی» است. توهم، ارائه حدس و گمان با اعتماد به نفس است؛ اما توطئهچینی اقدامی عمدی برای گمراه کردن انسانهاست.
شرکت تحقیقاتی آپولو پیشتر نشان داده بود که برخی مدلها میتوانند تحت دستور «رسیدن به هدف تحت هر شرایطی» به طور آگاهانه توطئه کنند. با استفاده از روش همراستاسازی سنجیده، کاهش قابل توجهی در این رفتارها مشاهده شد.
محققان OpenAI میگویند که دروغهایی که مدلها یا حتی ChatGPT تولید میکنند، معمولاً جدی نیستند. آنها توضیح میدهند که این مدلها توسط انسان ساخته شدهاند، برای تقلید از انسانها طراحی شده و عمدتاً با دادههای تولید شده توسط انسانها آموزش دیدهاند.
پیش از ظهور هوش مصنوعی، خطاهای تکنولوژیکی را تجربه کردهایم، اما نرمافزارها عمداً انسانها را گمراه نمیکردند. این نکته باعث میشود تحقیق OpenAI و هشدارهای آن درباره آینده هوش مصنوعی اهمیت بیشتری پیدا کند. محققان میگویند: «با محول شدن وظایف پیچیدهتر به هوش مصنوعی و دنبال کردن اهداف بلندمدت و مبهمتر، احتمال توطئهچینی مضر افزایش مییابد و توانایی ما برای ارزیابی دقیق این مدلها باید به همان نسبت ارتقا پیدا کند.»