محتوای کپی در مدلهای هوش مصنوعی OpenAI: مطالعه جدید شواهدی از سرقت ادبی بهدست میدهد
در حالی که OpenAI همچنان با شکایات مختلفی از سوی نویسندگان و برنامهنویسان مواجه است، یک مطالعه جدید شواهدی تازه از استفاده غیرمجاز این شرکت از محتوای دارای حق کپی در آموزش مدلهای هوش مصنوعی خود ارائه میدهد.

این تحقیق نشان میدهد که برخی از مدلهای هوش مصنوعی OpenAI، از جمله GPT-4، ممکن است بهطور غیرمستقیم بخشهایی از دادههای آموزشی را به خاطر سپرده و بدون اجازه آنها را بازتولید کرده باشند.
لید خبر: در دنیای پیشرفته مدلهای هوش مصنوعی، سؤال بزرگتر این است که آیا این مدلها دادههای دارای حق کپی را بهطور غیرمجاز به یاد میآورند؟ مطالعه جدیدی که به این موضوع پرداخته، شواهدی از به یاد آوردن بخشهایی از کتابها و مقالات دارای حق کپی توسط مدلهای OpenAI، از جمله GPT-4، ارائه میدهد. این یافتهها میتواند تبعات قانونی و اخلاقی گستردهای بهدنبال داشته باشد.
این تحقیق که بهطور مشترک توسط محققانی از دانشگاههای واشنگتن، کپنهاگ و استنفورد انجام شده، روشی جدید برای شناسایی دادههای آموزشی بهطور دقیقتر از مدلهای هوش مصنوعی توسعه داده است. این مدلها با استفاده از حجم عظیمی از دادهها برای پیشبینی و تولید خروجیها آموزش میبینند. در حالی که خروجیهای این مدلها اغلب بهطور مستقیم از دادههای آموزشی کپی نمیشوند، برخی از آنها بهطور غیرمستقیم بخشهایی از دادههای آموزشی را بازتولید میکنند.
محققان با استفاده از روشی بهنام «کلمات با شگفتی بالا» این دادهها را شناسایی کردند. این کلمات در زمینه یک مجموعه بزرگتر از آثار کمتر رایج، بهطور غیرمعمول ظاهر میشوند. بهعنوان مثال، کلمه «رادار» در جملهای مانند «جک و من بهطرز کاملاً ساکت در کنار رادار نشسته بودیم» بهعنوان یک کلمه با شگفتی بالا شناسایی میشود، چرا که در مقایسه با کلمات رایجتر احتمال وقوع آن در این زمینه پایینتر است.
در این آزمایشها، مدلهای GPT-4 و GPT-3.5 مورد بررسی قرار گرفتند و نتایج نشان داد که این مدلها بهطور قابلتوجهی بخشهایی از کتابهای داستانی و مقالات نیویورک تایمز را به خاطر سپردهاند. بهویژه GPT-4 نشانههایی از به یاد آوردن محتویات کتابهای الکترونیکی دارای حق کپی را نشان داد، که یکی از منابع آموزشی این مدلها بود.
بهگفته ابهیلاشا راویچاندر، دانشجوی دکتری دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، یافتههای این تحقیق به اهمیت شفافیت در دادههای آموزشی اشاره دارد. او افزود: «برای ایجاد مدلهای زبانی قابل اعتماد، نیاز داریم که بتوانیم آنها را مورد بررسی و ممیزی علمی قرار دهیم. این کار نیاز به شفافیت بیشتر در دادههای آموزشی دارد.»
OpenAI در حال حاضر تلاشهایی برای ترویج استفاده عادلانه از دادههای آموزشی در مدلهای هوش مصنوعی دارد. این شرکت، که قراردادهای مجوزی با برخی منابع محتوایی دارد، بهدنبال ایجاد مکانیسمهایی است که به مالکان حقوقی اجازه دهد محتوای مورد نظر خود را از فرآیند آموزشی مدلها حذف کنند. با این حال، این شرکت همچنین از حمایت از قوانین «استفاده عادلانه» در زمینه آموزش هوش مصنوعی حمایت کرده است، که بهطور قانونی ممکن است به نفع آن باشد.
در نتیجه، این مطالعه میتواند بهطور قابلتوجهی بحثها و چالشهای حقوقی پیرامون استفاده از دادههای دارای حق کپی برای آموزش مدلهای هوش مصنوعی را تشدید کند.