خبرهای داغ
کدخبر: ۱۰۴۳۵
تاریخ خبر:

محتوای کپی در مدل‌های هوش مصنوعی OpenAI: مطالعه جدید شواهدی از سرقت ادبی به‌دست می‌دهد

در حالی که OpenAI همچنان با شکایات مختلفی از سوی نویسندگان و برنامه‌نویسان مواجه است، یک مطالعه جدید شواهدی تازه از استفاده غیرمجاز این شرکت از محتوای دارای حق کپی در آموزش مدل‌های هوش مصنوعی خود ارائه می‌دهد.

محتوای کپی در مدل‌های هوش مصنوعی OpenAI: مطالعه جدید شواهدی از سرقت ادبی به‌دست می‌دهد

این تحقیق نشان می‌دهد که برخی از مدل‌های هوش مصنوعی OpenAI، از جمله GPT-4، ممکن است به‌طور غیرمستقیم بخش‌هایی از داده‌های آموزشی را به خاطر سپرده و بدون اجازه آن‌ها را بازتولید کرده باشند.

لید خبر: در دنیای پیشرفته مدل‌های هوش مصنوعی، سؤال بزرگ‌تر این است که آیا این مدل‌ها داده‌های دارای حق کپی را به‌طور غیرمجاز به یاد می‌آورند؟ مطالعه جدیدی که به این موضوع پرداخته، شواهدی از به یاد آوردن بخش‌هایی از کتاب‌ها و مقالات دارای حق کپی توسط مدل‌های OpenAI، از جمله GPT-4، ارائه می‌دهد. این یافته‌ها می‌تواند تبعات قانونی و اخلاقی گسترده‌ای به‌دنبال داشته باشد.

این تحقیق که به‌طور مشترک توسط محققانی از دانشگاه‌های واشنگتن، کپنهاگ و استنفورد انجام شده، روشی جدید برای شناسایی داده‌های آموزشی به‌طور دقیق‌تر از مدل‌های هوش مصنوعی توسعه داده است. این مدل‌ها با استفاده از حجم عظیمی از داده‌ها برای پیش‌بینی و تولید خروجی‌ها آموزش می‌بینند. در حالی که خروجی‌های این مدل‌ها اغلب به‌طور مستقیم از داده‌های آموزشی کپی نمی‌شوند، برخی از آن‌ها به‌طور غیرمستقیم بخش‌هایی از داده‌های آموزشی را بازتولید می‌کنند.

محققان با استفاده از روشی به‌نام «کلمات با شگفتی بالا» این داده‌ها را شناسایی کردند. این کلمات در زمینه یک مجموعه بزرگ‌تر از آثار کمتر رایج، به‌طور غیرمعمول ظاهر می‌شوند. به‌عنوان مثال، کلمه «رادار» در جمله‌ای مانند «جک و من به‌طرز کاملاً ساکت در کنار رادار نشسته بودیم» به‌عنوان یک کلمه با شگفتی بالا شناسایی می‌شود، چرا که در مقایسه با کلمات رایج‌تر احتمال وقوع آن در این زمینه پایین‌تر است.

در این آزمایش‌ها، مدل‌های GPT-4 و GPT-3.5 مورد بررسی قرار گرفتند و نتایج نشان داد که این مدل‌ها به‌طور قابل‌توجهی بخش‌هایی از کتاب‌های داستانی و مقالات نیویورک تایمز را به خاطر سپرده‌اند. به‌ویژه GPT-4 نشانه‌هایی از به یاد آوردن محتویات کتاب‌های الکترونیکی دارای حق کپی را نشان داد، که یکی از منابع آموزشی این مدل‌ها بود.

به‌گفته ابهیلاشا راویچاندر، دانشجوی دکتری دانشگاه واشنگتن و یکی از نویسندگان این مطالعه، یافته‌های این تحقیق به اهمیت شفافیت در داده‌های آموزشی اشاره دارد. او افزود: «برای ایجاد مدل‌های زبانی قابل اعتماد، نیاز داریم که بتوانیم آن‌ها را مورد بررسی و ممیزی علمی قرار دهیم. این کار نیاز به شفافیت بیشتر در داده‌های آموزشی دارد.»

OpenAI در حال حاضر تلاش‌هایی برای ترویج استفاده عادلانه از داده‌های آموزشی در مدل‌های هوش مصنوعی دارد. این شرکت، که قراردادهای مجوزی با برخی منابع محتوایی دارد، به‌دنبال ایجاد مکانیسم‌هایی است که به مالکان حقوقی اجازه دهد محتوای مورد نظر خود را از فرآیند آموزشی مدل‌ها حذف کنند. با این حال، این شرکت همچنین از حمایت از قوانین «استفاده عادلانه» در زمینه آموزش هوش مصنوعی حمایت کرده است، که به‌طور قانونی ممکن است به نفع آن باشد.

در نتیجه، این مطالعه می‌تواند به‌طور قابل‌توجهی بحث‌ها و چالش‌های حقوقی پیرامون استفاده از داده‌های دارای حق کپی برای آموزش مدل‌های هوش مصنوعی را تشدید کند.

copied
ارسال نظر
 
  • پربیننده‌ترین‌ها

  • پربحث‌ترین‌ها

وب گردی

    دیگر رسانه ها

    ×

    برای حمایت ما لطفا روی یکی از تبلیغات کلیک کنید

    کلیک