چگونه یک شرکت هوش مصنوعی میلیونها کتاب را نابود کرد تا مدل خود را آموزش دهد؟!
در اقدامی بیسابقه و بحثبرانگیز، یکی از شرکتهای فعال در حوزه هوش مصنوعی برای آموزش مدلهای زبانی خود، میلیونها کتاب را از بین برده است.

در بهمنماه ۱۴۰۲، شرکت «آنتروپیک» (Anthropic) اقدام به استخدام «تام تروی» (Tom Turvey)، مدیر سابق پروژه اسکن کتابهای گوگل کرد؛ هدف از این همکاری، گردآوری کامل نسخههای چاپی کتابها از سراسر جهان، بدون درگیر شدن با مسائل قانونی مرتبط با حقوق نشر بود.
بر اساس گزارش ایسنا، این شرکت میلیونها نسخه از کتابهای چاپی را صرفاً برای تغذیه مدل هوش مصنوعی خود نابود کرده است. پرسشی که در میان منتقدان هوش مصنوعی در این روزها بسیار مطرح میشود، این است که دقیقاً چگونه شرکت «آنتروپیک» اطلاعات لازم برای آموزش مدل زبانی «کلود» (Claude) را بهدست آورده است؛ مدلی که اکنون یکی از ابزارهای کلیدی در صنعت هوش مصنوعی به شمار میرود.
به نقل از نشریه «فیوچریسم»، این استارتآپ که حمایت مالی آن را گوگل بر عهده دارد، تنها به تقلید از محتوای کتابهای دارای کپیرایت بسنده نکرد، بلکه بهصورت فیزیکی صفحات کتابها را از جلد جدا کرد، آنها را اسکن نمود و پس از دیجیتالسازی، نسخههای اصلی را به کلی از بین برد. به بیان دیگر، این مدل هوش مصنوعی با بلعیدن محتوای فیزیکی این آثار، توسعه یافته است.
اطلاعات این فرآیند در جریان رسیدگی به یک پرونده حقوقی افشا شد. قاضی رسیدگیکننده به این پرونده حکم داد که شرکت «آنتروپیک» مجاز است مدلهای زبانی خود را بر مبنای کتابهایی که بهطور قانونی خریداری شدهاند آموزش دهد، حتی اگر مجوز صریحی از نویسندگان آن آثار دریافت نکرده باشد.
هرچند شرکتهای دیگری نیز به چنین اقداماتی دست زدهاند، اما دامنه و گستره فعالیتهای «آنتروپیک» آن را در کانون توجه افکار عمومی قرار داده است.
اقدامات این شرکت مبتنی بر استفاده از اصل حقوقی موسوم به «قاعده اولین فروش» (first-sale doctrine) است؛ اصلی که به خریدار اجازه میدهد پس از خرید قانونی یک کالا، استفاده دلخواه خود را از آن داشته باشد، بدون آنکه به کسب مجوز مجدد از ناشر یا مؤلف نیاز داشته باشد. با این حال، فعالیت شرکتهای فعال در حوزه هوش مصنوعی در این زمینه، با انگیزههایی منفی و جهتدار ارزیابی شدهاند.
استخدام «تام تروی» در آنتروپیک بهعنوان فردی که تجربه پیشین در حوزه اسکن کتابها دارد، گامی راهبردی برای این شرکت به شمار میرود. او با خرید نسخههای فیزیکی کتابها، شرکت را در مسیر بهرهگیری از قاعده قانونی فوق قرار داد و به این ترتیب از دریافت مجوزهای حقوقی بینیاز شد.
جدا کردن صفحات کتابها برای اسکن کردن، فرآیند تبدیل نسخههای چاپی به دیجیتال را سادهتر و کمهزینهتر کرد، بهویژه که استفاده از این فایلها محدود به محیط داخلی شرکت بود و پس از اسکن، نسخههای اصلی کتابها بهطور کامل نابود میشد. در چهارچوب قانونی موجود، این شیوه تخلف محسوب نمیشود.
با این حال، روش اتخاذشده از سوی آنتروپیک، بهنوعی ریاکارانه و پرابهام تلقی شده است. در مراحل ابتدایی فعالیت این شرکت، از مسیرهای اخلاقی فاصله گرفته شد و کتابها به شکل غیرقانونی از اینترنت بارگیری شدند تا به عنوان منابع آموزشی مورد استفاده قرار گیرند. شرکت «متا» نیز دست به اقدام مشابهی زده که اکنون با شکایت نویسندگان در دادگاه مواجه شده است.
علاوه بر مسائل اخلاقی، این اقدامات با سطحینگری نیز همراه بودهاند. در حالی که برخی مؤسسات و آرشیوها روشهایی توسعه دادهاند که از طریق آن میتوان کتابها را بدون نابودی و آسیب، بهصورت دستهجمعی اسکن کرد، اما بهدلیل هزینههای کمتر، ترجیح داده شده تا از روشهایی استفاده شود که به نابودی فیزیکی آثار منجر میشود. در نهایت، کمبود منابع باکیفیت آموزشی برای مدلهای هوش مصنوعی و عجله شرکتها برای توسعه سریع محصولات، باعث شده است تا چنین بهای گزافی از سوی نویسندگان و آثار چاپی پرداخت شود؛ هزینهای که به نظر میرسد برای غولهای فناوری اهمیتی نداشته باشد.