تقدم های سریع در حوزه هوش مصنوعی، ابتکارات جالبی را در زمینه هوش مصنوعی مولد ایجاد کردهاند. با این حال، این مدلهای قوی همچنین با خطراتی مواجه هستند. بدون اشاره به منبع معتبر، وقوع خطرات مرتبط با بازتولید محتوای دارای حق چاپ یا سرقت ادبی از جمله مشکلاتی است که ممکن است به وجود آید.
چگونه شبکه های عصبی داده های آموزشی را جذب می کنند
سیستمهای هوش مصنوعی مدرن مانند GPT-3 از طریق یک روند به نام "آموزش انتقال" برای یادگیری استفاده میکنند. این سیستمها از مجموعههای داده بسیار بزرگی که از منابع مختلف مانند وبسایتها، کتابها، مقالات علمی و دیگر منابع جمعآوری شدهاند، بهره میبرند. به عنوان مثال، دادههای آموزشی GPT-3 حاوی 570 گیگابایت متن میباشد. در طول فرآیند آموزش، هوش مصنوعی الگوها و ارتباطات آماری در این حجم بزرگ اطلاعات را مطالعه میکند. این شامل ارتباطات بین کلمات، جملات، پاراگرافها، ساختار زبان و ویژگیهای دیگر میشود.
این فرآیند این امکان را به هوش مصنوعی میدهد تا محتوای جدیدی را با تولید توالیهای پیشبینی شده از یک ورودی یا درخواست خاص ایجاد کند. اما در عین حال، به این معناست که این مدلها ممکن است محتوا را بدون رعایت حقوق نسخهبرداری، انتساب یا خطرات مرتبط با سرقت ادبی تولید کنند. به همین دلیل، سیستمهای هوش مصنوعی مولد میتوانند به طور ناخواسته متون دارای حق چاپ را از دادههای آموزشی خود بازتولید یا بازنویسی کنند.
نمونه های کلیدی سرقت ادبی هوش مصنوعی
در سال 2020 و پس از عرضه GPT، نگرانیها درباره سرقت ادبی هوش مصنوعی آشکار شدند. تحقیقات اخیر نشان داده است که مدلهای زبان بزرگ (LLM) مانند GPT-3 قادر به بازتولید متنهای کلمه به کلمه از دادههای آموزشی خود بدون استناد به منابع خارجی هستند (نصر و همکاران، 2023؛ Carlini و همکاران، 2022). به عنوان مثال، شکایتی از سوی نیویورک تایمز نشان داد که نرم افزار OpenAI قادر به تولید مقالات نیویورک تایمز تقریباً کلمه به کلمه است (نیویورک تایمز، 2023).
این یافتهها نشان میدهد که برخی از سیستمهای هوش مصنوعی مولد ممکن است به صورت ناخواسته خروجیهایی بازتولید کنند که ممکن است به نقض حقوق نسخهبرداری منجر شود. با این حال، به دلیل "جعبه سیاه" بودن این مدلها، ابعاد واقعی این مسئله مشخص نیست. طبیعت LLM ها باعث ایجاد انتظارات حقوقی ناشناخته شده است، و این مسئله میتواند پیامدهای مهمی برای توسعه هوش مصنوعی مولد به همراه داشته باشد. به طور کلی، شواهد نشان میدهد که سرقت ادبی یک چالش اساسی در مدلهای شبکه عصبی بزرگ است و نیاز به هوشیاری و تدابیر حفاظتی دارد.
این موارد دو عامل کلیدی را که بر خطر سرقت ادبی هوش مصنوعی تأثیر میگذارند، نشان میدهند:
1. **اندازه مدل:** مدلهای بزرگتر مثل GPT-3.5 نسبت به مدلهای کوچکتر، به خاطر اندازه بزرگتر و مجموعه دادههای آموزشی گستردهتر، مستعدتر به بازسازی متنهای کلمه به کلمه هستند. این مدلها با استفاده از مجموعه دادههای آموزشی بزرگتر، در معرض مواد منبع دارای حق نسخهبرداری قرار میگیرند که میتواند خطر سرقت ادبی را افزایش دهد.
2. **دادههای آموزشی:** مدلهایی که بر روی دادههای اینترنتی خراششده یا آثار دارای حق نسخهبرداری آموزش دیدهاند، احتمالاً بیشتر به سرقت ادبی مستعد هستند. حتی اگر این آثار مجوز داشته باشند، در مقایسه با مدلهایی که بر روی مجموعههای داده با دقت آموزش دیدهاند، خطر سرقت ادبی در این حالت افزایش مییابد.
با این حال، ارزیابی مستقیم انتشارات سرقت ادبی چالش بزرگی دارد. طبیعت "جعبه سیاه" شبکههای عصبی باعث میشود تا ردیابی کامل این ارتباط بین دادههای آموزشی و خروجیهای مدل دشوار باشد. نرخهای سرقت ادبی احتمالاً به شدت به معماری مدل، کیفیت مجموعه دادهها، و فرمولبندی سریع بستگی دارد. با این حال، این موارد تأیید میکنند که سرقت ادبی هوش مصنوعی به صورت واضح رخ میدهد که میتواند پیامدهای قانونی و اخلاقی مهمی داشته باشد.
سیستم های کشف سرقت ادبی در حال ظهور
در پاسخ به چالش سرقت ادبی از سوی هوش مصنوعی، محققان شروع به کاوش در سیستمهای هوش مصنوعی برای تشخیص خودکار متن و تصاویر تولید شده توسط مدلها نسبت به ایجاد شده توسط انسان کردهاند. به عنوان مثال، در مرکز Mila GenFace، پیشنهاد شده است که الگوهای زبانی که به متن نوشتهشده توسط هوش مصنوعی اشاره دارند، تجزیه و تحلیل شوند. همچنین، استارتاپ آنتروپیک قابلیتهای تشخیص سرقت ادبی داخلی را برای هوش مصنوعی در خدمتهای ابری خود توسعه داده است.
با این حال، این ابزارها محدودیتهایی دارند. مشخص کردن منابع اصلی متن سرقتشده توسط مدلهای زبان بزرگ مانند GPT-3، دشوار و گاهی حتی غیرممکن است. از آنجایی که مدلهای مولد به سرعت در حال تکامل هستند، نیاز به تکنیکهای قویتری برای تشخیص سرقت ادبی خواهد بود. تا آن زمان، ارزیابی دستی برای بررسی خروجیهای هوش مصنوعی بالقوه سرقت ادبی یا نقض قبل از استفاده عمومی ضروری است.
بهترین روش ها برای کاهش سرقت علمی هوش مصنوعی
برای توسعهدهندگان هوش مصنوعی، روشهای برتری وجود دارد که میتوانند برای به حداقل رساندن خطر سرقت ادبی مفید باشند:
1. **بررسی دقیق منابع داده:**
- منابع داده آموزشی را با دقت بررسی کنید تا مطالب دارای حق نسخهبرداری یا دارای مجوز را بدون مجوزهای مناسب حذف کنید.
2. **توسعه اسناد دقیق:**
- اسناد دقیق دادهها و روشهای ردیابی منشأ را توسعه دهید. اطلاعاتی مانند مجوزها، برچسبها، سازندگان و غیره را به دقت ثبت کنید.
3. **استفاده از ابزارهای تشخیص سرقت ادبی:**
- ابزارهای تشخیص سرقت ادبی را برای پرچمگذاری محتوای پرخطر قبل از انتشار اجرا کنید.
4. **گزارشهای شفافسازی:**
- در صورت بروز نگرانی، گزارشهای شفافسازی با جزئیات منابع دادههای آموزشی، مجوزها و منشاء خروجیهای هوش مصنوعی را ارائه دهید.
5. **اجازه انصراف برای سازندگان محتوا:**
- به سازندگان محتوا اجازه دهید به راحتی از مجموعه دادههای آموزشی انصراف دهند.
6. **پاسخ سریع به درخواستها:**
- به سرعت با درخواستهای حذف یا حذف مطابقت کنید.
این روشها باعث میشوند که توسعهدهندگان در فرآیند تولید هوش مصنوعی، مسئولیت پذیرتر عمل کنند و خطرات سرقت ادبی را به حداقل برسانند.
برای کاربران هوش مصنوعی مولد، موارد زیر به منظور به حداقل رساندن خطرات سرقت ادبی توصیه میشود:
1. **پیشنمایش کامل خروجی:**
- قبل از استقرار در مقیاس، خروجیهای هر قسمت احتمالی را به طور کامل نمایش دهید.
2. **تلقی هوش مصنوعی:**
- از تلقی هوش مصنوعی به عنوان سیستمهای خلاقانه کاملاً مستقل خودداری کنید و از بازبینان انسانی بخواهید محتوای نهایی را بررسی کنند.
3. **استفاده از مدلهای بازنویسی:**
- از Favor AI به خلق انسان در تولید محتوای کاملاً جدید از ابتدا خودداری کنید و به جای آن از مدلهای بازنویسی یا ایده پردازی استفاده کنید.
4. **مشاوره با ارائهدهنده:**
- قبل از استفاده، با شرایط خدمات، خطمشیهای محتوا و حفاظت از سرقت ادبی ارائهدهنده هوش مصنوعی مشورت کنید و از مدلهای غیر شفاف خودداری کنید.
5. **اشاره به منابع:**
- اگر علیرغم بهترین تلاشها، مطالب دارای حق چاپ در خروجی نهایی ظاهر شد، به وضوح به منابع اشاره کنید و کار هوش مصنوعی را کاملا اورجینال معرفی نکنید.
6. **محدودیت اشتراک گذاری:**
- خروجیهای اشتراکگذاری را به صورت خصوصی یا محرمانه محدود کنید تا زمانی که خطرات سرقت علمی بیشتر ارزیابی و رسیدگی شود.
در ادامه، این ممکن است با ادامه تکثیر مدلهای مولد، مقررات دادههای آموزشی سختگیرانهتر تضمین شود و این امر نیاز به رضایت سازنده قبل از افزودن کارشان به مجموعه دادهها را داشته باشد. با این حال، مسئولیت هم بر دوش توسعهدهندگان و هم بر عهده کاربران است که از شیوههای هوش مصنوعی اخلاقی استفاده کنند و به حقوق سازنده محتوا احترام بگذارند.
سرقت ادبی در Midjourney V6 Alpha
بعد از درخواست محدود مدل V6 Midjourney برخی از محققان توانستند تصاویر تقریباً مشابهی با فیلمهای دارای حق چاپ، نمایشهای تلویزیونی و اسکرین شات های بازی ویدیویی احتمالاً در داده های آموزشی آن گنجانده شده است.

این آزمایشها بیشتر تأیید میکنند که حتی سیستمهای پیشرفتهی هوش مصنوعی بصری میتوانند ناآگاهانه محتوای محافظت شده را سرقت کنند، اگر منبع دادههای آموزشی کنترل نشده باقی بماند. این امر بر نیاز به هوشیاری، پادمان ها و نظارت انسانی در هنگام استقرار مدل های مولد به صورت تجاری برای محدود کردن خطرات نقض تأکید می کند.
پاسخ شرکت های هوش مصنوعی به محتوای دارای حق چاپ
خطوط میان خلاقیت انسان و هوش مصنوعی در حال محو شدن است و این وضعیت سوالات پیچیدهتری در مورد حقوق نسخهبرداری به وجود آورده است. آثاری که ترکیب ورودیهای انسانی و هوش مصنوعی هستند، ممکن است فقط در جنبههایی که توسط انسان به صورت انحصاری انجام میشوند، حق نسخهبرداری داشته باشند.
در این زمینه، اداره کپی رایت ایالات متحده به تازگی حق چاپ بیشتری از جنبههای یک رمان گرافیکی مبتنی بر هوش مصنوعی را رد کرده و هنر هوش مصنوعی را به عنوان غیرانسانی دانسته است. همچنین، دستورالعملی صادر کرده که سیستمهای هوش مصنوعی را از مفهوم "تألیف" مستثنی کند. دادگاههای فدرال هم این موضع را در پروندههای حق نسخهبرداری مرتبط با هنر هوش مصنوعی تأیید کردهاند.
به همین ترتیب، برخی دعاوی حقوقی ادعا میکنند که نقض حقوق نسخهبرداری هوش مصنوعی مولد اتفاق میافتد، مانند دعوای گتی در برابر هوش مصنوعی پایداری و هنرمندان در برابر Midjourney/Stability AI. با این حال، بدون وجود "نویسندگان" انسانی هوش مصنوعی، برخی از افراد سوال میکنند که آیا ادعاهای نقض قوانین حقوق نسخهبرداری بر روی آنها اعمال میشود یا خیر.
در پاسخ به این مسئله، شرکتهای بزرگ هوش مصنوعی از جمله متا، گوگل، مایکروسافت و اپل ابراز داشتهاند که نباید برای آموزش مدلهای هوش مصنوعی بر روی دادههای دارای حق چاپ، نیاز به مجوز یا پرداخت حق امتیاز داشته باشند.
مسیرهایی برای نوآوری AI مولد مسئول
از آنجایی که مدلهای مولد هوش مصنوعی به سرعت پیشرفت میکنند، جلوگیری از خطرات سرقت ادبی بسیار حیاتی است. رویکرد چندجانبهای برای مقابله با این مسئله لازم است:
1. **اصلاحات خطمشی:**
- اصلاحات در خطمشیها در زمینههای شفافیت دادههای آموزشی، صدور مجوزها، و رضایت سازندگان ضروری است. این اصلاحات میتوانند به معنای بهبود در احترام به حقوق نسخهبرداران و جلوگیری از سرقت ادبی باشند.
2. **فناوریهای تشخیص سرقت ادبی:**
- توسعه فناوریهای قدرتمند تشخیص سرقت ادبی و افزایش حاکمیت داخلی توسط توسعهدهندگان مهم است. این ابزارها میتوانند به تشخیص و جلوگیری از سرقت ادبی کمک کرده و امنیت حقوقی را تقویت کنند.
3. **آگاهی بیشتر کاربران:**
- ارتقاء آگاهی کاربران از خطرات و رعایت اصول اخلاقی در استفاده از هوش مصنوعی مهم است. اطلاعرسانی مناسب میتواند به کاهش خطرات و بهبود تعامل کاربران با این فناوری منجر شود.
4. **پاکسازی سوابق حقوقی:**
- پاکسازی سوابق حقوقی و رویه قضایی مرتبط با مسائل حق نسخهبرداری هوش مصنوعی میتواند به افزایش شفافیت و اعتماد عمومی کمک کند.
5. **تعادل مناسب:**
- دستیابی به تعادل مناسب نیاز به مقابله فعال با نقطه کورهای سرقت ادبی در شبکههای عصبی دارد. این موضوع اطمینان میدهد که این مدلهای قدرتمند، نه تنها انسانیت را تضعیف نمیکنند بلکه نقدهای سازنده را بهخوبی جذب میکنند.
دستیابی به این اهداف میتواند به توسعه هوش مصنوعی مولد با رعایت اصول اخلاقی کمک کرده و از تضییع پتانسیل خلاقانه آن جلوگیری نماید.