سرقت ادبی توسط هوش مصنوعی با بازتولید محتوای دارای حق کپی رایت

1402/10/27
توليد محتوا
3333
0
0

تقدم های سریع در حوزه هوش مصنوعی، ابتکارات جالبی را در زمینه هوش مصنوعی مولد ایجاد کرده‌اند. با این حال، این مدل‌های قوی همچنین با خطراتی مواجه هستند. بدون اشاره به منبع معتبر، وقوع خطرات مرتبط با بازتولید محتوای دارای حق چاپ یا سرقت ادبی از جمله مشکلاتی است که ممکن است به وجود آید.

چگونه شبکه های عصبی داده های آموزشی را جذب می کنند

سیستم‌های هوش مصنوعی مدرن مانند GPT-3 از طریق یک روند به نام "آموزش انتقال" برای یادگیری استفاده می‌کنند. این سیستم‌ها از مجموعه‌های داده بسیار بزرگی که از منابع مختلف مانند وب‌سایت‌ها، کتاب‌ها، مقالات علمی و دیگر منابع جمع‌آوری شده‌اند، بهره می‌برند. به عنوان مثال، داده‌های آموزشی GPT-3 حاوی 570 گیگابایت متن می‌باشد. در طول فرآیند آموزش، هوش مصنوعی الگوها و ارتباطات آماری در این حجم بزرگ اطلاعات را مطالعه می‌کند. این شامل ارتباطات بین کلمات، جملات، پاراگراف‌ها، ساختار زبان و ویژگی‌های دیگر می‌شود.

این فرآیند این امکان را به هوش مصنوعی می‌دهد تا محتوای جدیدی را با تولید توالی‌های پیش‌بینی شده از یک ورودی یا درخواست خاص ایجاد کند. اما در عین حال، به این معناست که این مدل‌ها ممکن است محتوا را بدون رعایت حقوق نسخه‌برداری، انتساب یا خطرات مرتبط با سرقت ادبی تولید کنند. به همین دلیل، سیستم‌های هوش مصنوعی مولد می‌توانند به طور ناخواسته متون دارای حق چاپ را از داده‌های آموزشی خود بازتولید یا بازنویسی کنند.

نمونه های کلیدی سرقت ادبی هوش مصنوعی

در سال 2020 و پس از عرضه GPT، نگرانی‌ها درباره سرقت ادبی هوش مصنوعی آشکار شدند. تحقیقات اخیر نشان داده است که مدل‌های زبان بزرگ (LLM) مانند GPT-3 قادر به بازتولید متن‌های کلمه به کلمه از داده‌های آموزشی خود بدون استناد به منابع خارجی هستند (نصر و همکاران، 2023؛ Carlini و همکاران، 2022). به عنوان مثال، شکایتی از سوی نیویورک تایمز نشان داد که نرم افزار OpenAI قادر به تولید مقالات نیویورک تایمز تقریباً کلمه به کلمه است (نیویورک تایمز، 2023).

این یافته‌ها نشان می‌دهد که برخی از سیستم‌های هوش مصنوعی مولد ممکن است به صورت ناخواسته خروجی‌هایی بازتولید کنند که ممکن است به نقض حقوق نسخه‌برداری منجر شود. با این حال، به دلیل "جعبه سیاه" بودن این مدل‌ها، ابعاد واقعی این مسئله مشخص نیست. طبیعت LLM ها باعث ایجاد انتظارات حقوقی ناشناخته شده است، و این مسئله می‌تواند پیامدهای مهمی برای توسعه هوش مصنوعی مولد به همراه داشته باشد. به طور کلی، شواهد نشان می‌دهد که سرقت ادبی یک چالش اساسی در مدل‌های شبکه عصبی بزرگ است و نیاز به هوشیاری و تدابیر حفاظتی دارد.

این موارد دو عامل کلیدی را که بر خطر سرقت ادبی هوش مصنوعی تأثیر می‌گذارند، نشان می‌دهند:

1. **اندازه مدل:** مدل‌های بزرگ‌تر مثل GPT-3.5 نسبت به مدل‌های کوچک‌تر، به خاطر اندازه بزرگ‌تر و مجموعه داده‌های آموزشی گسترده‌تر، مستعدتر به بازسازی متن‌های کلمه به کلمه هستند. این مدل‌ها با استفاده از مجموعه داده‌های آموزشی بزرگ‌تر، در معرض مواد منبع دارای حق نسخه‌برداری قرار می‌گیرند که می‌تواند خطر سرقت ادبی را افزایش دهد.

2. **داده‌های آموزشی:** مدل‌هایی که بر روی داده‌های اینترنتی خراش‌شده یا آثار دارای حق نسخه‌برداری آموزش دیده‌اند، احتمالاً بیشتر به سرقت ادبی مستعد هستند. حتی اگر این آثار مجوز داشته باشند، در مقایسه با مدل‌هایی که بر روی مجموعه‌های داده با دقت آموزش دیده‌اند، خطر سرقت ادبی در این حالت افزایش می‌یابد.

با این حال، ارزیابی مستقیم انتشارات سرقت ادبی چالش بزرگی دارد. طبیعت "جعبه سیاه" شبکه‌های عصبی باعث می‌شود تا ردیابی کامل این ارتباط بین داده‌های آموزشی و خروجی‌های مدل دشوار باشد. نرخ‌های سرقت ادبی احتمالاً به شدت به معماری مدل، کیفیت مجموعه داده‌ها، و فرمول‌بندی سریع بستگی دارد. با این حال، این موارد تأیید می‌کنند که سرقت ادبی هوش مصنوعی به صورت واضح رخ می‌دهد که می‌تواند پیامدهای قانونی و اخلاقی مهمی داشته باشد.

سیستم های کشف سرقت ادبی در حال ظهور

در پاسخ به چالش سرقت ادبی از سوی هوش مصنوعی، محققان شروع به کاوش در سیستم‌های هوش مصنوعی برای تشخیص خودکار متن و تصاویر تولید شده توسط مدل‌ها نسبت به ایجاد شده توسط انسان کرده‌اند. به عنوان مثال، در مرکز Mila GenFace، پیشنهاد شده است که الگوهای زبانی که به متن نوشته‌شده توسط هوش مصنوعی اشاره دارند، تجزیه و تحلیل شوند. همچنین، استارتاپ آنتروپیک قابلیت‌های تشخیص سرقت ادبی داخلی را برای هوش مصنوعی در خدمت‌های ابری خود توسعه داده است.

با این حال، این ابزارها محدودیت‌هایی دارند. مشخص کردن منابع اصلی متن سرقت‌شده توسط مدل‌های زبان بزرگ مانند GPT-3، دشوار و گاهی حتی غیرممکن است. از آنجایی که مدل‌های مولد به سرعت در حال تکامل هستند، نیاز به تکنیک‌های قوی‌تری برای تشخیص سرقت ادبی خواهد بود. تا آن زمان، ارزیابی دستی برای بررسی خروجی‌های هوش مصنوعی بالقوه سرقت ادبی یا نقض قبل از استفاده عمومی ضروری است.

بهترین روش ها برای کاهش سرقت علمی هوش مصنوعی

برای توسعه‌دهندگان هوش مصنوعی، روش‌های برتری وجود دارد که می‌توانند برای به حداقل رساندن خطر سرقت ادبی مفید باشند:

1. **بررسی دقیق منابع داده:**
- منابع داده آموزشی را با دقت بررسی کنید تا مطالب دارای حق نسخه‌برداری یا دارای مجوز را بدون مجوزهای مناسب حذف کنید.

2. **توسعه اسناد دقیق:**
- اسناد دقیق داده‌ها و روش‌های ردیابی منشأ را توسعه دهید. اطلاعاتی مانند مجوزها، برچسب‌ها، سازندگان و غیره را به دقت ثبت کنید.

3. **استفاده از ابزارهای تشخیص سرقت ادبی:**
- ابزارهای تشخیص سرقت ادبی را برای پرچم‌گذاری محتوای پرخطر قبل از انتشار اجرا کنید.

4. **گزارش‌های شفاف‌سازی:**
- در صورت بروز نگرانی، گزارش‌های شفاف‌سازی با جزئیات منابع داده‌های آموزشی، مجوزها و منشاء خروجی‌های هوش مصنوعی را ارائه دهید.

5. **اجازه انصراف برای سازندگان محتوا:**
- به سازندگان محتوا اجازه دهید به راحتی از مجموعه داده‌های آموزشی انصراف دهند.

6. **پاسخ سریع به درخواست‌ها:**
- به سرعت با درخواست‌های حذف یا حذف مطابقت کنید.

این روش‌ها باعث می‌شوند که توسعه‌دهندگان در فرآیند تولید هوش مصنوعی، مسئولیت پذیرتر عمل کنند و خطرات سرقت ادبی را به حداقل برسانند.

برای کاربران هوش مصنوعی مولد، موارد زیر به منظور به حداقل رساندن خطرات سرقت ادبی توصیه می‌شود:

1. **پیش‌نمایش کامل خروجی:**
- قبل از استقرار در مقیاس، خروجی‌های هر قسمت احتمالی را به طور کامل نمایش دهید.

2. **تلقی هوش مصنوعی:**
- از تلقی هوش مصنوعی به عنوان سیستم‌های خلاقانه کاملاً مستقل خودداری کنید و از بازبینان انسانی بخواهید محتوای نهایی را بررسی کنند.

3. **استفاده از مدل‌های بازنویسی:**
- از Favor AI به خلق انسان در تولید محتوای کاملاً جدید از ابتدا خودداری کنید و به جای آن از مدل‌های بازنویسی یا ایده پردازی استفاده کنید.

4. **مشاوره با ارائه‌دهنده:**
- قبل از استفاده، با شرایط خدمات، خط‌مشی‌های محتوا و حفاظت از سرقت ادبی ارائه‌دهنده هوش مصنوعی مشورت کنید و از مدل‌های غیر شفاف خودداری کنید.

5. **اشاره به منابع:**
- اگر علیرغم بهترین تلاش‌ها، مطالب دارای حق چاپ در خروجی نهایی ظاهر شد، به وضوح به منابع اشاره کنید و کار هوش مصنوعی را کاملا اورجینال معرفی نکنید.

6. **محدودیت اشتراک گذاری:**
- خروجی‌های اشتراک‌گذاری را به صورت خصوصی یا محرمانه محدود کنید تا زمانی که خطرات سرقت علمی بیشتر ارزیابی و رسیدگی شود.

در ادامه، این ممکن است با ادامه تکثیر مدل‌های مولد، مقررات داده‌های آموزشی سخت‌گیرانه‌تر تضمین شود و این امر نیاز به رضایت سازنده قبل از افزودن کارشان به مجموعه داده‌ها را داشته باشد. با این حال، مسئولیت هم بر دوش توسعه‌دهندگان و هم بر عهده کاربران است که از شیوه‌های هوش مصنوعی اخلاقی استفاده کنند و به حقوق سازنده محتوا احترام بگذارند.

سرقت ادبی در Midjourney V6 Alpha

بعد از درخواست محدود مدل V6 Midjourney برخی از محققان توانستند تصاویر تقریباً مشابهی با فیلم‌های دارای حق چاپ، نمایش‌های تلویزیونی و اسکرین شات های بازی ویدیویی احتمالاً در داده های آموزشی آن گنجانده شده است.

این آزمایش‌ها بیشتر تأیید می‌کنند که حتی سیستم‌های پیشرفته‌ی هوش مصنوعی بصری می‌توانند ناآگاهانه محتوای محافظت شده را سرقت کنند، اگر منبع داده‌های آموزشی کنترل نشده باقی بماند. این امر بر نیاز به هوشیاری، پادمان ها و نظارت انسانی در هنگام استقرار مدل های مولد به صورت تجاری برای محدود کردن خطرات نقض تأکید می کند.

پاسخ شرکت های هوش مصنوعی به محتوای دارای حق چاپ

خطوط میان خلاقیت انسان و هوش مصنوعی در حال محو شدن است و این وضعیت سوالات پیچیده‌تری در مورد حقوق نسخه‌برداری به وجود آورده است. آثاری که ترکیب ورودی‌های انسانی و هوش مصنوعی هستند، ممکن است فقط در جنبه‌هایی که توسط انسان به صورت انحصاری انجام می‌شوند، حق نسخه‌برداری داشته باشند.

در این زمینه، اداره کپی رایت ایالات متحده به تازگی حق چاپ بیشتری از جنبه‌های یک رمان گرافیکی مبتنی بر هوش مصنوعی را رد کرده و هنر هوش مصنوعی را به عنوان غیرانسانی دانسته است. همچنین، دستورالعملی صادر کرده که سیستم‌های هوش مصنوعی را از مفهوم "تألیف" مستثنی کند. دادگاه‌های فدرال هم این موضع را در پرونده‌های حق نسخه‌برداری مرتبط با هنر هوش مصنوعی تأیید کرده‌اند.

به همین ترتیب، برخی دعاوی حقوقی ادعا می‌کنند که نقض حقوق نسخه‌برداری هوش مصنوعی مولد اتفاق می‌افتد، مانند دعوای گتی در برابر هوش مصنوعی پایداری و هنرمندان در برابر Midjourney/Stability AI. با این حال، بدون وجود "نویسندگان" انسانی هوش مصنوعی، برخی از افراد سوال می‌کنند که آیا ادعاهای نقض قوانین حقوق نسخه‌برداری بر روی آنها اعمال می‌شود یا خیر.

در پاسخ به این مسئله، شرکت‌های بزرگ هوش مصنوعی از جمله متا، گوگل، مایکروسافت و اپل ابراز داشته‌اند که نباید برای آموزش مدل‌های هوش مصنوعی بر روی داده‌های دارای حق چاپ، نیاز به مجوز یا پرداخت حق امتیاز داشته باشند.

مسیرهایی برای نوآوری AI مولد مسئول

از آنجایی که مدل‌های مولد هوش مصنوعی به سرعت پیشرفت می‌کنند، جلوگیری از خطرات سرقت ادبی بسیار حیاتی است. رویکرد چندجانبه‌ای برای مقابله با این مسئله لازم است:

1. **اصلاحات خط‌مشی:**
- اصلاحات در خط‌مشی‌ها در زمینه‌های شفافیت داده‌های آموزشی، صدور مجوزها، و رضایت سازندگان ضروری است. این اصلاحات می‌توانند به معنای بهبود در احترام به حقوق نسخه‌برداران و جلوگیری از سرقت ادبی باشند.

2. **فناوری‌های تشخیص سرقت ادبی:**
- توسعه فناوری‌های قدرتمند تشخیص سرقت ادبی و افزایش حاکمیت داخلی توسط توسعه‌دهندگان مهم است. این ابزارها می‌توانند به تشخیص و جلوگیری از سرقت ادبی کمک کرده و امنیت حقوقی را تقویت کنند.

3. **آگاهی بیشتر کاربران:**
- ارتقاء آگاهی کاربران از خطرات و رعایت اصول اخلاقی در استفاده از هوش مصنوعی مهم است. اطلاع‌رسانی مناسب می‌تواند به کاهش خطرات و بهبود تعامل کاربران با این فناوری منجر شود.

4. **پاکسازی سوابق حقوقی:**
- پاکسازی سوابق حقوقی و رویه قضایی مرتبط با مسائل حق نسخه‌برداری هوش مصنوعی می‌تواند به افزایش شفافیت و اعتماد عمومی کمک کند.

5. **تعادل مناسب:**
- دستیابی به تعادل مناسب نیاز به مقابله فعال با نقطه کورهای سرقت ادبی در شبکه‌های عصبی دارد. این موضوع اطمینان می‌دهد که این مدل‌های قدرتمند، نه تنها انسانیت را تضعیف نمی‌کنند بلکه نقدهای سازنده را به‌خوبی جذب می‌کنند.

دستیابی به این اهداف می‌تواند به توسعه هوش مصنوعی مولد با رعایت اصول اخلاقی کمک کرده و از تضییع پتانسیل خلاقانه آن جلوگیری نماید.