آیا استفاده ChatGPT از محتوای وب منصفانه است؟

مدل‌های زبان بزرگ (LLM) مانند ChatGPT با استفاده از منابع اطلاعاتی متعدد، از جمله محتوای وب، آموزش می‌دهند. این داده‌ها اساس خلاصه‌های آن محتوا را در قالب مقالاتی تشکیل می‌دهد که بدون ذکر منبع یا سود به ،، که محتوای اصلی مورد استفاده برای آموزش ChatGPT را منتشر کرده‌اند، تولید می‌شوند.

موتورهای جستجو محتوای وب سایت (به نام ،یدن و نمایه سازی) را دانلود می کنند تا پاسخ ها را در قالب پیوندهایی به وب سایت ها ارائه دهند.

ناشران وب سایت می توانند از ،یدن و فهرست بندی محتوای خود توسط موتورهای جستجو از طریق پروتکل حذف روبات ها که معمولاً به آن Robots.txt می گویند، انصراف دهند.

پروتکل محرومیت روبات ها یک استاندارد رسمی اینترنتی نیست، اما استانداردی است که ،نده های وب قانونی از آن تبعیت می کنند.

آیا ناشران وب باید بتوانند از پروتکل Robots.txt برای جلوگیری از استفاده مدل های زبان بزرگ از محتوای وب سایت خود استفاده کنند؟

مدل های زبان بزرگ از محتوای وب سایت بدون ذکر منبع استفاده می کنند

برخی از ،، که با بازاریابی جستجو درگیر هستند از نحوه استفاده از داده های وب سایت برای آموزش ماشین ها بدون ارائه هیچ چیزی، مانند تأیید یا ترافیک، ناراحت هستند.

هانس پتر بلینهایم (پروفایل لینکدین)، کارشناس ارشد کورماندو نظرات خود را با من در میان گذاشت.

هانس نظر داد:

زم، که نویسنده ای پس از آموختن چیزی از یک مقاله در سایت شما چیزی می نویسد، اغلب به اثر اصلی شما لینک نمی دهد زیرا اعتبار و احترام حرفه ای را ارائه می دهد.

به آن استناد می گویند.

اما مقیاسی که ChatGPT در آن محتوا را جذب می‌کند و چیزی را پس نمی‌دهد، آن را هم از Google و هم از مردم متمایز می‌کند.

یک وب سایت به طور کلی با یک دستورالعمل تجاری ایجاد می شود.

گوگل به افراد کمک می‌کند محتوا را پیدا کنند و ترافیکی را ارائه می‌کنند که برای آن سود متقابل دارد.

اما اینطور نیست که مدل های زبان بزرگ برای استفاده از محتوای شما از شما اجازه بگیرند، آنها فقط از آن به م،ایی گسترده تر از آنچه در هنگام انتشار محتوای شما انتظار می رفت استفاده می کنند.

و اگر مدل‌های زبان هوش مصنوعی در ازای آن ارزشی را ارائه نمی‌دهند، چرا ناشران باید به آنها اجازه دهند محتوا را ب،ند و استفاده کنند؟

آیا استفاده آنها از محتوای شما با استانداردهای استفاده منصفانه مطابقت دارد؟

وقتی ChatGPT و مدل‌های ML/AI خود گوگل بدون اجازه محتوای شما را آموزش می‌دهند، آنچه را که یاد می‌گیرد در آنجا می‌چرخاند و از آن استفاده می‌کند در حالی که مردم را از وب‌سایت‌های شما دور نگه می‌دارد – آیا صنعت و همچنین قانون‌گذاران نباید سعی کنند با اجبار کنترل اینترنت را پس بگیرند. آنها برای انتقال به یک مدل “انتخاب ،”؟

نگر، هایی که هانس بیان می کند منطقی است.

با توجه به سرعت پیشرفت فناوری، آیا قو،ن مربوط به استفاده منصفانه باید بازنگری و به روز شوند؟

از جان رضوی، وکیل ثبت اختراع پرسیدم (پروفایل لینکدین) دارای گواهینامه حقوق مالکیت م،وی، اگر قو،ن کپی رایت اینترنت قدیمی باشد.

جان پاسخ داد:

«بله، بدون شک.

یکی از دلایل اصلی اختلاف در مواردی مانند این، این واقعیت است که قانون به ناچار بسیار کندتر از تکنولوژی تکامل می‌یابد.

در دهه 1800، این شاید چندان اهمیتی نداشت، زیرا پیشرفت‌ها نسبتاً آهسته بود و بنابراین دستگاه‌های قانونی کم و بیش برای تطبیق با آن‌ها مجهز بودند.

با این حال، امروزه پیشرفت‌های فن‌آوری بسیار فراتر از توانایی قانون برای ادامه‌دادن است.

به سادگی پیشرفت های زیادی وجود دارد و قطعات متحرک بسیار زیادی وجود دارد که نمی توان قانون را رعایت کرد.

از آنجایی که در حال حاضر، عمدتاً توسط افرادی که به سختی در زمینه‌های فناوری مورد بحث ما در اینجا بحث می‌کنیم، تشکیل و اداره می‌شود، این قانون مجهز یا ساختار ضعیفی برای همگام شدن با فناوری است… و ما باید در نظر بگیریم که این یک کاملاً نیست. چیز بد.

بنابراین، از یک جهت، بله، قانون مالکیت فکری اگر حتی مدعی است، چه برسد به اینکه امیدوار باشد، همگام با پیشرفت‌های فناوری باشد، باید تکامل یابد.

مشکل اصلی ایجاد تعادل بین راه‌هایی است که می‌توان از اشکال مختلف فناوری استفاده کرد و در عین حال از دست‌اندازی آشکار یا سانسور آشکار برای منافع سیاسی پوشانده شده در نیات خیرخواهانه خودداری کرد.

قانون همچنین باید مراقب باشد که علیه استفاده‌های احتمالی از فناوری به‌طور گسترده‌ای قانونی وضع نشود تا هر گونه منافع بالقوه‌ای که ممکن است از آنها حاصل شود خفه شود.

شما به راحتی می تو،د با اصلاحیه اول و هر تعداد پرونده حل شده که مشخص می کند مالکیت م،وی چگونه، چرا و تا چه میزان و توسط چه ،ی می تواند استفاده شود، مخالفت کنید.

و تلاش برای تجسم هر استفاده قابل تصور از فناوری سالها یا دهه ها قبل از اینکه چارچوب وجود داشته باشد تا آن را قابل دوام یا حتی ممکن کند، یک کار ،انه بسیار خطرناک خواهد بود.

در شرایطی مانند این، قانون واقعاً نمی‌تواند به نحوه استفاده از فناوری واکنش نشان دهد… نه ،وماً آنطور که در نظر گرفته شده است.

به احتمال زیاد این به این زودی ها تغییر نخواهد کرد، مگر اینکه به یک فلات فناوری عظیم و غیرمنتظره برخورد کنیم که به قانون اجازه دهد تا به رویدادهای جاری برسد.”

بنابراین به نظر می رسد که موضوع قو،ن کپی رایت ملاحظات زیادی در مورد نحوه آموزش هوش مصنوعی دارد، پاسخ ساده ای وجود ندارد.

OpenAI و Microsoft Sued

یک مورد جالب که اخیراً تشکیل شده است، موردی است که در آن OpenAI و مایکروسافت از کد منبع باز برای ایجاد محصول CoPilot خود استفاده ،د.

مشکل استفاده از کد منبع باز این است که مجوز Creative Commons نیاز به ذکر منبع دارد.

با توجه به یک مقاله منتشر شده در یک مجله علمی:

شاکیان ادعا می‌کنند که OpenAI و GitHub یک محصول تجاری به نام Copilot را برای ایجاد کد تولیدی با استفاده از کدهای قابل دسترس عموم که در ابتدا تحت مجوزهای مختلف به سبک «متن باز» در دسترس قرار گرفته بود، جمع‌آوری و توزیع ،د که بسیاری از آنها شامل ا،امات انتساب هستند.

همانطور که GitHub بیان می کند، «…[t]GitHub Copilot با میلیاردها خط کد، درخواست‌های زبان طبیعی را به پیشنهادهای کدنویسی در ده‌ها زبان تبدیل می‌کند.

ظاهراً محصول حاصل هیچ اعتباری را برای سازندگان اصلی حذف کرده است.»

نویسنده آن مقاله، که یک متخصص حقوقی در موضوع حق چاپ است، نوشت که بسیاری مجوزهای Creative Commons منبع باز را “رایگان برای همه” می دانند.

برخی نیز ممکن است این عبارت را در نظر بگیرند رایگان برای همه یک توصیف منصفانه از مجموعه داده‌های متشکل از محتوای اینترنتی ،اشیده شده و برای تولید محصولات هوش مصنوعی مانند ChatGPT استفاده می‌شود.

پیشینه LLM ها و مجموعه داده ها

مدل های زبان بزرگ بر روی مجموعه داده های متعددی از محتوا آموزش می بینند. مجموعه داده‌ها می‌توانند شامل ایمیل‌ها، کتاب‌ها، داده‌های ،تی، مقالات ویکی‌پدیا و حتی مجموعه داده‌های ایجاد شده از وب‌سایت‌های پیوند شده از پست‌هایی در Reddit باشند که حداقل سه رأی موافق دارند.

بسیاری از مجموعه داده های مرتبط با محتوای اینترنت منشأ خود را در ،یدن ایجاد شده توسط یک سازمان غیرانتفاعی به نام کرال مش،.

مجموعه داده آنها، مجموعه داده Common Crawl، برای دانلود و استفاده رایگان در دسترس است.

مجموعه داده Common Crawl نقطه شروع بسیاری از مجموعه داده های دیگر است که از آن ایجاد می شود.

به ،وان مثال، GPT-3 از نسخه فیلتر شده Common Crawl (مدل های زبان یادگیرندگان کمی هستند PDF).

به این ترتیب محققان GPT-3 از داده های وب سایت موجود در مجموعه داده Common Crawl استفاده ،د:

«مجموعه‌های داده برای مدل‌های زبان به سرعت گسترش یافته‌اند و به مجموعه داده‌های Common Crawl که تقریباً یک تریلیون کلمه را تشکیل می‌دهند، به اوج خود رسیده‌اند.

این اندازه مجموعه داده برای آموزش بزرگ‌ترین مدل‌های ما بدون اینکه روی یک دنباله دو بار به‌روزرس، شود، کافی است.

با این حال، متوجه شده‌ایم که نسخه‌های فیلتر نشده یا کمی فیلتر شده Common Crawl نسبت به مجموعه داده‌های مدیریت‌شده‌تر کیفیت پایین‌تری دارند.

بنابراین، ما 3 گام برای بهبود کیفیت متوسط مجموعه داده های خود برداشتیم:

(1) نسخه ای از CommonCrawl را بر اساس شباهت به طیفی از مجموعه های مرجع با کیفیت بالا دانلود و فیلتر کردیم،

(2) برای جلوگیری از افزونگی و حفظ یکپارچگی مجموعه اعتبار سنجی نگهداشته شده خود به ،وان معیار دقیقی از برازش، کپی‌سازی فازی را در سطح سند، در داخل و بین مجموعه‌های داده انجام دادیم، و

(3) ما همچنین برای تقویت CommonCrawl و افزایش تنوع آن، مجموعه‌های مرجع با کیفیت بالا را به ،یب آموزشی اضافه کردیم.

مجموعه داده های C4 گوگل (Colossal, Cleaned Crawl Corpus) که برای ایجاد تبدیل کننده انتقال متن به متن (T5) استفاده شد، ریشه در مجموعه داده های Common Crawl نیز دارد.

مقاله تحقیقاتی آنها (کاوش در محدودیت های یادگیری انتقال با یک تبدیل متن به متن یکپارچه PDF) توضیح می دهد:

“قبل از ارائه نتایج حاصل از مطالعه تجربی در مقیاس بزرگ، ما موضوعات زمینه لازم برای درک نتایج خود را بررسی می کنیم، از جمله معماری مدل ترانسفورماتور و وظایف پایین دستی که بر روی آنها ارزیابی می کنیم.

ما همچنین رویکرد خود را برای رسیدگی به هر مشکلی به‌،وان یک کار متن به نوشتار معرفی می‌کنیم و «Colossal Clean Crawled Corpus» (C4)، مجموعه داده‌های مبتنی بر ،یدن مش، را که به ،وان منبع داده‌های متنی بدون بر،ب ایجاد کرده‌ایم، توصیف می‌کنیم.

ما به مدل و چارچوب خود به ،وان “تبدیل متن به متن” (T5) اشاره می کنیم.

گوگل مقاله ای را در وبلاگ هوش مصنوعی خود منتشر کرد این بیشتر توضیح می‌دهد که چگونه داده‌های Common Crawl (که حاوی محتوای ،اش‌شده از اینترنت است) برای ایجاد C4 استفاده شد.

آنها نوشتند:

یک ،صر مهم برای یادگیری انتقال، مجموعه داده بدون بر،بی است که برای پیش‌آموزش استفاده می‌شود.

برای اندازه‌گیری دقیق تأثیر مقیاس‌پذیری میزان پیش‌آموزش، به مجموعه‌ای نیاز دارد که نه تنها با کیفیت و متنوع باشد، بلکه گسترده باشد.

مجموعه داده‌های پیش‌آموزشی موجود، هر سه این معیارها را برآورده نمی‌کنند – برای مثال، متن ویکی‌پدیا با کیفیت بالا، اما سبک یکنواخت و برای اه، ما نسبتاً کوچک است، در حالی که صفحات وب Common Crawl بسیار زیاد و بسیار متنوع هستند، اما نسبتاً کیفیت پایین.

برای برآورده ، این ا،امات، ما Corpus Clean Crawled Colossal (C4) را توسعه دادیم، یک نسخه تمیز شده از Common Crawl که دو مرتبه بزرگتر از ویکی‌پدیا است.

فرآیند تمیز ، ما شامل کپی برداری، دور انداختن جملات ناقص و حذف محتوای توهین آمیز یا پر سر و صدا بود.

این فیلتر منجر به نتایج بهتر در کارهای پایین دستی می‌شود، در حالی که اندازه اضافی باعث می‌شود که اندازه مدل بدون نیاز به بیش از حد در طول آموزش افزایش یابد.

گوگل، OpenAI، حتی داده های باز اوراکل از محتوای اینترنتی، محتوای خود، برای ایجاد مجموعه داده هایی استفاده می کنند که سپس برای ایجاد برنامه های هوش مصنوعی مانند ChatGPT استفاده می شود.

Crawl مش، را می توان مسدود کرد

می توان Common Crawl را مسدود کرد و متعاقباً از همه مجموعه داده هایی که بر اساس Common Crawl هستند انصراف داد.

اما اگر سایت قبلاً ،یده شده باشد، داده های وب سایت از قبل در مجموعه داده ها هستند. هیچ راهی برای حذف محتوای شما از مجموعه داده Common Crawl و هر یک از مجموعه داده های مشتق دیگر مانند C4 و .

استفاده از پروتکل Robots.txt فقط ،یدن‌های آینده توسط Common Crawl را مسدود می‌کند و مانع از استفاده محققان از محتوای موجود در مجموعه داده نمی‌شود.

نحوه مسدود ، Crawl مش، از داده های خود

مسدود ، Common Crawl از طریق استفاده از پروتکل Robots.txt، در چارچوب محدودیت‌های مورد بحث در بالا، امکان‌پذیر است.

ربات Common Crawl، CCBot نامیده می شود.

با استفاده از به‌روزترین رشته CCBot User-Agent شناسایی می‌شود: CCBot/2.0

مسدود ، CCBot با Robots.txt مانند هر ربات دیگری انجام می شود.

در اینجا کد مسدود ، CCBot با Robots.txt آمده است.

User-agent: CCBot
Disallow: /

CCBot از آدرس های IP آمازون AWS می ،د.

CCBot همچنین از متا تگ nofollow Robots پیروی می کند:

<meta name="robots" content="nofollow">

اگر Crawl معمولی را مسدود نکنید، چه؟

محتوای وب را می توان بدون اجازه دانلود کرد، که مرورگرها چگونه کار می کنند، آنها محتوا را دانلود می کنند.

Google یا هر شخص دیگری برای دانلود و استفاده از محتوایی که به صورت عمومی منتشر می شود به مجوز نیاز ندارد.

ناشران وب سایت گزینه های محدودی دارند

به نظر نمی‌رسد که رعایت اخلاقی بودن آموزش هوش مصنوعی بر روی محتوای وب، بخشی از هیچ مکالمه‌ای در مورد اخلاقیات نحوه توسعه فناوری هوش مصنوعی نباشد.

به نظر می رسد مسلم است که محتوای اینترنتی را می توان دانلود، خلاصه کرد و به محصولی به نام ChatGPT تبدیل کرد.

آیا این عادلانه به نظر می رسد؟ پاسخ پیچیده است.

تصویر برجسته توسط Shutterstock/Krakenimages.com

منبع: https://www.searchenginejournal.com/is-chatgpt-use-of-web-content-fair/477558/