چگونه ChatGPT را از استفاده از محتوای وب سایت خود مسدود کنید


نگر، در مورد عدم وجود راهی آسان برای انصراف از داشتن محتوای مورد استفاده برای آموزش مدل های زبان بزرگ (LLM) مانند ChatGPT وجود دارد. راهی برای انجام آن وجود دارد، اما این کار نه ساده است و نه تضمین شده است.

چگونه هوش مصنوعی از محتوای شما یاد می گیرد

مدل‌های زبان بزرگ (LLM) بر روی داده‌هایی که از منابع متعدد نشات می‌گیرند آموزش داده می‌شوند. بسیاری از این مجموعه داده ها منبع باز هستند و آزادانه برای آموزش هوش مصنوعی استفاده می شوند.

برخی از منابع مورد استفاده عبارتند از:

  • ویکیپدیا
  • سوابق دادگاه های ،تی
  • کتاب ها
  • ایمیل ها
  • وب سایت های ،یده شده

در واقع پورتال‌ها، وب‌سایت‌هایی که مجموعه داده‌ها را ارائه می‌دهند، وجود دارند که حجم وسیعی از اطلاعات را ارائه می‌کنند.

یکی از پورتال ها توسط آمازون میزب، می شود و هزاران مجموعه داده را در آن ارائه می دهد رجیستری داده های باز در AWS.

چگونه ChatGPT را از استفاده از محتوای وب سایت خود مسدود کنید

پورتال آمازون با هزاران مجموعه داده تنها یک پورتال از بسیاری دیگر است که شامل مجموعه داده های بیشتری است.

ویکی پدیا 28 پورتال را فهرست کرده است برای دانلود مجموعه داده ها، از جمله مجموعه داده های Google و پورتال Hugging Face برای یافتن هزاران مجموعه داده.

مجموعه داده های محتوای وب

OpenWebText

مجموعه داده محبوب محتوای وب OpenWebText نام دارد. OpenWebText شامل URL هایی است که در پست های Reddit یافت می شوند که حداقل سه رای موافق داشتند.

ایده این است که این URL ها قابل اعتماد هستند و حاوی محتوای با کیفیت هستند. من نتوانستم اطلاعاتی در مورد یک عامل کاربر برای ،نده آنها پیدا کنم، شاید فقط به ،وان Pyt،n شناسایی شده باشد، مطمئن نیستم.

با این وجود، ما می د،م که اگر سایت شما از Reddit با حداقل سه رأی مثبت پیوند داده شده باشد، احتمال زیادی وجود دارد که سایت شما در مجموعه داده OpenWebText باشد.

اطلاعات بیشتر در مورد OpenWebText در اینجا.

کرال مش،

یکی از متداول ترین مجموعه داده های مورد استفاده برای محتوای اینترنتی توسط یک سازمان غیرانتفاعی به نام ارائه می شود کرال مش،.

داده‌های رایج Crawl از رباتی می‌آید که کل اینترنت را می‌،د.

داده ها توسط سازمان هایی که مایل به استفاده از داده ها هستند دانلود می شود و سپس از سایت های هر،مه و غیره پاک می شود.

نام ربات Common Crawl، CCBot است.

CCBot از پروتکل robots.txt تبعیت می کند، بنابراین می توان Common Crawl را با Robots.txt مسدود کرد و از تبدیل داده های وب سایت شما به مجموعه داده دیگری جلوگیری کرد.

با این حال، اگر سایت شما قبلاً ،یده شده است، احتمالاً قبلاً در مجموعه داده های متعددی گنجانده شده است.

با این وجود، با مسدود ، Common Crawl می‌تو،د محتوای وب‌سایت خود را از گنجاندن در مجموعه داده‌های جدید که از داده‌های Common Crawl جدیدتر منشأ می‌شوند، انصراف دهید.

رشته CCBot User-Agent است:

CCBot/2.0

موارد زیر را به فایل robots.txt خود اضافه کنید تا ربات Common Crawl را مسدود کنید:

User-agent: CCBot
Disallow: /

یک راه اضافی برای تأیید قانونی بودن یک عامل کاربر CCBot این است که از آدرس های IP آمازون AWS ،یده شود.

CCBot همچنین از دستورالعمل‌های متا تگ روبات‌های nofollow تبعیت می‌کند.

از این در متا تگ روبات خود استفاده کنید:

<meta name="robots" content="nofollow">

مسدود ، هوش مصنوعی از استفاده از محتوای شما

موتورهای جستجو به وب‌سایت‌ها اجازه می‌دهند از ،یدن انصراف دهند. Common Crawl همچنین اجازه انصراف را می دهد. اما در حال حاضر هیچ راهی برای حذف محتوای وب سایت از مجموعه داده های موجود وجود ندارد.

علاوه بر این، دانشمندان تحقیقاتی به نظر نمی‌رسد راهی برای انصراف از ،یدن به ناشران وب‌سایت ارائه دهند.

مقاله، آیا استفاده ChatGPT از محتوای وب منصفانه است؟ این موضوع را بررسی می کند که آیا استفاده از داده های وب سایت بدون اجازه یا راهی برای انصراف اخلاقی است یا خیر.

بسیاری از ناشران ممکن است قدرد، کنند که در آینده نزدیک به آنها در مورد نحوه استفاده از محتوایشان، به ویژه توسط محصولات هوش مصنوعی مانند ChatGPT، نظر بیشتری داده شود.

اینکه آیا این اتفاق خواهد افتاد در حال حاضر مشخص نیست.

تصویر برجسته توسط Shutterstock/ViDI Studio




منبع: https://www.searchenginejournal.com/،w-to-block-chatgpt-from-using-your-website-content/478384/