استانداردهای جدیدی برای گسترش پروتکل حذف ربات ها و تگ های متا روبات ها در حال توسعه است و به آن ها اجازه می دهد تمام ،نده های هوش مصنوعی را از استفاده از محتوای وب در دسترس عموم برای اه، آموزشی مسدود کنند. این پیشنهاد که توسط کریشنا مدهاوان، مدیر محصول اصلی در هوش مصنوعی مایکروسافت، و فابریس کانل، مدیر محصول اصلی در مایکروسافت بینگ تهیه شده است، مسدود ، همه ،ندههای اصلی آموزش هوش مصنوعی را با یک قانون ساده که میتواند برای هر ،نده جداگانه اعمال شود، آسان میکند.
تقریباً همه ،ندههای قانونی از بر،بهای Robots.txt و Meta Robots پیروی میکنند که این پیشنهاد را برای ناشر، که نمیخواهند محتوایشان برای اه، آموزشی هوش مصنوعی استفاده شود، به رویایی تبدیل میکند.
کارگروه مهندسی اینترنت (IETF)
گروه ویژه مهندسی اینترنت (IETF) یک گروه استانداردسازی بینالمللی اینترنت است که در سال 1986 تأسیس شد و توسعه و تدوین استانداردهایی را هماهنگ میکند که همه میتوانند داوطلبانه با آن موافقت کنند. به ،وان مثال، پروتکل حذف روبات ها به طور مستقل در سال 1994 ایجاد شد و در سال 2019 گوگل پیشنهاد کرد که IETF آن را به ،وان یک استاندارد رسمی با تعاریف مورد توافق اتخاذ کند. در سال 2022، IETF یک پروتکل رسمی حذف روبات ها را منتشر کرد که آن را تعریف می کند و پروتکل اصلی را گسترش می دهد.
سه راه برای مسدود ، ربات های آموزشی هوش مصنوعی
پیش نویس پیشنهادی برای مسدود ، ربات های آموزشی هوش مصنوعی سه راه را برای مسدود ، ربات ها پیشنهاد می کند:
- پروتکل های Robots.txt
- ،اصر HTML متا روبات
- هدر پاسخ لایه برنامه
1. Robots.Txt برای مسدود ، ربات های هوش مصنوعی
پیش نویس پیشنهادی به دنبال ایجاد قو،ن اضافی است که پروتکل محرومیت روبات ها (Robots.txt) را به ربات های آموزشی هوش مصنوعی گسترش می دهد. این امر باعث ایجاد نظم و ترتیبی می شود و به ناشران امکان انتخاب ربات هایی را می دهد که مجاز به ،یدن وب سایت آنها هستند.
پایبندی به پروتکل Robots.txt داوطلبانه است، اما همه ،ندههای قانونی تمایل به اطاعت از آن دارند.
پیش نویس هدف قو،ن جدید Robots.txt را توضیح می دهد:
در حالی که پروتکل حذف ربات ها به صاحبان سرویس امکان می دهد تا کنترل کنند که چگونه، اگر اصلاً، کلاینت های خودکار شناخته شده به ،وان ،نده می توانند به URI های سرویس های خود دسترسی داشته باشند، همانطور که توسط [RFC8288]، این پروتکل کنترلی در مورد نحوه استفاده از داده های بازگردانده شده توسط سرویس آنها در آموزش مدل های پایه هوش مصنوعی مولد ارائه نمی کند.
از توسعه دهندگان برنامه درخواست می شود که به این بر،ب ها احترام بگذارند. با این حال، بر،بها نوعی مجوز دسترسی نیستند.”
یکی از ویژگیهای مهم قو،ن robots.txt جدید و ،اصر HTML متا روباتها این است که ،ندههای آموزشی AI قانونی تمایل دارند به طور داوطلبانه با پیروی از این پروتکلها موافقت کنند، کاری که همه رباتهای قانونی انجام میدهند. این امر مسدود ، ربات را برای ناشران ساده می کند.
قو،ن Robots.txt پیشنهادی به شرح زیر است:
- DisallowAITraining – به تجزیه کننده دستور می دهد که از داده ها برای مدل زبان آموزش هوش مصنوعی استفاده نکند.
- AllowAITraining – به تجزیه کننده دستور می دهد که داده ها را می توان برای مدل زبان آموزش هوش مصنوعی استفاده کرد.
2. ،صر HTML (روباتهای متا تگ)
دستورالعملهای متا روباتهای پیشنهادی به شرح زیر است:
3. Application Layer Response Header
هدرهای پاسخ لایه برنامه توسط سرور در پاسخ به درخواست مرورگر برای یک صفحه وب ارسال می شوند. این پیشنهاد پیشنهاد می کند قو،ن جدیدی را به سربرگ های پاسخ لایه برنامه برای روبات ها اضافه کنید:
“DisallowAITraining – به تجزیه کننده دستور می دهد که از داده ها برای مدل زبان آموزش هوش مصنوعی استفاده نکند.
AllowAITraining – به تجزیه کننده دستور می دهد که داده ها را می توان برای مدل زبان آموزش هوش مصنوعی استفاده کرد.
کنترل بیشتری را فراهم می کند
شرکتهای هوش مصنوعی به دلیل استفاده از دادههای در دسترس عموم بهطور ناموفق در دادگاه شکایت کردهاند. شرکتهای هوش مصنوعی تاکید کردهاند که استفاده منصفانه برای ،یدن در وبسایتهای در دسترس عموم است، درست همانطور که موتورهای جستجو برای چندین دهه انجام دادهاند.
این پروتکلهای جدید به ناشران وب امکان کنترل ،ندههایی را میدهند که هدفشان مصرف دادههای آموزشی است و این ،ندهها را با ،ندههای جستجو همسو میکند.
پیشنهاد را در IETF بخو،د:
برنامه افزودنی پروتکل حذف ربات برای مدیریت استفاده از محتوای هوش مصنوعی
تصویر ویژه توسط Shutterstock/ViDI Studio
منبع: https://www.searchenginejournal.com/new-rules-will-block-ai-training-bots/532348/