Google Bard AI – از چه سایت هایی برای آموزش آن استفاده شده است؟


Bard گوگل مبتنی بر مدل زبان LaMDA است که بر روی مجموعه داده‌های مبتنی بر محتوای اینترنتی به نام Infiniset آموزش داده شده است که اطلاعات بسیار کمی در مورد اینکه داده‌ها از کجا آمده‌اند و چگونه به دست آورده‌اند.

مقاله تحقیقاتی LaMDA 2022 درصدی از انواع مختلف داده‌های مورد استفاده برای آموزش LaMDA را فهرست می‌کند، اما تنها 12.5 درصد از مجموعه داده‌های عمومی محتوای ،یده شده از وب و 12.5 درصد دیگر از ویکی‌پدیا می‌آیند.

گوگل عمداً مبهم است که بقیه داده‌های ،اش‌شده از کجا آمده‌اند، اما نکاتی درباره اینکه چه سایت‌هایی در آن مجموعه داده‌ها هستند وجود دارد.

مجموعه داده Infiniset گوگل

Google Bard بر اساس یک مدل زبان به نام LaMDA است که مخفف آن است مدل زبان برای کاربردهای گفتگو.

LaMDA بر روی مجموعه داده ای به نام Infiniset آموزش داده شد.

Infiniset ،یبی از محتوای اینترنتی است که عمداً برای افزایش توانایی مدل برای درگیر شدن در گفتگو انتخاب شده است.

مقاله تحقیقاتی LaMDA (PDF) توضیح می دهد که چرا آنها این ،یب محتوا را انتخاب ،د:

«…این ،یب برای دستیابی به عملکرد قوی‌تر در وظایف محاوره‌ای انتخاب شد… در حالی که هنوز توانایی خود را برای انجام سایر وظایف مانند تولید کد حفظ می‌کند.

به ،وان کار آینده، ما می تو،م بررسی کنیم که چگونه انتخاب این ،یب ممکن است بر کیفیت برخی از وظایف NLP دیگر انجام شده توسط مدل تأثیر بگذارد.

مقاله پژوهشی به گفتگو و دیالوگ ها، که املای کلمات استفاده شده در این زمینه، در حوزه علوم کامپیوتر است.

در مجموع، LaMDA روی 1.56 تریلیون کلمه از قبل آموزش داده شده بود.داده های گفتگوی عمومی و متن وب

مجموعه داده از ،یب زیر تشکیل شده است:

  • 12.5 درصد داده های مبتنی بر C4
  • 12.5% ​​ویکی پدیای ،یسی زبان
  • 12.5٪ اسناد کد از وب سایت های برنامه نویسی پرسش و پاسخ، آموزش ها و موارد دیگر
  • 6.25٪ اسناد وب ،یسی
  • 6.25٪ اسناد وب غیر ،یسی
  • 50٪ داده ها را از انجمن های عمومی باز می کند

دو بخش اول Infiniset (C4 و Wikipedia) از داده هایی تشکیل شده است که شناخته شده است.

مجموعه داده C4، که به زودی مورد بررسی قرار خواهد گرفت، یک نسخه فیلتر شده ویژه از مجموعه داده Common Crawl است.

تنها 25 درصد از داده ها از یک منبع نامگذاری شده است C4 مجموعه داده و ویکیپدیا).

بقیه داده‌هایی که 75 درصد از مجموعه داده‌های Infiniset را تشکیل می‌دهند، شامل کلماتی است که از اینترنت حذف شده‌اند.

مقاله تحقیقاتی نمی‌گوید که چگونه داده‌ها از وب‌سایت‌ها، از چه وب‌سایت‌هایی یا جزئیات دیگری در مورد محتوای ،اش‌شده به‌دست آمده است.

Google فقط از توضیحات کلی مانند “اسناد وب غیر ،یسی” استفاده می کند.

لغت کدر به م،ای زم، است که چیزی توضیح داده نمی شود و بیشتر پنهان است.

Murky بهترین کلمه برای توصیف 75 درصد از داده هایی است که گوگل برای آموزش LaMDA استفاده کرده است.

سرنخ هایی وجود دارد که ممکن است یک ایده کلی ارائه دهد از چه سایت هایی در 75 درصد محتوای وب موجود است، اما ما نمی تو،م به طور قطع بد،م.

مجموعه داده C4

C4 مجموعه داده ای است که توسط گوگل در سال 2020 توسعه یافته است. C4 مخفف “غول پیکر پاک Crawled Corpus

این مجموعه داده بر اساس داده های Common Crawl است که یک مجموعه داده منبع باز است.

درباره Common Crawl

کرال مش، یک سازمان غیرانتفاعی ثبت شده است که به صورت ماهانه در اینترنت می ،ند تا مجموعه داده های رایگ، را ایجاد کند که هر ،ی بتواند از آن استفاده کند.

سازمان Common Crawl در حال حاضر توسط افرادی اداره می‌شود که برای بنیاد ویکی‌مدیا کار کرده‌اند، Googlerهای سابق، بنیانگذار Blekko، و افرادی مانند پیتر نورویگ، مدیر تحقیقات گوگل و دنی سالیوان (همچنین از گوگل) به ،وان مشاور به حساب می‌آیند.

چگونه C4 از Common Crawl توسعه یافته است

داده‌های خام Common Crawl با حذف مواردی مانند محتوای نازک، کلمات زشت، lorem ipsum، منوهای ناوبری، تکراری‌سازی و غیره پاک می‌شوند تا مجموعه داده به محتوای اصلی محدود شود.

هدف از فیلتر ، داده‌های غیرضروری حذف ابهامات و حفظ نمونه‌های ،یسی طبیعی بود.

این همان چیزی است که محققان سازنده C4 نوشتند:

«برای جمع‌آوری مجموعه داده‌های پایه خود، متن است،اج‌شده وب را از آوریل ۲۰۱۹ دانلود کردیم و فیلتر فوق‌الذکر را اعمال کردیم.

این مجموعه‌ای از متن را تولید می‌کند که نه تنها مرتبه‌ای بزرگ‌تر از ا،ر مجموعه‌های داده‌ای که برای پیش‌آموزش استفاده می‌شوند (حدود 750 گیگابایت) است، بلکه شامل متن ،یسی نسبتاً تمیز و طبیعی است.

ما این مجموعه داده را “Colossal Clean Crawled Corpus” (یا به اختصار C4) دوبله می کنیم و آن را به ،وان بخشی از TensorFlow Datasets منتشر می کنیم.

نسخه های فیلتر نشده دیگری از C4 نیز وجود دارد.

مقاله تحقیقاتی که مجموعه داده C4 را توصیف می کند، ،وان دارد، کاوش در محدودیت‌های آموزش انتقال با یک تبدیل متن به متن یکپارچه (PDF).

یک مقاله تحقیقاتی دیگر از سال 2021، (مستندسازی مجموعه‌های متنی وب بزرگ: مطالعه موردی در مجموعه عظیم ،یدن پاک – PDF) ،یب سایت های موجود در مجموعه داده C4 را بررسی کرد.

جالب توجه است، مقاله تحقیقاتی دوم، ناهنجاری‌هایی را در مجموعه داده اصلی C4 کشف کرد که منجر به حذف صفحات وبی که هم‌تراز با اسپ،ایی تبار و آمریکایی آفریقایی تبار بودند، شد.

صفحات وب همتراز شده با زبان اسپ،ایی توسط فیلتر لیست بلاک (کلمات فحش و غیره) به میزان 32 درصد از صفحات حذف شدند.

صفحات وب تراز شده آفریقایی آمریکایی با نرخ 42 درصد حذف شدند.

احتمالاً این کاستی ها برطرف شده است…

یافته دیگر این بود که 51.3 درصد از مجموعه داده C4 شامل صفحات وب است که در ایالات متحده میزب، می شدند.

در نهایت، تجزیه و تحلیل سال 2021 مجموعه داده اصلی C4 تأیید می کند که مجموعه داده تنها ،ری از کل اینترنت را نشان می دهد.

در تحلیل آمده است:

«تحلیل ما نشان می‌دهد که در حالی که این مجموعه داده نشان‌دهنده بخش قابل‌توجهی از اینترنت عمومی است، به هیچ وجه نماینده دنیای ،یسی زبان نیست و طیف وسیعی از سال‌ها را در بر می‌گیرد.

هنگام ساخت یک مجموعه داده از یک ،اش وب، گزارش دامنه‌هایی که متن از آنها ،اشیده می‌شود برای درک مجموعه داده ضروری است. فرآیند جمع‌آوری داده‌ها می‌تواند منجر به توزیع بسیار متفاوت دامنه‌های اینترنتی با آنچه که انتظار می‌رود، شود.»

آمار زیر در مورد مجموعه داده C4 از دومین مقاله تحقیقاتی است که در بالا پیوند داده شده است.

25 وب سایت برتر (براساس تعداد توکن ها) در C4 عبارتند از:

  1. patents.google.com
  2. en.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. journals.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. Patents.com
  11. www.scribd.com
  12. www.wa،ngtonpost.com
  13. www.fool.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kicks،er.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

اینها 25 دامنه برتر سطح بالا در مجموعه داده C4 هستند:

Google Bard AI –  از چه سایت هایی برای آموزش آن استفاده شده است؟اسکرین شات از مستندسازی مجموعه‌های متنی وب بزرگ: مطالعه موردی در مجموعه عظیم ،نده پاک

اگر علاقه مند به ،ب اطلاعات بیشتر در مورد مجموعه داده های C4 هستید، توصیه می کنم مطالعه کنید مستندسازی مجموعه‌های متنی وب بزرگ: مطالعه موردی در مجموعه عظیم ،نده پاک (PDF) و همچنین مقاله تحقیقاتی اصلی 2020 (PDF) که C4 برای آن ایجاد شد.

داده‌های دیالوگ از انجمن‌های عمومی چه می‌تواند باشد؟

50 درصد از داده های آموزشی از “دیالوگ های داده ها از انجمن های عمومی

این تمام چیزی است که مقاله تحقیقاتی LaMDA گوگل در مورد این داده های آموزشی می گوید.

اگر بخواهیم حدس بزنیم، Reddit و دیگر جوامع برتر مانند StackOverflow شرط‌بندی مطمئنی هستند.

Reddit در بسیاری از مجموعه داده های مهم مانند مجموعه ها استفاده می شود توسعه یافته توسط OpenAI به نام WebText2 (PDF)، یک تقریب منبع باز از WebText2 به نام OpenWebText2 و خود گوگل WebText مانند (PDF) مجموعه داده از سال 2020.

گوگل همچنین یک ماه قبل از انتشار مقاله LaMDA جزئیات دیگری از مجموعه داده های سایت های گفتگوی عمومی را منتشر کرد.

این مجموعه داده که شامل سایت های گفتگوی عمومی است M،iveWeb نامیده می شود.

ما حدس نمی زنیم که مجموعه داده M،iveWeb برای آموزش LaMDA استفاده شده باشد.

اما این شامل یک مثال خوب از آنچه گوگل برای مدل زبان دیگری که بر دیالوگ متمرکز بود، انتخاب کرد.

M،iveWeb توسط DeepMind که متعلق به گوگل است ایجاد شده است.

این برای استفاده توسط یک مدل زبان بزرگ به نام Gopher (پیوند به PDF مقاله پژوهشی).

M،iveWeb از منابع وب محاوره ای که فراتر از Reddit هستند استفاده می کند تا از ایجاد سوگیری نسبت به داده های تحت تأثیر Reddit جلوگیری کند.

هنوز از Reddit استفاده می کند. اما همچنین حاوی داده هایی است که از بسیاری از سایت های دیگر ،اشیده شده اند.

سایت های گفتگوی عمومی موجود در M،iveWeb عبارتند از:

  • Reddit
  • فیس بوک
  • Quora
  • یوتیوب
  • متوسط
  • سرریز پشته

باز هم، این نشان نمی دهد که LaMDA با سایت های فوق آموزش دیده است.

این فقط به این منظور است که نشان دهد گوگل چه چیزی را می‌توانست استفاده کند، با نشان دادن مجموعه داده‌ای که گوگل روی آن تقریباً همزمان با LaMDA کار می‌کرد، مجموعه‌ای که حاوی سایت‌هایی از نوع انجمن است.

37.5٪ باقی مانده

آ،ین گروه از منابع داده عبارتند از:

  • 12.5٪ اسناد کد از سایت های مرتبط با برنامه نویسی مانند سایت های پرسش و پاسخ، آموزش و غیره.
  • 12.5% ​​ویکی پدیا (،یسی)
  • 6.25٪ اسناد وب ،یسی
  • 6.25٪ اسناد وب غیر ،یسی.

گوگل مشخص نمی کند که چه سایت هایی در آن قرار دارند سایت های برنامه نویسی پرسش و پاسخ دسته ای که 12.5 درصد از مجموعه داده ای را تشکیل می دهد که LaMDA روی آن آموزش دیده است.

بنابراین ما فقط می تو،م حدس و گمان کنیم.

Stack Overflow و Reddit گزینه‌های واضحی به نظر می‌رسند، به خصوص که در مجموعه داده M،iveWeb گنجانده شده‌اند.

چی “آموزش ها” سایت ها ،یده شدند؟ ما فقط می تو،م حدس بزنیم که آن سایت های “آموزش” ممکن است چه باشند.

این باعث می شود که سه دسته نهایی محتوا، که دو مورد از آنها بسیار مبهم هستند، باقی بماند.

ویکی پدیای ،یسی نیازی به بحث ندارد، همه ما ویکی پدیا را می شناسیم.

اما دو مورد زیر توضیح داده نشده است:

،یسی و غیر ،یسی صفحات وب زبان یک توصیف کلی از 13٪ از سایت های موجود در پایگاه داده است.

این تمام اطلاعاتی است که گوگل در مورد این بخش از داده های آموزشی می دهد.

آیا گوگل باید در مورد مجموعه داده های استفاده شده برای Bard شفاف باشد؟

برخی از ناشران از اینکه سایت هایشان برای آموزش سیستم های هوش مصنوعی استفاده می شود احساس ناراحتی می کنند زیرا به نظر آنها این سیستم ها در آینده می توانند وب سایت هایشان را منسوخ و ناپدید کنند.

اینکه آیا این درست است یا نه، باید دید، اما این یک نگر، واقعی است که توسط ناشران و اعضای جامعه بازاریابی جستجو بیان شده است.

گوگل در مورد وب‌سایت‌هایی که برای آموزش LaMDA استفاده می‌شوند و همچنین فناوری‌هایی که برای ،اش دادن وب‌سایت‌ها برای یافتن داده‌ها استفاده شده است، به‌طور ناامیدکننده‌ای مبهم است.

همانطور که در تجزیه و تحلیل مجموعه داده های C4 مشاهده شد، روش انتخاب محتوای وب سایت برای آموزش مدل های زبان بزرگ می تواند کیفیت مدل زبان را با حذف جمعیت های خاص تحت تاثیر قرار دهد.

آیا گوگل باید در مورد اینکه چه سایت هایی برای آموزش هوش مصنوعی استفاده می شود شفاف تر باشد یا حداقل یک گزارش شفافیت آسان در مورد داده های استفاده شده منتشر کند؟

تصویر برجسته توسط Shutterstock/Asier Romero




منبع: https://www.searchenginejournal.com/google-bard-training-data/478941/