واترمارک ChatGPT چگونه کار می کند و چرا می توان آن را شکست داد


ChatGPT از OpenAI راهی را برای ایجاد خودکار محتوا معرفی کرد، اما برنامه‌هایی برای معرفی ویژگی واترمارکینگ برای آسان‌تر ، تشخیص آن، برخی افراد را عصبی می‌کند. این نحوه کار واترمارک ChatGPT است و چرا ممکن است راهی برای ش،ت آن وجود داشته باشد.

ChatGPT ابزاری باورن،ی است که ناشران آنلاین، وابسته ها و سئوکاران به طور همزمان آن را دوست دارند و از آن می ترسند.

برخی از بازاریابان آن را دوست دارند زیرا در حال کشف راه‌های جدیدی برای استفاده از آن برای تولید خلاصه محتوا، طرح‌های کلی و مقالات پیچیده هستند.

ناشران آنلاین از احتمال هجوم محتوای هوش مصنوعی به نتایج جستجو و جایگزینی مقالات تخصصی نوشته شده توسط انسان می ترسند.

در نتیجه، اخبار مربوط به ویژگی واترمارکینگ که تشخیص محتوای نوشته شده توسط ChatGPT را باز می کند نیز با نگر، و امید پیش بینی می شود.

واترمارک رمزنگاری

واترمارک یک علامت نیمه شفاف (آرم یا متن) است که بر روی یک تصویر تعبیه شده است. واترمارک نشان می دهد که نویسنده اصلی اثر کیست.

تا حد زیادی در ع، ها و به طور فزاینده ای در فیلم ها دیده می شود.

واترمارک ، متن در ChatGPT شامل رمزنگاری به شکل تعبیه الگوی کلمات، حروف و نقطه گذاری در قالب یک کد مخفی است.

اسکات آرونسون و واترمارکینگ ChatGPT

یک دانشمند کامپیوتر با نفوذ به نام اسکات آرونسون در ژوئن 2022 توسط OpenAI استخدام شد تا روی ایمنی و تراز هوش مصنوعی کار کند.

ایمنی هوش مصنوعی یک زمینه تحقیقاتی است که به مطالعه راه هایی می پردازد که هوش مصنوعی ممکن است برای انسان ها مضر باشد و راه هایی برای جلوگیری از این نوع اختلالات منفی ایجاد کند.

مجله علمی Distill، شامل نویسندگان وابسته به OpenAI، ایمنی هوش مصنوعی را تعریف می کند مثل این:

هدف از ایمنی بلندمدت هوش مصنوعی (AI) این است که اطمینان حاصل شود که سیستم‌های هوش مصنوعی پیشرفته به‌طور قابل اعتمادی با ارزش‌های انس، همسو هستند – اینکه آنها به‌طور قابل اعتماد کارهایی را انجام می‌دهند که مردم می‌خواهند انجام دهند.

AI Alignment حوزه هوش مصنوعی است که با اطمینان از همسویی هوش مصنوعی با اه، مورد نظر مرتبط است.

یک مدل زبان بزرگ (LLM) مانند ChatGPT می تواند به گونه ای مورد استفاده قرار گیرد که ممکن است مغایر با اه، باشد تراز هوش مصنوعی همانطور که توسط OpenAI تعریف شده استی،ی ایجاد هوش مصنوعی که به نفع بشریت باشد.

بر این اساس، دلیل واترمارک، جلوگیری از سوء استفاده از هوش مصنوعی به گونه ای است که به بشریت آسیب برساند.

آرونسون دلیل واترمارک ، ،وجی ChatGPT را توضیح داد:

بدیهی است که این می تواند برای جلوگیری از سرقت علمی آکادمیک مفید باشد، اما به ،وان مثال، تولید انبوه تبلیغات…

واترمارکینگ ChatGPT چگونه کار می کند؟

واترمارک ChatGPT سیستمی است که یک الگوی آماری، یک کد را در انتخاب کلمات و حتی علائم نگارشی جاسازی می کند.

محتوای ایجاد شده توسط هوش مصنوعی با الگوی نسبتاً قابل پیش بینی انتخاب کلمه تولید می شود.

کلمات نوشته شده توسط انسان و هوش مصنوعی از یک الگوی آماری پیروی می کنند.

تغییر الگوی کلمات استفاده شده در محتوای تولید شده راهی برای “واترمارک ،” متن است تا تشخیص دهد که آیا این متن محصول تولید کننده متن هوش مصنوعی است یا خیر.

ترفندی که واترمارک ، محتوای هوش مصنوعی را غیرقابل تشخیص می‌کند این است که توزیع کلمات همچنان ظاهری تصادفی شبیه به متن معمولی تولید شده توسط هوش مصنوعی دارد.

از این به ،وان توزیع شبه تصادفی کلمات یاد می شود.

شبه تصادفی یک سری تصادفی آماری از کلمات یا اعداد است که در واقع تصادفی نیستند.

واترمارک ChatGPT در حال حاضر استفاده نمی شود. با این حال اسکات آرونسون در OpenAI در سابقه اعلام کرده است که برنامه ریزی شده است.

در حال حاضر ChatGPT در پیش نمایش است، که به OpenAI اجازه می دهد تا از طریق استفاده در دنیای واقعی “ناهمترازی” را کشف کند.

احتمالاً واترمارکینگ ممکن است در نسخه نهایی ChatGPT یا زودتر از آن معرفی شود.

اسکات آرونسون نوشت در مورد نحوه عملکرد واترمارکینگ:

پروژه اصلی من تاکنون ابزاری برای واترمارک ، ،وجی های یک مدل متنی مانند GPT بوده است.

اساساً، هر زمان که GPT متن طول، تولید می‌کند، ما می‌خواهیم یک سیگنال مخفی غیرقابل توجه در انتخاب کلمات آن وجود داشته باشد، که می‌تو،د بعداً برای اثبات اینکه، بله، از GPT آمده است، استفاده کنید.

آرونسون نحوه عملکرد واترمارک ChatGPT را بیشتر توضیح داد. اما ابتدا، درک مفهوم توکنیزاسیون بسیار مهم است.

توکن‌سازی مرحله‌ای است که در پردازش زبان طبیعی اتفاق می‌افتد، جایی که ماشین کلمات موجود در یک سند را می‌گیرد و آنها را به واحدهای م،ایی مانند کلمات و جملات تجزیه می‌کند.

Tokenization متن را به شکل ساختار یافته ای تغییر می دهد که می تواند در یادگیری ماشین استفاده شود.

فرآیند تولید متن به این صورت است که ماشین حدس می‌زند کدام توکن بر اساس توکن قبلی بعدی می‌آید.

این کار با یک تابع ریاضی انجام می شود که احتمال اینکه توکن بعدی چه خواهد بود را تعیین می کند که به آن توزیع احتمال می گویند.

کلمه بعدی پیش بینی می شود اما تصادفی است.

خود واترمارکینگ همان چیزی است که هارون آن را شبه تصادفی توصیف می کند، به این م،ا که یک دلیل ریاضی برای یک کلمه یا علامت نگارشی خاص وجود دارد، اما هنوز از نظر آماری تصادفی است.

در اینجا توضیح فنی واترمارکینگ GPT آمده است:

برای GPT، هر ورودی و ،وجی رشته‌ای از نشانه‌ها است، که می‌تواند کلمات باشد، اما همچنین علائم نگارشی، بخش‌هایی از کلمات یا بیشتر – در مجموع حدود 100000 نشانه وجود دارد.

در هسته خود، GPT دائماً یک توزیع احتمال روی توکن بعدی ایجاد می کند که مشروط به رشته توکن های قبلی است.

پس از اینکه شبکه عصبی توزیع را تولید کرد، سرور OpenAI در واقع یک توکن را با توجه به آن توزیع نمونه‌برداری می‌کند – یا نسخه‌ای تغییر یافته از توزیع، بسته به پارامتری به نام دما.

با این حال، تا زم، که دما غیرصفر باشد، معمولاً در انتخاب نشانه بعدی تصادفی وجود دارد: می‌تو،د بارها و بارها با همان اعلان اجرا کنید و هر بار یک تکمیل متفاوت (ی،ی رشته‌ای از نشانه‌های ،وجی) دریافت کنید. .

بنابراین برای واترمارک ،، به جای انتخاب تصادفی توکن بعدی، ایده انتخاب آن به صورت شبه تصادفی با استفاده از یک تابع شبه تصادفی رمزنگاری است که کلید آن فقط برای OpenAI شناخته شده است.

واترمارک برای ،، که متن را می خوانند کاملاً طبیعی به نظر می رسد زیرا انتخاب کلمات از تصادفی بودن همه کلمات دیگر تقلید می کند.

اما این تصادفی بودن حاوی یک سوگیری است که فقط توسط شخصی که کلید رمزگشایی آن را دارد می تواند شناسایی شود.

این توضیح فنی است:

برای نشان دادن، در مورد خاصی که GPT دارای یک دسته از توکن‌های ممکن بود که به همان اندازه محتمل بود، شما به سادگی می‌تو،د هر توکنی را انتخاب کنید که g را به حدا،ر برساند. این انتخاب برای ،ی که کلید را نمی‌دانست به طور یکنواخت تصادفی به نظر می‌رسد، اما ،ی که کلید را می‌دانست می‌تواند بعداً g را روی همه n گرم جمع کند و ببیند که به طور غیرعادی بزرگ است.

واترمارکینگ یک راه حل برای حفظ حریم خصوصی است

من بحث‌هایی را در رسانه‌های اجتماعی دیده‌ام که در آن برخی از افراد پیشنهاد می‌،د که OpenAI می‌تواند از هر ،وجی‌ای که تولید می‌کند، رکوردی داشته باشد و از آن برای شناسایی استفاده کند.

اسکات آرونسون تأیید می کند که OpenAI می تواند این کار را انجام دهد اما انجام این کار باعث ایجاد یک مشکل حریم خصوصی می شود. استثناء احتمالی مربوط به وضعیت اجرای قانون است که وی توضیح بیشتری در مورد آن نداد.

نحوه تشخیص واترمارکینگ ChatGPT یا GPT

چیز جالبی که به نظر می رسد هنوز به خوبی شناخته نشده است این است که اسکات آرونسون خاطرنشان کرد که راهی برای ش،ت دادن واترمارک وجود دارد.

نگفت که هست ممکن است برای ش،ت دادن علامت گذاری، او گفت که آن را می توان ش،ت بخورد

اکنون، همه اینها را می توان با تلاش کافی ش،ت داد.

به ،وان مثال، اگر از هوش مصنوعی دیگری برای بازنویسی ،وجی GPT استفاده کرده باشید، بسیار خوب، ما قادر به تشخیص آن نخواهیم بود.

به نظر می‌رسد که می‌توان این واترمارکینگ را حداقل در ماه نوامبر که اظهارات فوق بیان کرد، ش،ت داد.

هیچ نشانه ای مبنی بر اینکه واترمارکینگ در حال حاضر در حال استفاده است وجود ندارد. اما هنگامی که استفاده می شود، ممکن است ناشناخته باشد که آیا این حفره بسته شده است یا خیر.

نقل قول

اسکات آرونسون را بخو،د پست وبلاگ اینجا.

تصویر برجسته توسط Shutterstock/RealPeopleStudio




منبع: https://www.searchenginejournal.com/chatgpt-watermark/475366/