بازیابی اطلاعات: مقدمه ای برای سئوکاران


هنگامی که ما در مورد بازیابی اطلاعات صحبت می کنیم، به ،وان متخصصان سئو، ما تمایل داریم به شدت بر مرحله جمع آوری اطلاعات – ،یدن – تمرکز کنیم.

در طول این مرحله، یک موتور جستجو URL هایی را که به آنها دسترسی دارد (حجم و وسعت بسته به عوامل دیگری که ما به صورت محاوره ای به ،وان بودجه ،یدن از آن یاد می کنیم) را کشف کرده و می ،ند.

مرحله ،یدن چیزی نیست که ما در این مقاله روی آن تمرکز کنیم، و همچنین قرار نیست در مورد نحوه عملکرد نمایه سازی به طور عمیق توضیح دهم.

اگر می خواهید در مورد ،یدن و نمایه سازی بیشتر بخو،د، می تو،د این کار را در اینجا انجام دهید.

در این مقاله، برخی از اصول بازیابی اطلاعات را پوشش خواهم داد، که در صورت درک، می تواند به شما در بهینه سازی بهتر صفحات وب برای رتبه بندی عملکرد کمک کند.

همچنین می تواند به شما در تجزیه و تحلیل بهتر تغییرات الگوریتم و به روز رس، صفحه نتایج موتور جستجو (SERP) کمک کند.

برای درک و درک اینکه چگونه موتورهای جستجوی امروزی بازیابی اطلاعات عملی را پردازش می کنند، باید تاریخچه بازیابی اطلاعات در اینترنت را درک کنیم – به ویژه اینکه چگونه با فرآیندهای موتور جستجو ارتباط دارد.

با توجه به بازیابی اطلاعات دیجیتال و فناوری های بنیادی که توسط موتورهای جستجو پذیرفته شده است، می تو،م به دهه 1960 و دانشگاه کرنل برگردیم، جایی که جرارد سالتون تیمی را رهبری کرد که سیستم بازیابی اطلاعات SMART را توسعه داد.

سالتون با توسعه و استفاده از مدل‌سازی فضای برداری برای بازیابی اطلاعات اعتبار دارد.

وکتور مدل های فضایی

مدل های فضای برداری هستند در جامعه علم داده پذیرفته شده است به ،وان یک مک،سم کلیدی در نحوه “جستجو” موتورهای جستجو و پلتفرم هایی مانند آمازون توصیه هایی را ارائه می دهند.

این روش به یک پردازنده مانند Google اجازه می دهد تا اسناد مختلف را با پرس و جوها در زم، که پرس و جوها به صورت بردار نمایش داده می شوند، مقایسه کند.

گوگل در اسناد خود به این موضوع به ،وان جستجوی شباهت برداری یا «جستجوی نزدیکترین همسایه» اشاره کرده است که توسط دونالد کنوت در سال 1973 تعریف شد.

در جستجوی کلمات کلیدی سنتی، پردازنده از کلمات کلیدی، بر،ب ها، بر،ب ها و غیره در پایگاه داده برای یافتن محتوای مرتبط استفاده می کند.

این کاملاً محدود است، زیرا فیلد جستجو را در پایگاه داده محدود می کند زیرا پاسخ باینری بله یا خیر است. این روش همچنین می تواند در هنگام پردازش مترادف ها و موجودیت های مرتبط محدود شود.

هر چه دو موجودیت از نظر مجاورت نزدیکتر باشند، فضای کمتری بین بردارها وجود دارد و از نظر تشابه/دقت بالاتری در نظر گرفته می‌شود.

برای مبارزه با این موضوع و ارائه نتایج برای جستجوها با چندین تفسیر رایج، Google از شباهت برداری برای گره زدن مع،، مترادف‌ها و موجودیت‌های مختلف با هم استفاده می‌کند.

یک مثال خوب از آن زم، است که شما نام من را در گوگل جستجو می کنید.

گوگل، [dan taylor] می تواند:

  • من، شخص SEO.
  • یک رو،مه نگار ورزشی بریت،ایی
  • خبرنگار اخبار محلی
  • ستوان دن تیلور از ،ت گامپ.
  • عکاس.
  • یک مدل ساز

با استفاده از جستجوی کلیدواژه سنتی با معیارهای بله/خیر باینری، این گسترش نتایج را در صفحه اول دریافت نمی‌کنید.

با جستجوی برداری، پردازنده می تواند صفحه نتایج جستجو را بر اساس شباهت و روابط بین موجودیت ها و بردارهای مختلف در پایگاه داده ایجاد کند.

می تو،د وبلاگ شرکت را بخو،د اینجا برای ،ب اطلاعات بیشتر در مورد نحوه استفاده Google از این مورد در چندین محصول.

تطبیق شباهت

هنگام مقایسه اسناد به این روش، موتورهای جستجو احتمالاً از ،یبی از Query Term Weighting (QTW) و ضریب تشابه استفاده می کنند.

QTW وزنی را برای عبارات خاص در پرس و جو اعمال می کند، که سپس برای مح،ه ضریب شباهت با استفاده از مدل فضای برداری و با استفاده از ضریب ،ینوس مح،ه می شود.

شباهت ،ینوس شباهت بین دو بردار را اندازه گیری می کند و در تحلیل متن، برای اندازه گیری شباهت سند استفاده می شود.

این یک مک،سم محتمل در نحوه تعیین محتوای تکراری و ارزش پیشنهادی توسط موتورهای جستجو در یک وب سایت است.

،ینوس بین -1 و 1 اندازه گیری می شود.

به طور سنتی در نمودار شباهت ،ینوس، بین 0 و 1 اندازه گیری می شود که 0 حدا،ر عدم تشابه یا متعامد و 1 حدا،ر شباهت است.

نقش یک شاخص

در سئو، ما در مورد مشکلات ایند،، نمایه سازی و نمایه سازی زیاد صحبت می کنیم – اما به طور فعال در مورد نقش ایند، در موتورهای جستجو صحبت نمی کنیم.

هدف از ایند، ذخیره اطلاعات است که گوگل از طریق سیستم های نمایه سازی لایه ای و ،ده ها انجام می دهد تا به ،وان یک م،ن داده عمل کند.

به این دلیل که دسترسی از راه دور به صفحات وب، تجزیه محتوای آنها، امتیاز دهی و سپس ارائه یک SERP در زمان واقعی، غیر واقعی، غیرمنفعت و تجربه کاربر نهایی ضعیف است.

به طور معمول، یک فهرست موتور جستجوی مدرن حاوی یک کپی کامل از هر سند نیست، بلکه بیشتر یک پایگاه داده از نکات کلیدی و داده‌هایی است که نشانه گذاری شده است. سپس خود سند در حافظه پنهان دیگری زندگی می کند.

در حالی که ما دقیقاً نمی د،م که موتورهای جستجو مانند گوگل به ،وان بخشی از سیستم بازیابی اطلاعات خود از چه مراحلی عبور می کنند، آنها احتمالاً مراحل زیر را خواهند داشت:

  • تحلیل ساختاری – قالب و ساختار متن، لیست ها، جداول، تصاویر و غیره
  • ساقه – کاهش تغییرات یک کلمه به ریشه آن. به ،وان مثال، “جستجو” و “جستجو” به “جستجو” کاهش می یابد.
  • تحلیل واژگ، – تبدیل سند به لیستی از کلمات و سپس تجزیه برای شناسایی عوامل مهم مانند تاریخ، نویسنده و تعداد اصطلاح. توجه داشته باشید، این همان TF * IDF نیست.

همچنین انتظار داریم در این مرحله، ملاحظات و نکات داده دیگری در نظر گرفته شوند، مانند بک لینک ها، نوع منبع، اینکه آیا سند از آستانه کیفیت برخوردار است یا نه، پیوند داخلی، محتوای اصلی/محتوای پشتیب، و غیره.

دقت و پس از بازیابی

در سال 2016، پل هار بینش خوبی در مورد چگونگی اندازه گیری «موفقیت» فرآیند خود توسط گوگل و همچنین نحوه اعمال تنظیمات پس از بازیابی ارائه داد.

می تو،د ارائه او را تماشا کنید اینجا.

در ا،ر سیستم‌های بازیابی اطلاعات، دو معیار اصلی وجود دارد که نشان می‌دهد سیستم چقدر در بازگرداندن یک مجموعه نتایج خوب موفق است.

اینها دقت و یادآوری هستند.

دقت، درستی

تعداد اسناد برگشتی که مرتبط هستند در مقابل تعداد کل اسناد برگشتی.

بسیاری از وب‌سایت‌ها طی ماه‌های اخیر در تعداد کل کلمات کلیدی که رتبه‌بندی کرده‌اند کاهش یافته‌اند (مانند کلمات کلیدی عجیب و غریب و حاشیه‌ای که احتمالاً در رتبه‌بندی آنها حقی نداشته‌اند). ما می تو،م حدس بزنیم که موتورهای جستجو در حال اصلاح سیستم بازیابی اطلاعات برای دقت بیشتر هستند.

به خاطر آوردن

تعداد اسناد مربوطه در مقابل تعداد کل اسناد مربوطه برگشتی.

موتورهای جستجو بیشتر به سمت دقت نسبت به یادآوری می روند، زیرا دقت منجر به صفحات نتایج جستجوی بهتر و رضایت بیشتر کاربر می شود. همچنین در برگرداندن اسناد بیشتر و پردازش داده های بیشتر از آنچه لازم است، سیستم فشرده تر است.

نتیجه

عمل بازیابی اطلاعات به دلیل فرمول ها و مک،سم های مختلف مورد استفاده می تواند پیچیده باشد.

مثلا:

از آنجایی که ما به طور کامل نمی‌د،م یا درک نمی‌کنیم که این فرآیند در موتورهای جستجو چگونه کار می‌کند، باید بیشتر روی اصول و دستورالعمل‌های ارائه‌شده تمرکز کنیم در مقابل تلاش برای بازی معیارهایی مانند TF*IDF که ممکن است مورد استفاده قرار گیرند یا ممکن است استفاده نشوند (و از نظر وزن متفاوت هستند. در نتیجه کلی).

منابع بیشتر:


تصویر ویژه: BRO.vector/Shutterstock




منبع: https://www.searchenginejournal.com/information-retrieval-seo/464164/