فایل robot.txt چیست؟

تصویر robots.txt

احتمالا درک این که فایل robots.txt چیست در نگاه اول کمی دشوار به نظر برسد؛ اما برای کسی که با  ابزارهای سئو  آشنایی مختصری داشته باشد فهم این مبحث به مراتب آسان‌تر خواهد بود.

به زبان ساده robot.txt یک فایل با چند کد مشخص است که به منظور کنترل خزش ربات‌ها ساخته شده؛ یعنی چه؟

ربات‌های گوگل وقتی وارد سایت شما می‌شوند معمولا شروع می‌کنند از یک کنار تمام صفحات سایت شما را کرال می‌کنند؛ اما بعضی از صفحات نیازی به کرال شدن ندارند و اگر جلوی خزیدن ربات‌ها گرفته نشود باعث می‌شود بودجه خزش سایت کاهش پیدا کند و صفحات ارجح دیرتر ایندکس شوند. با ما همراه باشید تا در ادامه با دستورات این فایل آشنا شویم و طریقه نوشتن آن‌ها را فرا بگیریم.

اگر برای سایت کسب و کار آنلاین خود نیاز به خدمات سئو داشتید می‌توانید روی خدمات ما در آژانس دیجیتال مارکتینگ DM house حساب کنید. 

فایل robot.txt چیست؟

فایل robots.txt فایلی است که به ربات‌های موجود در موتورهای جستجو که شبانه روز در حال خزش و کرال هستند دستور می‌دهد که به کدام صفحه بروند و برای کدام صفحات خود را خسته نکنند. این فایل در واقع یک فایل متنی است که باید توسط وبمسترها و سئوکاران پر شود. برای ساماندهی وضعیت خزیده شدن سایت به واسطه ربات‌ها، ایندکس کردن صفحات و دسترسی به آن، بر اساس پروتکل Robots Exclusion Protocol برای کاربران استانداردهایی مشخص شده است که تنظیمات فایل robots.txt و لینک‌های فالو و نوفالو قسمتی از این پروتکل را در بر می‌گیرند. 

تصویر فایل robots.txt چیست

دستورات فایل robots.txt چیست؟

قبل از این که به بیان دستورات بپردازیم بهتر است با علائم دستوری که در این فایل استفاده می‌شود آشنا شوید:

* : علامت ستاره نشان دهنده این است که دستورالعمل‌ها برای تمامی ربات‌ها در نظر گرفته شده است.

/ : استفاده از علامت اسلش به معنی تمامی آدرس‌های انتخاب شده است.

$ : اشاره به تمام شدن مسیر یک URL دارد.

# : ربات‌هایی که در موتورهای جستجو هستند عباراتی را که پس از # می‌آیند را کاملا نادیده می‌گیرند؛ کامنت‌ها معمولا بعد از علامت هشتگ قرار می‌گیرند و می‌توانند پس از یک دستورالعمل یا یک خط بیایند.

به جز علائم دستوری که به آن اشاره شد عبارت‌هایی هستند که برای درک بهتر ایجاد دستور در یک  نمونه فایل robot.txt باید به خوبی آن‌ها را فراگرفت. این مفاهیم و دستورات عبارتند از: 

user-agent

دستور user-agent در واقع مدل رباتی را که باید از دستورات پیروی کند تعیین می‌کند. این دستور نمی‌تواند به صورت مستقل پیاده سازی شود و باید در کنار سه دستور دیگر یعنی دستور disallow، دستور allow و دستور crawl-delay مورد استفاده قرار بگیرد؛ به عنوان مثال در صورتی که قصد داشته باشید برای ربات‌های گوگل یک دستور مشخص کنید باید عنوان ربات‌های گوگل (googlebot) را پس از این دستور بنویسید: User-agent: googlebot و اگر می‌خواهید دستور را برای همه ربات‌ها صادر کنید همانطور که پیش از این به آن اشاره شد باید از علامت ستاره در برابر user-agent: استفاده کنید: User-agent: * googlebot.

disallow

در دستور قبل نام ربات‌ها را مشخص کردیم حالا پس از تعیین ربات‌ها نوبت آن رسیده تا دستور کلی را صادر کنیم. دستور disallow یعنی اجازه ندادن. شما به وسیله این دستور می‌توانید از خزش ربات‌ها در بعضی از صفحات جلوگیری کنید؛ یعنی اجازه دسترسی به صفحات مدنظر خود را از ربات‌‌ها سلب کنید؛ به عنوان مثال اگر می‌خواهید اجازه ورود به صفحه پیشخوان وردپرس را به خزنده‌های گوگل ندهید باید دستور زیر را پیاده سازی کنید: 

* :User-agent

/Disallow: /wp-admin

شما می‌توانید از این دستور برای صفحات متعددی استفاده کنید؛ اما نکته‌ای که باید به آن توجه داشته باشید این است که خزنده‌های گوگل نسبت به حروف بزرگ و کوچک حساس هستند و باید در دستور Disallow  عین عباراتی که در URL وجود دارد پیاده سازی شود. 

allow

allow به معنی اجازه دادن و دسترسی دادن است. این دستور دقیقا نقطه مقابل دستور Disallow است و مسیر را برای خرش ربات‌های گوگل آماده می‌کنند. از آن‌جایی که ربات‌ها به طور پیش‌فرض پس از برخورد با سایت شروع به خزیدن می‌کنند نوشتن این دستور خیلی ضروری نیست؛ اما بعضی از وبمستران به عنوان تاکید بیشتر بر روی صفحات مهم سایت از این دستور استفاده می‌کنند. طریقه نوشتن این دستور کاملا شبیه به دستور disallow  است.

crawl-delay

وقتی ربات‌ها وارد سایت می‌شوند معمولا سرعت سایت تا حدودی کاهش پیدا می‌کند، به این ترتیب معمولا از این دستور استفاده می‌شود تا سرعت لود صفحات کاهش پیدا نکند. برای نوشتن این دستور کافی است عددی را به عنوان ثانیه روبروی این دستور بنویسید و به ربات‌ها این دستور را بدهید که باید بعد از مقدار ثانیه‌ای که تعیین کرده وارد سایت شده و شروع به خزیدن کنند. این دستور روی ربات‌های گوگل بی‌تاثیر است. 

sitemap

بخش حائز اهمیتی که باید به فایل robots.txt اضافه شود سایت مپ است. سایت مپ در واقع همان نقشه سایت شما است که تمام URL های ایندکس سایت را برای ربات‌های گوگل فهرست می‌کند. وقتی که نقشه سایت‌تان را وارد فایل robots.txt می‌کنید به ربات‌ها کمک می‌کنید تا دسترسی کاملی به لینک‌های سایت شما داشته باشند. دستور اضافه کردن سایت مپ به فایل robots.txt به قرار زیر است: 

* :User-agent

/Disallow: /wp-admin

Sitemap: https://www.example.com/sitemap_index.xml

مواردی که به آن اشاره شد برای ساختن فایل‌های robots.txt ضروری است. شما می‌توانید با توجه به نیاز خود در این فایل و دستوراتی که گفته شد صفحاتی را disallow و allow کنید. در ادامه اسامی ربات‌های شاخص موتورهای جستجو را تماشاگر هستید: 

تصویر اسامی شاخص موتورهای جستجو

چرا باید برای سایت خود از فایل robots.txt استفاده کنیم؟

ربات‌های گوگل به طور معمول لینک‌هایی که در صفحات قرار داده‌ایم را دنبال می‌کنند؛ به طوری که اگر از یک سایت به سایتی دیگر لینک داده باشید ربات‌هایی که مشغول کرال سایت شما هستند آن لینک را دنبال می‌کنند و اگر سایت جدید مجهز به فایل robots.txt بود طبق دستوراتی که در آن فایل هست عمل می‌کنند و اگر سایت بدون فایل  robots.txt باشد، تمام صفحات سایت مذکور را کرال می‌کند. استفاده از فایل  robots.txt بنا به مواردی که در ادامه به آن اشاره می‌شود به درد سایت شما خواهد خورد: 

  • زمانی که صفحه تکراری روی سایت داشته باشید می‌توانید با دستور disallow در این فایل اجازه ندهید ربات‌ها صفحه تکراری را کرال کنند و از نرخ خرش بکاهند.
  • با استفاده از این فایل می‌توانید بخشی از سایت را مانند صفحات عقد قرارداد یا پیشخوان را در دسترس کاربران قرار ندهید. 
  •  اجازه ایندکس کردن فایل‌هایی مانند تصاویر و فایل‌های PDF را به ربات‌ها ندهید.
  • برای ربات‌ها زمان تاخیر در کرال کردن مشخص کنید تا زمانی که ترافیک در سایت زیاد می‌شود سرعت لود سایت پایین نیاید.

تست فایل robots.txt چگونه است؟

برای اطمینان از وجود فایل robots.txt در هاست خود می‌توانید در ادامه دامنه سایت‌ عبارت robots.txt را وارد کنید و شروع به جستجوی آن کنید؛ به این صورت:

www.YourDomain.com/robots.txt

در این روند اگر با خطایی مواجه شدید این احتمال وجود دارد که سایت شما از فایل robots.txt برخوردار نیست یا در روند نوشتن دستورات اشتباهی انجام داده‌اید؛ به این منظور برای اطمینان از عملکرد درست تنظیمات در فایل، می‌توانید به سرچ کنسول سایت مراجعه کنید و URL مورد نظر خود را مطابق تصویر زیر از بخش Choose a verified property انتخاب کنید و وارد صفحه تست فایل شوید. 

تصویر سرچ کنسول

در صفحه‌ای که در سرچ کنسول باز می‌شود محتوای فایل robots.txt برای شما نمایش داده می‎‌‌شود؛ در این مرحله باید مطابق تصویر زیر URL صفحه و ربات مربوطه را انتخاب کنید و بر روی دکمه TEST کلیک کنید. اگر نتیجه مثبت بود دکمه  TEST به ALLOWED سبز می‌شود و  در صورتی که مسدود باشد دکمه BLOCK  قرمز می‌شود. 

تصویر ارزیابی و انتخاب ربات

بهینه‌سازی فایل robots.txt برای سئو

استفاده از فایل robots.txt در بهینه سازی سئو ممکن است سبب تغییراتی شود، به این منظور بهتر است با تمام چم و خم سئو آشنا باشید تا بتوانید در این مواقع بر چالش‌ها چیره شوید.

این موارد عبارتند از:

  • فایل‌هایی که دستور disallow به آن‌ها داده شده به طور کامل خزیده نمی‌شوند؛ یعنی علاوه بر خود صفحه تمام لینک‌هایی که داخل یک فایل disallow قرار دارد نوفالو می‌شوند؛ پس اگر می‌خواهید لینک‌های داخل یک صفحه فالو باقی بمانند باید از یک روش دیگر اقدام به disallow کردن صفحه کنید. 
  • اگر از دستور disallow برای نشان ندادن اطلاعات خصوصی کاربران استفاده کرده‌اید بهتر است بدانید کار بیهوده‌ای است؛ چرا که امکان این وجود دارد که از صفحاتی دیگر به صفحه مذکور لینک داده باشید و ربات‌های خزنده به نحوی به صفحه disallow شده بروند و آن را ایندکس کنند.
  • اطلاعات فایل robots.txt سایت شما برای یک روز در کش در موتورهای جستجو ذخیره می‌مانند؛ از این رو اگر محتوای فایل را تغییر داده‌اید و می‌خواهید موتورهای جستجو به سرعت از این تغییرات باخبر شوند بهتر است فایل را دوباره در سرچ کنسول گوگل بارگذاری کنید.

مقالات اخیر

دیدگاه‌ خود را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

به بالای صفحه بردن