احتمالا درک این که فایل robots.txt چیست در نگاه اول کمی دشوار به نظر برسد؛ اما برای کسی که با ابزارهای سئو آشنایی مختصری داشته باشد فهم این مبحث به مراتب آسانتر خواهد بود.
به زبان ساده robot.txt یک فایل با چند کد مشخص است که به منظور کنترل خزش رباتها ساخته شده؛ یعنی چه؟
رباتهای گوگل وقتی وارد سایت شما میشوند معمولا شروع میکنند از یک کنار تمام صفحات سایت شما را کرال میکنند؛ اما بعضی از صفحات نیازی به کرال شدن ندارند و اگر جلوی خزیدن رباتها گرفته نشود باعث میشود بودجه خزش سایت کاهش پیدا کند و صفحات ارجح دیرتر ایندکس شوند. با ما همراه باشید تا در ادامه با دستورات این فایل آشنا شویم و طریقه نوشتن آنها را فرا بگیریم.
اگر برای سایت کسب و کار آنلاین خود نیاز به خدمات سئو داشتید میتوانید روی خدمات ما در آژانس دیجیتال مارکتینگ DM house حساب کنید.
فایل robot.txt چیست؟
فایل robots.txt فایلی است که به رباتهای موجود در موتورهای جستجو که شبانه روز در حال خزش و کرال هستند دستور میدهد که به کدام صفحه بروند و برای کدام صفحات خود را خسته نکنند. این فایل در واقع یک فایل متنی است که باید توسط وبمسترها و سئوکاران پر شود. برای ساماندهی وضعیت خزیده شدن سایت به واسطه رباتها، ایندکس کردن صفحات و دسترسی به آن، بر اساس پروتکل Robots Exclusion Protocol برای کاربران استانداردهایی مشخص شده است که تنظیمات فایل robots.txt و لینکهای فالو و نوفالو قسمتی از این پروتکل را در بر میگیرند.
دستورات فایل robots.txt چیست؟
قبل از این که به بیان دستورات بپردازیم بهتر است با علائم دستوری که در این فایل استفاده میشود آشنا شوید:
* : علامت ستاره نشان دهنده این است که دستورالعملها برای تمامی رباتها در نظر گرفته شده است.
/ : استفاده از علامت اسلش به معنی تمامی آدرسهای انتخاب شده است.
$ : اشاره به تمام شدن مسیر یک URL دارد.
# : رباتهایی که در موتورهای جستجو هستند عباراتی را که پس از # میآیند را کاملا نادیده میگیرند؛ کامنتها معمولا بعد از علامت هشتگ قرار میگیرند و میتوانند پس از یک دستورالعمل یا یک خط بیایند.
به جز علائم دستوری که به آن اشاره شد عبارتهایی هستند که برای درک بهتر ایجاد دستور در یک نمونه فایل robot.txt باید به خوبی آنها را فراگرفت. این مفاهیم و دستورات عبارتند از:
user-agent
دستور user-agent در واقع مدل رباتی را که باید از دستورات پیروی کند تعیین میکند. این دستور نمیتواند به صورت مستقل پیاده سازی شود و باید در کنار سه دستور دیگر یعنی دستور disallow، دستور allow و دستور crawl-delay مورد استفاده قرار بگیرد؛ به عنوان مثال در صورتی که قصد داشته باشید برای رباتهای گوگل یک دستور مشخص کنید باید عنوان رباتهای گوگل (googlebot) را پس از این دستور بنویسید: User-agent: googlebot و اگر میخواهید دستور را برای همه رباتها صادر کنید همانطور که پیش از این به آن اشاره شد باید از علامت ستاره در برابر user-agent: استفاده کنید: User-agent: * googlebot.
disallow
در دستور قبل نام رباتها را مشخص کردیم حالا پس از تعیین رباتها نوبت آن رسیده تا دستور کلی را صادر کنیم. دستور disallow یعنی اجازه ندادن. شما به وسیله این دستور میتوانید از خزش رباتها در بعضی از صفحات جلوگیری کنید؛ یعنی اجازه دسترسی به صفحات مدنظر خود را از رباتها سلب کنید؛ به عنوان مثال اگر میخواهید اجازه ورود به صفحه پیشخوان وردپرس را به خزندههای گوگل ندهید باید دستور زیر را پیاده سازی کنید:
* :User-agent
/Disallow: /wp-admin
شما میتوانید از این دستور برای صفحات متعددی استفاده کنید؛ اما نکتهای که باید به آن توجه داشته باشید این است که خزندههای گوگل نسبت به حروف بزرگ و کوچک حساس هستند و باید در دستور Disallow عین عباراتی که در URL وجود دارد پیاده سازی شود.
allow
allow به معنی اجازه دادن و دسترسی دادن است. این دستور دقیقا نقطه مقابل دستور Disallow است و مسیر را برای خرش رباتهای گوگل آماده میکنند. از آنجایی که رباتها به طور پیشفرض پس از برخورد با سایت شروع به خزیدن میکنند نوشتن این دستور خیلی ضروری نیست؛ اما بعضی از وبمستران به عنوان تاکید بیشتر بر روی صفحات مهم سایت از این دستور استفاده میکنند. طریقه نوشتن این دستور کاملا شبیه به دستور disallow است.
crawl-delay
وقتی رباتها وارد سایت میشوند معمولا سرعت سایت تا حدودی کاهش پیدا میکند، به این ترتیب معمولا از این دستور استفاده میشود تا سرعت لود صفحات کاهش پیدا نکند. برای نوشتن این دستور کافی است عددی را به عنوان ثانیه روبروی این دستور بنویسید و به رباتها این دستور را بدهید که باید بعد از مقدار ثانیهای که تعیین کرده وارد سایت شده و شروع به خزیدن کنند. این دستور روی رباتهای گوگل بیتاثیر است.
sitemap
بخش حائز اهمیتی که باید به فایل robots.txt اضافه شود سایت مپ است. سایت مپ در واقع همان نقشه سایت شما است که تمام URL های ایندکس سایت را برای رباتهای گوگل فهرست میکند. وقتی که نقشه سایتتان را وارد فایل robots.txt میکنید به رباتها کمک میکنید تا دسترسی کاملی به لینکهای سایت شما داشته باشند. دستور اضافه کردن سایت مپ به فایل robots.txt به قرار زیر است:
* :User-agent
/Disallow: /wp-admin
Sitemap: https://www.example.com/sitemap_index.xml
مواردی که به آن اشاره شد برای ساختن فایلهای robots.txt ضروری است. شما میتوانید با توجه به نیاز خود در این فایل و دستوراتی که گفته شد صفحاتی را disallow و allow کنید. در ادامه اسامی رباتهای شاخص موتورهای جستجو را تماشاگر هستید:
چرا باید برای سایت خود از فایل robots.txt استفاده کنیم؟
رباتهای گوگل به طور معمول لینکهایی که در صفحات قرار دادهایم را دنبال میکنند؛ به طوری که اگر از یک سایت به سایتی دیگر لینک داده باشید رباتهایی که مشغول کرال سایت شما هستند آن لینک را دنبال میکنند و اگر سایت جدید مجهز به فایل robots.txt بود طبق دستوراتی که در آن فایل هست عمل میکنند و اگر سایت بدون فایل robots.txt باشد، تمام صفحات سایت مذکور را کرال میکند. استفاده از فایل robots.txt بنا به مواردی که در ادامه به آن اشاره میشود به درد سایت شما خواهد خورد:
- زمانی که صفحه تکراری روی سایت داشته باشید میتوانید با دستور disallow در این فایل اجازه ندهید رباتها صفحه تکراری را کرال کنند و از نرخ خرش بکاهند.
- با استفاده از این فایل میتوانید بخشی از سایت را مانند صفحات عقد قرارداد یا پیشخوان را در دسترس کاربران قرار ندهید.
- اجازه ایندکس کردن فایلهایی مانند تصاویر و فایلهای PDF را به رباتها ندهید.
- برای رباتها زمان تاخیر در کرال کردن مشخص کنید تا زمانی که ترافیک در سایت زیاد میشود سرعت لود سایت پایین نیاید.
تست فایل robots.txt چگونه است؟
برای اطمینان از وجود فایل robots.txt در هاست خود میتوانید در ادامه دامنه سایت عبارت robots.txt را وارد کنید و شروع به جستجوی آن کنید؛ به این صورت:
در این روند اگر با خطایی مواجه شدید این احتمال وجود دارد که سایت شما از فایل robots.txt برخوردار نیست یا در روند نوشتن دستورات اشتباهی انجام دادهاید؛ به این منظور برای اطمینان از عملکرد درست تنظیمات در فایل، میتوانید به سرچ کنسول سایت مراجعه کنید و URL مورد نظر خود را مطابق تصویر زیر از بخش Choose a verified property انتخاب کنید و وارد صفحه تست فایل شوید.
در صفحهای که در سرچ کنسول باز میشود محتوای فایل robots.txt برای شما نمایش داده میشود؛ در این مرحله باید مطابق تصویر زیر URL صفحه و ربات مربوطه را انتخاب کنید و بر روی دکمه TEST کلیک کنید. اگر نتیجه مثبت بود دکمه TEST به ALLOWED سبز میشود و در صورتی که مسدود باشد دکمه BLOCK قرمز میشود.
بهینهسازی فایل robots.txt برای سئو
استفاده از فایل robots.txt در بهینه سازی سئو ممکن است سبب تغییراتی شود، به این منظور بهتر است با تمام چم و خم سئو آشنا باشید تا بتوانید در این مواقع بر چالشها چیره شوید.
این موارد عبارتند از:
- فایلهایی که دستور disallow به آنها داده شده به طور کامل خزیده نمیشوند؛ یعنی علاوه بر خود صفحه تمام لینکهایی که داخل یک فایل disallow قرار دارد نوفالو میشوند؛ پس اگر میخواهید لینکهای داخل یک صفحه فالو باقی بمانند باید از یک روش دیگر اقدام به disallow کردن صفحه کنید.
- اگر از دستور disallow برای نشان ندادن اطلاعات خصوصی کاربران استفاده کردهاید بهتر است بدانید کار بیهودهای است؛ چرا که امکان این وجود دارد که از صفحاتی دیگر به صفحه مذکور لینک داده باشید و رباتهای خزنده به نحوی به صفحه disallow شده بروند و آن را ایندکس کنند.
- اطلاعات فایل robots.txt سایت شما برای یک روز در کش در موتورهای جستجو ذخیره میمانند؛ از این رو اگر محتوای فایل را تغییر دادهاید و میخواهید موتورهای جستجو به سرعت از این تغییرات باخبر شوند بهتر است فایل را دوباره در سرچ کنسول گوگل بارگذاری کنید.