سئو

Robots txt چیست؟ روش استفاده از فایل Robots.txt

nila_seo_two
1404/08/04
بدون دیدگاه

ربات‌ها (که با نام خزنده‌ها یا کراولرها نیز شناخته می‌شوند)، به طور مداوم صفحات وب را بررسی می‌کنند تا محتوای جدید را شناسایی و ایندکس کنند. فایل robots.txt یک فایل متنی ساده است که به ربات‌های خزنده دستور می‌دهد کدام بخش‌های سایت را می‌توانند بررسی کنند و از دسترسی به کدام بخش‌ها باید خودداری کنند. در واقع، با استفاده از این فایل شما قوانین دسترسی ربات‌ها به بخش‌های مختلف سایت خود را مشخص می‌کنید.

در این مقاله از آژانس دیجیتال مارکتینگ نیلا، به زبان ساده یاد می گیریم که فایل Robots txt چیست، چگونه کار می کند و چطور می توانیم از آن برای بهبود سئو و مدیریت بهتر وب سایت خودمان استفاده کنیم. این فایل یکی از ابزارهای استراتژیک در مدیریت سئو تکنیکال است و تنظیم آگاهانه آن، قدمی مهم در مسیر بهینه سازی فنی سایت شماست.

فایل Robots txt چیست؟

فایل Robots.txt یک فایل متنی ساده است که در پوشه ی اصلی سایت قرار می گیرد و موتورهای جستجو هنگام ورود به سایت، ابتدا آن را بررسی می کنند. این فایل با پسوند .txt ذخیره می شود و هدفش این است که به ربات های موتورهای جستجو بگوید کدام بخش های سایت را بررسی کنند و کدام بخش ها را نادیده بگیرند. به بیان ساده تر، این فایل مثل یک نقشه راه عمل می کند که مسیر درست را به ربات ها نشان می دهد.

هر دستور در این فایل مشخص می کند که چه نوع رباتی می تواند به چه آدرس هایی از سایت دسترسی داشته باشد. به عنوان مثال، می توان تعیین کرد که ربات گوگل اجازه ی دیدن صفحه ی مدیریت سایت را نداشته باشد یا بخش آزمایشی سایت از نتایج جستجو دور بماند.

فایل Robots.txt بر اساس مجموعه قوانینی به نام پروتکل ربات ها ساخته شده است. این پروتکل یک استاندارد جهانی برای کنترل رفتار خزنده های موتورهای جستجو است. با این حال ربات های معتبر مثل گوگل، بینگ و یاندکس به آن احترام می گذارند اما ربات های ناشناس یا مخرب ممکن است این دستورات را نادیده بگیرند.

This file helps to control bots that crawl your site by specifying the directories and files on your web server that they cannot visit, i.e., sections that should be excluded from crawling.

این فایل به شما کمک می کند کنترل کنید ربات های موتورهای جستجو به کدام بخش های سایتتان وارد شوند و به کدام بخش ها اجازه دسترسی نداشته باشند. به عبارت دیگر، با این فایل می توانید مشخص کنید چه قسمت هایی از سایت نباید بررسی یا ایندکس شوند.

منبع: google Search Central

نحوه عملکرد ربات های گوگل

ربات های گوگل نرم افزارهایی هستند که به صورت خودکار در فضای اینترنت حرکت می کنند تا صفحات جدید را پیدا کنند یا تغییرات صفحات قدیمی را شناسایی کنند. این ربات ها شبانه روز در حال گشت و گذار در سایت ها هستند تا داده های لازم را برای فهرست نتایج جستجو جمع آوری کنند.

در واقع ربات های گوگل همان بازدیدکنندگان فنی سایت شما هستند که هدفشان دیدن ظاهر سایت نیست، بلکه کدها، محتوا و ساختار آن را بررسی می کنند. آن ها محتوای صفحات را می خوانند، لینک ها را دنبال می کنند و اطلاعات به دست آمده را به سرورهای گوگل ارسال می کنند تا در نتایج جستجو ذخیره شود:

۱. از طریق لینک ها (خزش عنکبوتی)

اصلی ترین راهی که ربات ها صفحات جدید را کشف می کنند، لینک ها هستند. وقتی ربات وارد یکی از صفحات سایت شما می شود، همه ی لینک های داخلی و خارجی را پیدا می کند. سپس با دنبال کردن هر لینک، به صفحات دیگر می رسد و آن ها را هم بررسی می کند.
این رفتار شبیه حرکت عنکبوت روی تارهایش است چون هر لینک مثل یک رشته ی اتصال است که ربات را به صفحه ی تازه ای می برد. به همین دلیل، این فرایند را “خزش عنکبوتی” یا Spidering می نامند.
اگر ساختار لینک دهی داخلی سایت درست طراحی شده باشد، ربات ها راحت تر می توانند همه ی صفحات را پیدا و فهرست کنند.

۲. از طریق فایل Robots.txt

وقتی ربات گوگل برای نخستین بار وارد دامنه ی سایت می شود، پیش از اینکه حتی صفحه ای را بررسی کند، به دایرکتوری اصلی سایت می رود تا دنبال فایلی با نام robots.txt بگردد.
اگر این فایل وجود داشته باشد، ربات آن را می خواند و متوجه می شود که کدام مسیرها باز و کدام ها بسته اند. در واقع، دستورات داخل این فایل با دو عبارت ساده مشخص می شوند:

Allow: اجازه ی خزش به یک مسیر خاص
Disallow: منع دسترسی به مسیر مشخص

به این ترتیب، ربات طبق همان دستورالعمل ها حرکت خود را در سایت برنامه ریزی می کند. اما اگر فایل robots.txt پیدا نشود، ربات فرض می کند محدودیتی وجود ندارد و تمام صفحات در دسترس را بررسی خواهد کرد.

از آنجا که فایل robots.txt اولین جایی است که ربات وارد آن می شود، نقش بسیار مهمی در نحوه ی درک ساختار سایت و مدیریت سئو فنی دارد. تنظیم درست این فایل کمک می کند تا گوگل فقط بخش های ارزشمند سایت را بخزد و زمانش را روی صفحات غیرضروری هدر ندهد.

یکی از خدمات آژانس دیجیتال مارکتینگ نیلا ارائه خدمات سئو سایت در رشت است. برای آشنایی بیشتر و دریافت مشاوره رایگان کلیک کنید.

اگر به خدمات طراحی سایت در رشت نیاز داشتید میتوانید از نیلا کمک بگیرید.

کاربرد فایل Robots txt

استفاده درست از فایل Robots.txt می تواند به شکل چشمگیری به سلامت فنی و سئوی سایت شما کمک کند. در ادامه، به چهار کاربرد مهم این فایل می پردازیم:

مدیریت ترافیک ربات ها و بودجه خزش

گوگل برای خزش میلیاردها صفحه موجود در وب، منابع محدودی دارد. به همین دلیل، برای هر سایت یک بودجه خزش (Crawl Budget) مشخص می کند. بودجه خزش یعنی تعداد صفحاتی که ربات گوگل در یک بازه زمانی معین می تواند و می خواهد از سایت شما بررسی کند.

اگر سایت بزرگی دارید، احتمالا صفحات کم اهمیت زیادی هم دارید؛ مانند صفحات ورود کاربر، نتایج جستجوی داخلی، صفحات فیلتر محصولات یا آرشیوهای قدیمی. اگر ربات ها زمان و بودجه خود را صرف خزش این صفحات بی فایده کنند، ممکن است از صفحات اصلی و مهم شما غافل شوند.

با استفاده از دستور Disallow در فایل Robots.txt، می توانید دسترسی به این صفحات کم ارزش را مسدود کنید. این کار باعث می شود ربات گوگل بودجه خزش خود را روی صفحات اصلی و ارزشمند شما متمرکز کند و آن ها سریع تر ایندکس شوند.

جلوگیری از کنیبالیزیشن (Cannibalization)

گاهی ممکن است دو یا چند صفحه از سایت شما برای یک کلمه کلیدی یکسان در نتایج گوگل ظاهر شوند. این پدیده که به آن کنیبالیزیشن یا همخواری می گویند، باعث تقسیم اعتبار و سردرگمی موتورهای جستجو می شود. یکی از راه حل ها این است که با استفاده از فایل Robots.tx، دسترسی ربات به یکی از صفحات تکراری یا کم اهمیت تر را مسدود کنید تا تمام قدرت و اعتبار به صفحه اصلی و هدف شما منتقل شود.

عدم نمایش برخی از محتواهای سایت شما

هر وب سایتی صفحاتی دارد که لزوما برای عموم کاربران در نتایج جستجو کاربردی ندارند. برای مثال:

صفحات پنل مدیریت
صفحات ورود و ثبت نام کاربران
صفحات تشکر پس از ثبت فرم
نسخه های آزمایشی یا در حال طراحی صفحات

شما می توانید به سادگی با یک دستور Disallow در فایل Robots.txt، از بررسی و ایندکس شدن این صفحات توسط ربات ها جلوگیری کنید.

مانع ایندکس شدن فایل های خاص در سایت شما

ممکن است فایل هایی روی سایت خود داشته باشید که نخواهید در نتایج جستجوی گوگل (مانند جستجوی تصاویر یا ویدیوها) نمایش داده شوند. این فایل ها می توانند شامل موارد زیر باشند:

فایل های PDF دوره های آموزشی یا کتاب های الکترونیکی فروشی
تصاویر یا ویدیوهای اختصاصی و محرمانه
فایل های مربوط به طراحی سایت مانند اسکریپت ها و فایل های استایل که نیازی به ایندکس شدن ندارند

با مسدود کردن پوشه ای که این فایل ها در آن قرار دارند، می توانید از ایندکس شدن آن ها جلوگیری کنید.

انواع دستورات قابل پشتیبانی در فایل robots.txt

فهمیدن زبان این فایل بسیار ساده است. در مجموع چند دستور اصلی وجود دارد که در ادامه با آن ها آشنا می شویم:

دستور (Directive)	توضیح	مثال	نتیجه
User-agent	تعیین می‌کند که دستورهای بعدی برای کدام ربات اعمال می‌شود.	`User-agent: *`	همه‌ی ربات‌ها
Disallow	مسیرهایی را مشخص می‌کند که نباید توسط ربات‌ها خزیده شوند.	`Disallow: /admin/`	ربات‌ها پوشه‌ی `/admin/` را نمی‌خزند
Allow	مسیرهایی را مشخص می‌کند که خزیدن آن‌ها مجاز است (حتی اگر در مسیر ممنوع قرار دارند).	`Allow: /admin/help.html`	اجازه خزیدن فایل خاص در پوشه ممنوع
Sitemap	آدرس فایل نقشه سایت (sitemap.xml) را مشخص می‌کند تا موتور جستجو راحت‌تر محتوای سایت را پیدا کند.	`Sitemap: https://example.com/sitemap.xml`	معرفی نقشه سایت
Crawl-delay	فاصله زمانی (بر حسب ثانیه) بین درخواست‌های خزنده را تعیین می‌کند. (همه‌ی موتورهای جستجو پشتیبانی نمی‌کنند)	`Crawl-delay: 10`	هر ۱۰ ثانیه یک درخواست

دستور User-agent

دستور User-agent مشخص می‌کند که دستورات بعدی (مثل Allow یا Disallow) برای کدام ربات یا گروهی از ربات‌ها اعمال می‌شود. این دستور همیشه باید اولین خط در هر گروه قوانین باشد.

هر بار که می‌خواهید برای یک ربات خاص قانون بنویسید، باید با User-agent جدید شروع کنید.

مثال‌ها

User-agent: *

علامت * به معنی “همه ربات‌ها” است. یعنی قوانین بعدی برای تمام خزنده‌ها اعمال می‌شود.

User-agent: Googlebot

این دستور فقط برای ربات اصلی گوگل (Googlebot) اعمال می‌شود.

User-agent: Bingbot

این دستور مخصوص ربات موتور جستجوی بینگ است.

دستور Disallow

دستور Disallow پرکاربردترین دستور در فایل robots.txt است. با این دستور مشخص می‌کنیم که ربات‌ها نباید به کدام مسیر یا فایل دسترسی داشته باشند.

مثال‌ها

Disallow: /private/

به ربات‌ها می‌گوید پوشه‌ی /private/ و تمام محتوای داخل آن را نخزند.

Disallow: /login.html

از خزش فایل login.html جلوگیری می‌کند.

Disallow: /

یک اسلش تنها (/) یعنی “کل سایت ممنوع است”.
استفاده از این دستور کل سایت را از دسترس ربات‌ها خارج می‌کند و بسیارخطرناکاست.

Disallow:

اگر بعد از Disallow چیزی نوشته نشود، یعنی هیچ صفحه‌ای مسدود نیست و ربات‌ها اجازه دارند همه چیز را بخزند.

دستور Allow

دستور Allow (که توسط گوگل و بینگ پشتیبانی می‌شود) برای ایجاد استثناء در قوانین Disallow به کار می‌رود. یعنی می‌توانید یک پوشه را مسدود کنید، اما اجازه دهید ربات‌ها به فایل خاصی در آن دسترسی داشته باشند.

مثال

User-agent: *
Disallow: /media/
Allow: /media/public-image.jpg

در این مثال، همه ربات‌ها از خزش پوشه‌ی /media/ منع شده‌اند،
اما مجاز هستند فایل public-image.jpg را در همان پوشه بخزند.

دستور Sitemap

دستور Sitemap برای معرفی نقشه سایت (XML Sitemap) به موتورهای جستجو استفاده می‌شود.
نقشه سایت شامل فهرست صفحات مهم وب‌سایت است تا خزنده‌ها راحت‌تر ساختار سایت را بفهمند و صفحات جدید یا مهم را سریع‌تر پیدا کنند.

نکات

معرفی Sitemap در فایل robots.txt برای سئو بسیار مفید است.
می‌توانید بیش از یک آدرس Sitemap داشته باشید.

مثال

Sitemap: https://www.example.com/sitemap.xml
Sitemap: https://www.example.com/sitemap-blog.xml

در این مثال، دو نقشه سایت معرفی شده‌اند: یکی برای کل سایت و یکی مخصوص بخش وبلاگ.

دستور Crawl-delay

تعریف

دستور Crawl-delay برای کنترل سرعت خزش (Crawling Rate) استفاده می‌شود. به ربات‌ها می‌گوید بین هر درخواست به سایت، چند ثانیه صبر کنند. این دستور برای جلوگیری از فشار زیاد به سرور مفید است.

نکته

Googlebot از این دستور پشتیبانی نمی‌کند. اگر می‌خواهید سرعت خزش گوگل را تنظیم کنید، باید از Google Search Console استفاده کنید.
Bingbot و Yandex هنوز از این دستور پشتیبانی می‌کنند.

مثال

User-agent: Bingbot
Crawl-delay: 10

در این مثال به ربات بینگ گفته می‌شود بین هر بار خزش، ۱۰ ثانیه صبر کند.
این کار برای سایت‌هایی با منابع محدود یا سرورهای اشتراکی بسیار مفید است.

اگر علاقه مند هستید با سئو تکنیکال چیست، آشنا شوید کلیک کنید.

نمونه فایل robot.txt

طریقه استفاده از فایل robots.txt

ساخت و استفاده از این فایل یک فرایند ساده و چند مرحله ای است:

مرحله اول: ساخت فایل

برای ساخت این فایل به هیچ نرم افزار پیچیده ای نیاز ندارید. یک ویرایشگر متن ساده مانند Notepad در ویندوز کافی است.

یک فایل متنی جدید باز کنید.
دستورات خود را طبق توضیحاتی که در بخش قبل داده شد، در آن بنویسید.
فایل را با نام دقیق robots.txt (با حروف کوچک) ذخیره کنید.
هنگام ذخیره، مطمئن شوید که انکودینگ فایل روی UTF-8 تنظیم شده باشد.

هرگز از نرم افزارهایی مانند Microsoft Word برای ساخت این فایل استفاده نکنید زیرا این برنامه ها کاراکترهای غیر منتظره ای به فایل اضافه می کنند که باعث سردرگمی ربات ها می شود.

اگر به خدمات مشاوره دیجیتال مارکتینگ نیاز داشتید میتوانید از نیلا کمک بگیرید.

مرحله دوم: بارگذاری فایل در سایت

پس از ساخت فایل، باید آن را در جای درست روی سرور سایت خودتان قرار دهید. این فایل حتما باید در پوشه ریشه (root directory) دامنه شما آپلود شود. آدرس صحیح باید به این شکل باشد: https://www.example.com/robots.txt

اگر فایل در زیرپوشه ای مانند https://www.example.com/pages/robots.txt قرار گیرد، ربات ها آن را پیدا نخواهند کرد. برای آپلود فایل می توانید از طریق File Manager در پنل هاستینگ خود مانند cPanel یا DirectAdmin یا یک نرم افزار FTP اقدام کنید.

مرحله سوم: تست فایل

بعد از آپلود، باید از صحت عملکرد آن مطمئن شوید. یک اشتباه کوچک در این فایل می تواند کل سایت شما را از دسترس گوگل خارج کند.

ابتدا آدرس yourdomain.com/robots.txt را در مرورگر باز کنید. اگر محتویات فایل را مشاهده کردید، یعنی فایل به درستی آپلود شده است.
بهترین راه برای تست، استفاده از گزارش Robots.txt در سرچ کنسول گوگل است. این ابزار به شما نشان می دهد که آیا گوگل می تواند فایل شما را بخواند و آیا خطای دستوری در آن وجود دارد یا خیر.

قرار دادن فایل robots.txt در سرچ کنسول گوگل

گوگل به طور خودکار فایل Robots.txt شما را پیدا و بررسی می کند، بنابراین نیازی به اقدام خاصی برای “ثبت” آن نیست. اما ابزار سرچ کنسول به شما کمک می کند تا وضعیت فایل را بررسی کرده و در صورت نیاز، به روزرسانی آن را سرعت ببخشید.

برای دسترسی به این گزارش، مراحل زیر را دنبال کنید:

وارد حساب Google Search Console خود شوید.
از منوی سمت چپ، روی Settings کلیک کنید.
در بخش Crawling، روی Open report جلوی گزینه robots.txt کلیک کنید.

در این صفحه می توانید آخرین نسخه فایل که توسط گوگل بررسی شده، وضعیت آن (موفقیت آمیز یا ناموفق) و هرگونه خطا یا هشدار را مشاهده کنید. اگر فایل خود را به روز کرده اید و می خواهید گوگل سریع تر متوجه تغییرات شود، می توانید از همین صفحه درخواست بررسی مجدد (recrawl) بدهید.

بهینه سازی فایل robots.txt برای seo

یک فایل Robots.txt بهینه شده، یک ابزار قدرتمند برای سئوی تکنیکال است. به این نکات کلیدی حتما توجه کنید:

هرگز فایل های CSS و JavaScript را مسدود نکنید: گوگل برای درک کامل محتوا و ساختار صفحات شما، نیاز به دسترسی به فایل های CSS و JS دارد. مسدود کردن این منابع باعث می شود گوگل صفحه را به شکل ناقص ببیند و ممکن است به رتبه شما آسیب بزند. برای اطمینان، از ابزار URL Inspection Tool در سرچ کنسول استفاده کنید تا ببینید صفحه شما به درستی برای گوگل رندر می شود یا خیر.
برای جلوگیری از ایندکس شدن، از Noindex استفاده کنید: به یاد داشته باشید که robots.txt برای مدیریت خزش است، نه ایندکس. اگر یک صفحه در فایل شما Disallow شده باشد اما از سایت های دیگر به آن لینک داده شود، گوگل همچنان ممکن است آن را ایندکس کند (البته بدون توضیحات متا). برای جلوگیری قطعی از ایندکس شدن یک صفحه، باید از متا تگ noindex در بخش <head> همان صفحه استفاده کنید.
فایل خود را مرتب بررسی کنید: همیشه فایل Robots.txt خود را زیر نظر داشته باشید، به خصوص بعد از تغییرات بزرگ در سایت مانند بازطراحی یا مهاجرت به سرور جدید. یک تغییر ناخواسته، مانند اضافه شدن Disallow: /، می تواند ترافیک ارگانیک شما را نابود کند.

برای آشنایی بیشتر با سئو اینستاگرام و سئو یوتیوب کلیک کنید.

نحوه چک کردن وجود فایل robots.txt برای یک سایت

بررسی وجود فایل robots.txt در یک سایت کار ساده ای است و نیازی به ابزار خاصی ندارد. کافی است به آدرس اصلی سایت بروید و در انتهای آن عبارت /robots.txt را اضافه کنید. سپس این آدرس را در مرورگر باز کنید تا محتویات فایل نمایش داده شود.

روش مرحله به مرحله:

آدرس سایت را در مرورگر وارد کنید.
پس از دامنه اصلی، عبارت /robots.txt را اضافه کنید. به طور مثال: https://www.google.com/robots.txt
اگر فایل وجود داشته باشد، محتویات آن شامل دستوراتی مثل User-agent و Disallow به شما نشان داده می شود. این محتویات به شما می گوید کدام بخش های سایت برای ربات ها قابل دسترسی هستند و کدام بخش ها محدود شده اند.
اگر با پیام خطای ۴۰۴ (Not Found) مواجه شدید، یعنی آن سایت فایل robots.txt ندارد و هیچ محدودیتی برای خزش ربات ها تعیین نشده است.

این روش سریع و مستقیم به شما کمک می کند تا متوجه شوید سایت ها از فایل robots.txt استفاده می کنند یا نه و چه قوانینی برای ربات ها تعریف شده است. مشاهده ی مستقیم این فایل همچنین می تواند در تحلیل سئو تکنیکال سایت ها مفید باشد.

روش ارسال درخواست کرال مجدد فایل robots.txt برای گوگل

گوگل به طور معمول هر ۲۴ ساعت یک بار فایل robots.txt سایت ها را بررسی و نسخه ی کش شده آن را به روزرسانی می کند. اما اگر تغییر مهمی در فایل ایجاد کرده باشید، مثلا مسیرهایی که قبلا مسدود بودند را آزاد کرده اید یا دستورات جدیدی اضافه کرده اید، ممکن است بخواهید گوگل سریع تر این تغییرات را شناسایی کند. در این شرایط می توانید یک درخواست کرال مجدد (Recrawl Request) ارسال کنید تا ربات های گوگل فایل جدید را زودتر بررسی کنند.

مراحل ارسال درخواست کرال مجدد فایل robots.txt در گوگل:

وارد گزارش Robots.txt در Search Console سایت خود شوید. این بخش فهرست فایل ها و وضعیت دسترسی ربات ها را نشان می دهد.
کنار فایل مورد نظر، روی آیکون سه نقطه کلیک کنید تا گزینه های بیشتر ظاهر شوند.
گزینه Request a recrawl را انتخاب کنید. این دستور گوگل را تحریک می کند تا فایل شما را سریع تر از چرخه معمول بررسی کند و تغییرات جدید را اعمال کند.

با این روش، ربات گوگل مسیرهای جدید را سریع تر شناسایی می کند و صفحات سایت شما با توجه به تغییرات تازه در فایل robots.txt خزش خواهند شد. این کار زمانی مفید است که بخش های مهم سایت تازه ای در دسترس قرار گرفته اند یا می خواهید محدودیت های قبلی سریع تر برداشته شوند.

جمع بندی

فایل robots.txt یکی از اصلی ترین اجزای سئوی تکنیکال است که به ربات های موتورهای جستجو مسیر درست خزش در سایت را نشان می دهد. با تعریف دستوراتی مثل Allow و Disallow می توان مشخص کرد کدام صفحات برای خزش مفیدند و کدام نباید بررسی شوند. تنظیم دقیق این فایل باعث صرفه جویی در بودجه خزش، جلوگیری از ایندکس شدن صفحات غیرضروری، کنترل سرعت دسترسی ربات ها و حفظ امنیت فایل های محرمانه می شود. همچنین معرفی نقشه سایت در این فایل به گوگل کمک می کند ساختار سایت را بهتر درک کند. بررسی مداوم robots txt، تست آن در سرچ کنسول و ارسال درخواست کرال مجدد هنگام تغییرات مهم، نقش بزرگی در حفظ سلامت فنی سایت و افزایش بازده سئو دارد.