File robots.txt là gì, cách dùng

Robots.txt là một tệp văn bản được đặt trên website để chỉ định cho các robot của công cụ tìm kiếm biết được trang web nào nên được truy cập và trang web nào không nên được truy cập.

Tệp robots.txt được đặt trong thư mục gốc của trang web và nói cho các robot của công cụ tìm kiếm biết được trang web nào nên được tìm thấy và trang web nào không nên được tìm thấy. Các công cụ tìm kiếm như Googlebot đọc tệp robots.txt trước khi bắt đầu quét trang web, vì vậy đây là cách tốt nhất để ngăn chặn truy cập không mong muốn từ các robot của công cụ tìm kiếm.

Các quy tắc được đặt trong tệp robots.txt bao gồm:

  • User-agent: Các robot tìm kiếm mà quy tắc áp dụng.
  • Disallow: Trang web nào không nên được tìm thấy.
  • Allow: Trang web nào nên được tìm thấy.
  • Sitemap: Chỉ định đường dẫn đến bản đồ trang web của trang web.
User-agent: *
Disallow: /admin/
Disallow: /private/
Sitemap: http://example.com/sitemap.xml

Leave a Reply

Your email address will not be published. Required fields are marked *