Công dụng của file robots.txt

File "robots.txt" thông báo cho các công cụ tìm kiếm biết chúng có được truy cập, thu thập dữ liệu ở phần nào trong trang web. Vị trí của file robots.txt nằm ở thư mục gốc trang web của bạn.
Trong  website nào cũng có một vài thư mục bạn không muốn cho google thu thập dữ liệu và việc sử dụng lệnh disallow trong file robots.txt là giải pháp hiệu quả . Vì vậy tối ưu file robots.txt là một công việc quan trọng trong thiết kế website chuẩn SEO.

Lưu ý:
- Nếu trang web của bạn sử dụng các tên miền phụ và bạn muốn một số trang nhất định không được thu thập dữ liệu trong tên miền phụ cụ thể bạn sẽ phải tạo ra file robots.txt riêng cho tên miền phụ đó.
- Thêm "Noindex" vào thẻ meta của các robot của bạn để ngăn không cho nội dung xuất hiện trong các kết quả tìm kiếm.
- Sử dụng ".htaccess" để bảo vệ bằng mật khẩu các thư mục và sử dụng Công cụ quản trị trang web của google để xóa nội dung đã được thu thập dữ liệu trước đó.

Nếu bạn vẫn chưa yên tâm khi sử dụng robots.txt để chặn tài nguyên nhạy cảm trên web. Vì các công cụ tìm kiếm vẫn có thể tham chiều các URL bạn chặn ( chỉ hiện thị URL không phải tiêu đề hay đoạn trích ) nếu ngẫu nhiên có được các liên kết đến URL đó trên internet ( như các bản tham chiếu bản ghi ). Người dùng có thể tò mò, kiểm tra các thư mục hoặc thu mục con trong tệp robots.txt và chẩn đoán ra URL của nội dung mà bạn không muốn cho xem. Việc thực hiện mã hóa nội dung hoặc bảo vệ với .htaccess là lựa chọn an toàn hơn cả.

Những điều nên tránh
- Để các trang giống kết quả tìm kiềm được thu thập dữ liệu từ Google.
- Cho phép số lượng lớn các trang tự tạo với cùng nội dung hoặc nội dung chỉ hơi khác nhau được thu thập dữ liệu 100.000 trang gần như trùng lặp này có thật sự nên nằm trong chỉ mục của công cụ tìm kiếm.
- Cho phép các URL được tạo ra bởi các dịch vụ ủy quyền được thu thập dữ liệu

Công việc tạo file robots.txt không mất nhiều thời gian nhưng nó là công việc vô cùng quan trọng trong 1 quy trình seo website hoàn chỉnh. Hãy dành ra một chút thời gian để có thể tạo ra file robots.txt hiệu quả nhất cho website của bạn.

  • 4127

LIÊN HỆ