Thứ Sáu, 9 tháng 1, 2015

Hỗ trợ SEO với robot.txt

Robots.txt là gì?

Khi công cụ tìm kiếm (SE) thường xuyên ghé thăm Website, Blog của bạn và tiếp tục nó ghé thăm từng chỉ mục, nội dung trong mọi trang. Mọi nội dung bạn đưa lên Website đều được nạp vào tìm kiếm. Đặt trường hợp bạn không muốn SE đến và đưa 1 chỉ mục nào đó trong Website lên bộ tìm kiếm thì bạn phải làm thế nào?
- Ngoài ra những trường hợp "nhạy cảm" của bạn trên Website bạn cũng không muốn ai thấy.
- Và bạn muốn tối ưu băng thông tiết kiệm nhất mà không ảnh hưởng tới Website...


Cách tùy chỉnh File robots.txt
Cách tạo và vị trí đặt file robots.txt 
- Dùng notepad hay bất cứ chương trình nào tạo file, sau đó đổi tên file là robots.txt.
- Đặt ở thư mục gốc của website. (http://yoursite.com/robots.txt) 

Cấu trúc của một robots.txt là khá đơn giản . Về cơ bản, cú pháp như sau:
User-agent: đối tượng bot được chấp nhận
Disallow/Allow: URL muốn chặn/cho phép
*: Đại diện cho tất cả

Ví dụ các bạn xem robots.txt của site: http://yoursite.com/robots.txt
Trong đó:
User-agent: * (Cho phép tất cả các SE được chấp nhận)
Disallow: /wp-admin/ (Chặn lại liên kết http://yoursite.com/wp-admin/)
Disallow: /wp-includes/ (Chặn lại liên kết http://yoursite.com/wp-includes/)
Nếu các bạn cho phép chấp nhận hết thì chỉ cần đơn giản như ví dụ:
User-agent: *
Allow: /
Chặn 1 trang
Disallow: /private_file.html
Loại bỏ 1 hình từ Google Images
User-agent: Googlebot-Image
Disallow: /images/sexy.jpg
Bỏ tất cả các hình từ Google Images:
User-agent: Googlebot-Image
Disallow: /
Chặn 1 file hình bất kỳ, ví dụ .gif
User-agent: Googlebot
Disallow: /*.gif$
Những điều cần tránh trong file robots.txt
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoản trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Nguồn: Blog Vũ Văn Phong