File robots.txt là gì? Hướng dẫn cách Tạo và Gửi tệp robots.txt
File robots.txt có vai trò hỗ trợ các công cụ tìm kiếm (như Google Bot), giúp quản lý hiệu quả quá trình thu thập dữ liệu, tối ưu hóa SEO và nâng cao hiệu suất website. Bài viết dưới đây sẽ cung cấp thông tin về file robots.txt và hướng dẫn tạo file robots.txt.
1. File robots.txt là gì?
File robots.txt là tệp văn bản có đuôi mở rộng txt, thuộc một phần của Robots Exclusion Protocol REP chứa nhóm các quy định cách Robot Web (hoặc Robot của các công cụ tìm kiếm) thu thập dữ liệu, truy cập, index và cung cấp nội dung cho người dùng. REP cũng bao gồm các lệnh như Meta Robots, Page-Subdirectory, Site-Wide Instructions, hỗ trợ các công cụ của Google xử lý các liên kết. (ví dụ: Follow hay Nofollow link).
2. Cú pháp của file robots.txt
Các cú pháp là ngôn ngữ riêng của các tập tin robots.txt. Có 5 thuật ngữ phổ biến sẽ bắt gặp trong một file robots.txt. Bao gồm:
User-agent: Phần này là tên của các trình thu thập, truy cập dữ liệu web. (ví dụ: Googlebot, Bingbot,…)
Disallow: Được sử dụng để thông báo cho các User-agent không thu thập bất kỳ dữ liệu URL cụ thể nào. Mỗi URL chỉ được sử dụng 1 dòng Disallow.
Allow (chỉ áp dụng cho bọ tìm kiếm Google Bot): Lệnh thực hiện thông báo cho Googlebot rằng nó sẽ truy cập một trang hoặc thư mục con. Mặc dù các trang hoặc các thư mục con của nó có thể không được phép.
Crawl-delay: Thông báo cho các Web Crawler biết rằng phải đợi bao nhiêu giây trước khi tải và thu thập nội dung của trang. Tuy nhiên, lưu ý rằng bọ tìm kiếm Googlebot không thừa nhận lệnh này. Có thể cài đặt tốc độ thu thập dữ liệu trong Google Search Console.
Sitemap: Được sử dụng để cung cấp các vị trí của bất kì Sitemap XML nào được liên kết với URL này. Lưu ý lệnh này chỉ được hỗ trợ bởi công cụ Google, Ask, Bing và Yahoo.
3. Tại sao cần tạo file robots.txt?
Tạo file robots.txt mang đến nhiều lợi ích bởi nhiều lý do:
– Ngăn chặn nội dung trùng lặp xuất hiện trong website (các Robot Meta thường là lựa chọn tốt).
– Giữ một số phần của trang ở chế độ riêng tư.
– Giữ các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP.
– Chỉ định vị trí của Sitemap.
– Ngăn các công cụ của Google Index một số tệp nhất định trên trang web của bạn (hình ảnh từ máy tính, PDF, …).
– Dùng lệnh Crawl-delay để cài đặt thời gian, ngăn việc máy chủ bị quá tải khi các trình thu thập dữ liệu tải nhiều nội dung cùng một lúc.
Tệp robots.txt có định dạng cơ bản sau:
User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:
Tuy nhiên, có thể lược bỏ các phần Crawl-delay và Sitemap. Đây là định dạng cơ bản của robots.txt WordPress hoàn chỉnh. Nhưng trên thực tế thì file robots.txt chứa nhiều dòng User-agent và nhiều chỉ thị của người dùng hơn.
Chẳng hạn như các dòng lệnh: Disallow, Allow, Crawl-delay, … Mỗi lệnh thường được viết riêng biệt cách nhau bởi 1 dòng.
Trong một file robots.txt WordPress có thể chỉ định nhiều lệnh cho các con bot bằng cách viết liên tục không cách dòng. Tuy nhiên trong trường hợp một file robots.txt có nhiều lệnh đối với 1 loại bot thì mặc định bot sẽ làm theo lệnh được viết rõ và đầy đủ nhất.
4. Cách Submit File Robots.txt lên Công cụ Tìm kiếm
Có 2 cách để submit File Robots.txt
Sử dụng Google Search Console
Truy cập Google Search Console và đăng nhập bằng tài khoản Google quản trị website.
Chọn tab “Crawl”.
Nhấp vào “Robots.txt Tester”.
Nhập URL website của bạn và nhấp vào “Kiểm tra”.
Nếu file robots.txt tồn tại, Google Search Console sẽ hiển thị nội dung của file.
Nhấp vào “Submit” để submit file robots.txt.
Sử dụng Bing Webmaster Tools
Truy cập Bing Webmaster Tools và đăng nhập bằng tài khoản Microsoft quản trị website.
Chọn tab “Crawl”.
Nhấp vào “Robots.txt”.
Nhập URL website của bạn và nhấp vào “Submit”.
5. File robots.txt hoạt động như thế nào?
Phương thức hoạt động của file robots.txt diễn ra như sau:
– Bước 1: Crawl (cào/phân tích) dữ liệu trên trang web để khám phá nội dung bằng cách đưa công cụ đi theo các liên kết từ trang này đến trang khác, sau đó thu thập dữ liệu thông qua hàng tỷ trang web khác nhau. Quá trình crawl dữ liệu này còn được biết đến với tên khác là “Spidering”.
– Bước 2: Index nội dung đó để đáp ứng yêu cầu cho các tìm kiếm của người dùng. File robots.txt sẽ chứa các thông tin về cách các công cụ của Google nhằm thu thập dữ liệu của website. Lúc này, các con bots sẽ được hướng dẫn thêm nhiều thông tin cụ thể cho quá trình này.
– Nếu tệp robots.txt không chứa bất kì chỉ thị nào cho các User-agent hoặc nếu bạn không tạo file robots.txt cho website thì các con bots sẽ tiến hành thu thập các thông tin khác trên web.
6. File robots.txt nằm ở đâu trên một website?
Khi tạo website WordPress, web sẽ tự động tạo ra một file robots.txt đặt ngay bên dưới thư mục gốc của server.
Ví dụ: Nếu site đặt trong thư mục gốc của địa chỉ abcdef.com, bạn sẽ có thể truy cập file robots.txt ở đường dẫn abcdef.com/robots.txt, kết quả ban đầu sẽ tương tự như sau:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
7. Làm thế nào để kiểm tra website có file robots.txt không?
Thực hiện theo các bước dưới đây để kiểm tra website có file robots.txt không:
Nhập Root Domain (ví dụ: abcdef.com) > Chèn /robots.txt vào cuối (ví dụ: abcdef.com/robots.txt) > Nhấn Enter.
Nếu không có trang .txt xuất hiện, thì chắc chắn website hiện không tạo robots.txt cho WordPress.
8. Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?
File robots.txt WordPress đều xử lý một quy tắc tại một thời điểm. Tuy nhiên, nếu muốn áp dụng các quy tắc khác nhau cho các bot khác nhau thì chỉ cần thêm từng bộ quy tắc trong phần khai báo User-agent cho mỗi bot.
Ví dụ: Tạo một quy tắc áp dụng cho tất cả các bot và một quy tắc khác chỉ áp dụng cho Bingbot, có thể thực hiện như sau:
User-agent: *
Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /
Từ đó, tất cả các bot sẽ bị chặn truy cập / wp-admin / nhưng Bingbot sẽ bị chặn truy cập toàn bộ trang web.
9. Các Cách tạo file robots.txt WordPress đơn giản
Dưới đây là 3 cách tạo robots.txt cho WordPress:
Sử dụng Yoast SEO
Bước 1: Đăng nhập vào website của bạn trên WordPress, khi đăng nhập vào sẽ thấy giao diện của WordPress Dashboard.
Bước 2: Chọn mục SEO > Chọn Tools.
Chọn Tools trong mục SEO
Bước 3: Chọn File editor.
Như vậy, sẽ xuất hiện mục robots.txt và .htaccess file. Đây là nơi giúp tạo file robots.txt.
Sử dụng bộ Plugin All in One SEO
Sử dụng bộ Plugin All in One SEO để tạo file robots.txt WordPress nhanh chóng. Đây cũng là một plugin tiện ích cho WordPress đơn giản, dễ sử dụng.
Bước 1: Truy cập giao diện chính của Plugin All in One SEO Pack.
Bước 2: Chọn All in One SEO > Chọn Feature Manager > Nhấp Active cho mục Robots.txt.
Bước 3: Tạo lập và điều chỉnh file robots.txt WordPress.
Lưu ý: All in One SEO làm mờ đi thông tin của file robots.txt thay vì được chỉnh sửa file như công cụ Yoast SEO. Điều này có thể khiến người dùng hơi bị động một chút khi chỉnh sửa file robots.txt WordPress. Tuy nhiên, yếu tố này sẽ giúp họ hạn chế thiệt hại cho website của mình, đặc biệt một số Malware bots sẽ gây hại cho website.
Tạo rồi upload file robots.txt qua FTP
Để tạo file robots.txt WordPress bằng tay bằng phương pháp tạo rồi upload file robots.txt qua FTP, có thể thực hiện theo các bước sau đây:
Bước 1: Mở Notepad hoặc Textedit để tạo mẫu file robots.txt WordPress.
Bước 2: Mở FTP > Chọn thư mục public_html > Chọn file robots.txt > Chọn Upload.
10. Quy tắc khi tạo file robots.txt
Để được bot tìm thấy thì các file robots.txt WordPress phải được đặt trong các thư mục cấp cao nhất của trang web.
Txt phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là robots.txt. (không phải Robots.txt hay robots.TXT, …)
Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ nhìn nhận chính xác về giao diện blog hay website của mình.
Một số User-agent chọn cách bỏ qua các file robots.txt chuẩn của bạn. Điều này khá phổ biến với các User-agent bất chính như:
Malware robots (bot của các đoạn mã độc hại)
Các trình Scraping (quá trình tự thu thập thông tin) địa chỉ Email
11. Một số lưu ý khi sử dụng file robots.txt
- Robots.txt không phải là phương pháp để ẩn trang web khỏi các công cụ tìm kiếm. Các công cụ tìm kiếm có thể bỏ qua các chỉ thị robots.txt nếu chúng cho rằng các chỉ thị này không hợp lệ hoặc có hại.
- Robots.txt chỉ là một hướng dẫn cho trình thu thập thông tin. Các trình thu thập thông tin có thể bỏ qua chỉ thị robots.txt nếu chúng cho rằng các chỉ thị này không hợp lý hoặc không có lợi cho người dùng.
- Link juice sẽ không được truyền từ các trang bị chặn đến trang đích. Do đó, nếu muốn truyền link juice qua các trang này, hãy sử dụng phương pháp khác thay vì sử dụng robots.txt WordPress.
Tóm lại, robots.txt là một tệp quan trọng giúp quản lý lưu lượng thu thập dữ liệu của các công cụ tìm kiếm. Nếu sử dụng robots.txt một cách hợp lý, bạn có thể cải thiện hiệu quả thu thập dữ liệu của các công cụ tìm kiếm và tối ưu hóa trang web của mình cho SEO.
12. Những câu hỏi thường gặp về robots.txt
Kích thước tối đa của file robots.txt là bao nhiêu?
Kích thước tối đa của file robots.txt Khoảng 500 kilobyte.
File robots.txt WordPress nằm ở đâu trên website?
File robots.txt WordPress nằm tại vị trí domain.com/robots.txt.
Làm cách nào để chỉnh sửa robots.txt WordPress?
Có thể thực hiện theo cách thủ công hoặc sử dụng một trong nhiều plugin WordPress SEO như Yoast, cho phép chỉnh sửa robots.txt từ WordPress backend.
Điều gì xảy ra nếu Disallow vào nội dung Noindex trong robots.txt?
Nếu Disallow vào nội dung Noindex trong robots.txt thì Google sẽ không bao giờ thấy lệnh Noindex vì nó không thể Crawl dữ liệu trang.
Làm sao tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web?
Có thể tạm ngừng toàn bộ hoạt động thu thập dữ liệu bằng cách trả về một mã kết quả HTTP 503 cho mọi URL, bao gồm cả tệp robots.txt. Nhưng không nên thay đổi tệp robots.txt để chặn hoạt động thu thập dữ liệu.
Điều gì sẽ xảy ra nếu không có tệp robots.txt?
Nếu không có tệp robots.txt, trình thu thập thông tin của công cụ tìm kiếm cho rằng tất cả các trang có sẵn trên trang web của bạn đều ở chế độ công khai và nó có thể được thu thập dữ liệu, sau đó thêm vào chỉ mục của nó.
Điều gì sẽ xảy ra nếu robots.txt không được định dạng tốt?
Điều này phụ thuộc vào vấn đề nếu các công cụ tìm kiếm không thể hiểu nội dung của tệp tin vì nó bị định cấu hình sai, họ vẫn truy cập vào trang web và bỏ qua bất cứ điều gì trong robots.txt.
Bài viết mới nhất
TOS hợp tác & phát triển cùng các đối tác uy tín hàng đầu trong ngành