Bạn đã bao giờ thắc mắc làm thế nào để Googlebot – robot của Google – biết được nên thu thập dữ liệu nào trên website của bạn và bỏ qua phần nào chưa? Câu trả lời nằm ở một tệp tin nhỏ nhưng cực kỳ quan trọng: robots txt.
Đặc biệt nếu bạn đang quản lý một website WordPress, việc thiết lập file robots.txt đúng cách không chỉ giúp kiểm soát quá trình lập chỉ mục mà còn góp phần tối ưu hóa ngân sách thu thập dữ liệu (crawl budget) và cải thiện hiệu quả SEO tổng thể.
Tuy nhiên, nếu cấu hình sai, bạn có thể vô tình chặn Google truy cập vào những nội dung quan trọng, làm ảnh hưởng đến thứ hạng website trên công cụ tìm kiếm.
Trong bài viết này, chúng ta sẽ cùng tìm hiểu chi tiết robots.txt là gì, vai trò của nó trong SEO và hướng dẫn 3+ cách tạo và gửi tệp robots.txt cho Google một cách dễ dàng, hiệu quả.
File robots.txt là gì?
Robots.txt là một tệp văn bản có định dạng .txt, được đặt tại thư mục gốc của website. Tệp này đóng vai trò như một bản hướng dẫn dành cho các công cụ tìm kiếm (như Googlebot), giúp xác định đâu là nội dung nên hoặc không nên được thu thập (crawl) và lập chỉ mục (index).
Với vai trò như cánh cổng đầu tiên mà các bot truy cập khi ghé thăm website, robots.txt cho phép bạn kiểm soát việc thu thập dữ liệu, bảo vệ những nội dung không mong muốn xuất hiện trên kết quả tìm kiếm và tối ưu hóa hiệu suất thu thập thông tin từ các công cụ tìm kiếm.
Việc cấu hình đúng file robots mang lại nhiều lợi ích cho quá trình quản lý và tối ưu hóa website:
- Ngăn chặn nội dung trùng lặp xuất hiện trên kết quả tìm kiếm, giúp cải thiện chất lượng SEO.
- Giữ một số khu vực của trang web ở chế độ riêng tư, không cho phép công cụ tìm kiếm tiếp cận.
- Loại trừ các trang kết quả tìm kiếm nội bộ khỏi chỉ mục của Google.
- Cung cấp vị trí của sitemap XML để hỗ trợ bot thu thập dữ liệu chính xác hơn.
- Ngăn lập chỉ mục các tệp không cần thiết như hình ảnh, tài liệu PDF hoặc script.
- Thiết lập thời gian trễ giữa các lần thu thập dữ liệu bằng lệnh
Crawl-delayđể tránh gây quá tải máy chủ.
Tuy nhiên, nếu bạn không có nhu cầu giới hạn quyền truy cập của các công cụ tìm kiếm, thì việc tạo file robots là không bắt buộc. Dù vậy, đối với các website cần kiểm soát truy cập và tối ưu SEO, robots.txt vẫn là một công cụ không thể thiếu.

Cú pháp của file robots txt
Các cú pháp trong robots.txt được xem như một ngôn ngữ chỉ dẫn dành riêng cho các công cụ tìm kiếm. Có 5 thuật ngữ cơ bản mà bạn thường gặp khi làm việc với file robots.txt. Bao gồm:
- User-agent: Đây là phần dùng để xác định tên của trình thu thập dữ liệu web (web crawler). Ví dụ như: Googlebot, Bingbot,…
- Disallow: Câu lệnh này được dùng để yêu cầu các User-agent không thu thập dữ liệu tại một URL cụ thể nào đó. Mỗi đường dẫn bị chặn sẽ tương ứng với một dòng Disallow riêng biệt.
- Allow (chỉ áp dụng cho Googlebot): Câu lệnh này cho phép Googlebot được quyền truy cập vào một trang hoặc thư mục con nhất định, ngay cả khi các cấp thư mục phía trên đã bị chặn.
- Crawl-delay: Lệnh này chỉ định thời gian chờ (tính bằng giây) mà Web Crawler phải tuân thủ trước khi tiếp tục tải và thu thập nội dung của trang tiếp theo. Tuy nhiên, Googlebot không hỗ trợ cú pháp này. Nếu muốn điều chỉnh, bạn nên thực hiện trong Google Search Console.
- Sitemap: Câu lệnh này nhằm cung cấp đường dẫn đến các tệp sitemap XML có liên quan đến website. Lưu ý rằng chỉ các công cụ như Google, Ask, Bing và Yahoo mới hỗ trợ cú pháp này trong file robots.txt.

Pattern – Matching
Trên thực tế, các file robots.txt trong WordPress thường khá phức tạp khi cần chặn hoặc cho phép các bot tìm kiếm. Nguyên nhân là vì chúng hỗ trợ Pattern-Matching – tính năng cho phép mở rộng điều kiện áp dụng với nhiều kiểu URL khác nhau một cách linh hoạt.
Hầu hết các công cụ tìm kiếm như Google và Bing đều hỗ trợ hai ký tự đặc biệt dùng trong Pattern-Matching để xác định rõ các trang hoặc thư mục con mà quản trị viên web muốn loại trừ khỏi việc thu thập dữ liệu. Hai ký tự này bao gồm dấu hoa thị * và ký hiệu đô la $.
- Dấu
*là ký tự đại diện cho bất kỳ chuỗi ký tự nào. Điều này đồng nghĩa bạn có thể sử dụng nó để bao quát nhiều kiểu đường dẫn hoặc tệp tin khác nhau mà không cần liệt kê cụ thể. - Ký hiệu
$được sử dụng để chỉ phần kết thúc của URL, cho phép kiểm soát chính xác các URL kết thúc bằng một chuỗi cụ thể (ví dụ:.pdf,.jpg…).
Định dạng cơ bản của file robots.txt
Một tệp robots.txt thường được cấu trúc theo định dạng cơ bản sau:
Trong đó, Crawl-delay và Sitemap là tùy chọn, bạn hoàn toàn có thể lược bỏ nếu không cần thiết. Đây là định dạng đầy đủ và phổ biến thường thấy trong robots.txt của các website WordPress. Tuy nhiên, trên thực tế, file này thường chứa nhiều nhóm lệnh với các User-agent khác nhau, tương ứng với từng loại bot cụ thể.
Ví dụ, bạn có thể sử dụng nhiều dòng Disallow, Allow hay Crawl-delay cho từng bot riêng biệt. Thông thường, các lệnh sẽ được tách ra bằng một dòng trống để phân biệt từng nhóm quy tắc áp dụng cho từng bot.
Tuy nhiên, trong một số trường hợp, bạn vẫn có thể viết liên tục các dòng lệnh không cách dòng nếu áp dụng cho cùng một loại bot. Khi có nhiều chỉ thị khác nhau dành cho một User-agent, bot sẽ ưu tiên làm theo lệnh được viết cụ thể và rõ ràng nhất để xử lý nội dung trên website của bạn.
File robots.txt chuẩn
Dưới đây là một số ví dụ phổ biến về cách cấu hình file robots.txt để kiểm soát việc thu thập dữ liệu từ các trình thu thập thông tin (Web Crawler):

Chặn tất cả các trình thu thập dữ liệu truy cập website (bao gồm cả trang chủ):
Nếu bạn muốn ngăn mọi bot truy cập vào bất kỳ phần nào của website, kể cả trang chủ, hãy sử dụng cú pháp sau:
Cho phép tất cả các trình thu thập thông tin truy cập toàn bộ website:
Trong trường hợp bạn muốn mở quyền truy cập cho tất cả các bot đến toàn bộ nội dung của website, hãy sử dụng cú pháp sau:
Chặn bot của Google không được thu thập dữ liệu trong một thư mục cụ thể:
Nếu bạn muốn Googlebot không thu thập bất kỳ trang nào nằm trong thư mục có đường dẫn là /example-subfolder/, hãy sử dụng cú pháp sau:
Chặn Bingbot không được thu thập một trang cụ thể:
Để ngăn Bingbot truy cập vào một trang cụ thể trong thư mục /example-subfolder/, ví dụ như blocked-page.html, bạn có thể sử dụng cú pháp:
Các ví dụ trên là những cấu hình robots.txt cơ bản và chuẩn, giúp bạn dễ dàng điều hướng hoạt động của các công cụ tìm kiếm sao cho phù hợp với chiến lược SEO và bảo mật nội dung của website.
Ví dụ cho file robots.txt chuẩn
Dưới đây là một ví dụ về tệp robots.txt được sử dụng cho website www.example.com:
Vậy cấu trúc của file robots.txt trên có ý nghĩa gì? Hãy cùng phân tích.
Trước tiên, dòng User-agent: * cho biết rằng các quy tắc áp dụng cho mọi loại trình thu thập dữ liệu (web crawler), bao gồm Googlebot, Bingbot, và các bot khác.
Tiếp theo, dòng Disallow: /wp-admin/ cho biết rằng thư mục /wp-admin/ – nơi chứa giao diện quản trị của WordPress – sẽ không được phép thu thập dữ liệu.
Dòng Allow: / lại chỉ định rằng toàn bộ phần còn lại của website đều được cho phép lập chỉ mục. Điều này đồng nghĩa với việc các bot có thể thu thập và lập chỉ mục tất cả nội dung trên website, trừ phần bị chặn như đã nêu ở trên.
Cuối cùng, dòng Sitemap: https://www.example.com/sitemap_index.xml giúp chỉ rõ vị trí của tệp sitemap XML, hỗ trợ các bot tìm kiếm nhanh chóng truy cập và lập chỉ mục toàn bộ các trang có trên website một cách hiệu quả.
Tóm lại, cấu trúc robots.txt như ví dụ trên cho thấy bạn chỉ ngăn bot truy cập phần quản trị, đồng thời cho phép lập chỉ mục toàn bộ nội dung còn lại và hỗ trợ trình thu thập dữ liệu bằng cách cung cấp sơ đồ website. Đây là một cấu hình chuẩn, thường được áp dụng cho các website WordPress.
Cách Submit File Robots.txt lên công cụ tìm kiếm
Mặc dù không bắt buộc, việc submit file robots.txt lên các công cụ tìm kiếm sẽ giúp tăng tốc quá trình thu thập dữ liệu cho website và đảm bảo rằng cấu trúc trang được hiểu chính xác hơn. Việc gửi file robots.txt cũng giúp bạn:
- Nhanh chóng phát hiện và khắc phục các lỗi trong cấu hình robots.txt.
- Cung cấp chỉ dẫn rõ ràng để công cụ tìm kiếm xác định nội dung nào cần được lập chỉ mục.

Các bước submit file robots.txt
Sử dụng Google Search Console
- Truy cập vào Google Search Console và đăng nhập bằng tài khoản Google có quyền quản trị website.
- Trong giao diện bảng điều khiển, chọn website bạn muốn thao tác.
- Tìm đến phần “Thu thập dữ liệu” (hoặc “Crawl” trong phiên bản tiếng Anh).
- Nhấp vào mục “Trình kiểm tra robots.txt” (Robots.txt Tester).
- Nhập đường dẫn URL của website và nhấn “Kiểm tra”.
- Nếu file robots.txt tồn tại, hệ thống sẽ hiển thị nội dung file.
- Sau khi kiểm tra xong, nhấp vào “Gửi” (Submit) để hoàn tất việc gửi file robots.txt lên Google.
Sử dụng Bing Webmaster Tools
- Truy cập Bing Webmaster Tools và đăng nhập bằng tài khoản Microsoft được cấp quyền quản trị website.
- Chọn website bạn muốn thao tác từ danh sách trong bảng điều khiển.
- Vào mục “Crawl” hoặc “Thu thập dữ liệu”.
- Nhấp vào mục “Robots.txt” để truy cập công cụ gửi file.
- Nhập địa chỉ URL chứa file robots.txt của bạn và nhấn “Submit” để hoàn tất quá trình gửi.
Việc gửi file robots.txt không chỉ giúp công cụ tìm kiếm dễ dàng tiếp cận sitemap và nội dung chính trên website, mà còn giúp quản trị viên chủ động kiểm soát cách bot thu thập dữ liệu một cách chính xác và hiệu quả hơn.
Những hạn chế của file robots.txt
Mặc dù file robots.txt là một công cụ quan trọng trong việc kiểm soát quyền truy cập của các trình thu thập dữ liệu, nhưng nó vẫn tồn tại một số hạn chế mà quản trị viên website cần lưu ý:
Không phải công cụ tìm kiếm nào cũng tuân thủ robots.txt
Một số công cụ tìm kiếm hoặc bot không uy tín có thể phớt lờ các lệnh trong robots.txt và vẫn truy cập vào các khu vực bị chặn. Do đó, nếu bạn muốn đảm bảo an toàn cho các nội dung nhạy cảm, cách bảo mật tốt nhất là thiết lập quyền truy cập hoặc đặt mật khẩu bảo vệ cho các thư mục và tệp quan trọng trên máy chủ.
Mỗi công cụ thu thập dữ liệu có cách hiểu cú pháp khác nhau
Dù các bot phổ biến như Googlebot hay Bingbot thường tuân thủ tiêu chuẩn robots.txt, nhưng mỗi công cụ tìm kiếm lại có cách phân tích cú pháp riêng. Điều này có thể dẫn đến việc một số chỉ thị không được hiểu hoặc thực thi đúng cách. Vì vậy, các lập trình viên và quản trị viên website cần nắm rõ cú pháp và mức độ hỗ trợ của từng trình thu thập dữ liệu để tránh nhầm lẫn.
Robots.txt không ngăn hoàn toàn việc index nội dung
Ngay cả khi bạn đã chặn một URL trong file robots.txt, Google vẫn có thể lập chỉ mục URL đó nếu tìm thấy liên kết ở nơi khác trên Internet. Trong trường hợp nội dung bên trong không quan trọng hoặc cần được ẩn hoàn toàn, bạn nên xóa URL khỏi website hoặc sử dụng thẻ meta noindex để đảm bảo Google không hiển thị trang đó trên kết quả tìm kiếm.

Một số lưu ý quan trọng khi sử dụng tệp robots.txt
Khi triển khai tệp robots txt cho website, bạn cần lưu ý một số điểm sau để đảm bảo hiệu quả và tránh rủi ro bảo mật:
- Không cần chỉ định riêng từng User-agent: Thông thường, các User-agent đều thuộc về các công cụ tìm kiếm phổ biến và tuân thủ quy tắc chung. Việc liệt kê từng cái là không cần thiết và có thể làm phức tạp tệp robots txt mà không mang lại lợi ích rõ ràng.
- Không sử dụng robots.txt để chặn dữ liệu nhạy cảm: Các thông tin như dữ liệu người dùng, thông tin cá nhân hay tài liệu nội bộ không nên được bảo vệ bằng robots txt. Lý do là vì một số công cụ tìm kiếm – kể cả Googlebot – vẫn có thể bỏ qua các lệnh trong tệp này, khiến nội dung có thể bị hiển thị công khai.
- Bảo mật dữ liệu tốt hơn bằng mật khẩu: Thay vì dựa vào robots.txt, bạn nên sử dụng cơ chế bảo mật mạnh hơn như yêu cầu đăng nhập hoặc giới hạn quyền truy cập trên máy chủ để ngăn chặn các tệp hoặc URL không mong muốn bị thu thập.
- Không nên lạm dụng tệp robots.txt: Việc sử dụng quá nhiều lệnh Disallow có thể gây hiểu lầm cho các công cụ tìm kiếm hoặc làm ảnh hưởng đến quá trình index nội dung quan trọng. Hãy sử dụng robots.txt một cách có chọn lọc và phù hợp với mục tiêu SEO của bạn.
File robots.txt hoạt động như thế nào?
Các công cụ tìm kiếm, chẳng hạn như Googlebot, có hai nhiệm vụ chính khi tiếp cận một website:
- Crawl (thu thập dữ liệu): Công cụ tìm kiếm lần theo các liên kết từ trang này đến trang khác để khám phá nội dung của website. Quá trình này còn được gọi là Spidering.
- Index (lập chỉ mục): Sau khi thu thập dữ liệu, các công cụ sẽ lưu trữ và sắp xếp thông tin để phục vụ cho các truy vấn tìm kiếm của người dùng.
Khi một công cụ tìm kiếm truy cập vào một website, điều đầu tiên nó làm là tìm kiếm tệp robots.txt. Nếu tệp này tồn tại, các bot sẽ đọc nội dung trong đó để biết những phần nào của website được phép hoặc không được phép thu thập dữ liệu.
Tệp robots.txt sẽ chứa các quy tắc chỉ định cho các bot công cụ tìm kiếm (User-agent) về việc truy cập các đường dẫn cụ thể. Ví dụ, bạn có thể cho phép Googlebot thu thập toàn bộ trang, nhưng không cho phép truy cập thư mục quản trị (/wp-admin/).
Trong trường hợp không có tệp robots.txt hoặc tệp này không chứa chỉ thị cụ thể, các bot sẽ mặc định rằng toàn bộ nội dung website đều có thể được crawl và index.

File robots.txt nằm ở đâu trên một website?
Khi bạn tạo một website bằng WordPress, hệ thống sẽ tự động sinh ra một file robots.txt ảo nằm tại thư mục gốc của máy chủ. Ví dụ, nếu website bạn là socseoer.com, bạn có thể truy cập file này bằng đường dẫn: socseoer.com/robots.txt
Nội dung mặc định ban đầu có thể trông như sau:
Trong đó:
User-agent: *có nghĩa là các quy tắc áp dụng cho mọi bot (trình thu thập dữ liệu).Disallow: /wp-admin/và/wp-includes/yêu cầu bot không truy cập vào hai thư mục quan trọng, vốn chứa nhiều tệp nhạy cảm của WordPress.
Lưu ý, đây là file ảo do WordPress tự tạo và không thể chỉnh sửa trực tiếp thông qua hệ thống quản trị. Nó thường nằm trong thư mục gốc (root directory) của hosting, còn gọi là public_html, www hoặc tên thư mục chính của website.
Nếu bạn muốn tạo file robots.txt tùy chỉnh, bạn cần tạo một file thật và đặt nó vào thư mục gốc này để ghi đè file mặc định của WordPress.
Làm thế nào để kiểm tra website có file robots.txt không?
Để kiểm tra website của bạn có file robots.txt hay không, bạn chỉ cần thực hiện một thao tác đơn giản. Hãy nhập tên miền chính (root domain) của website, sau đó thêm đuôi /robots.txt vào cuối địa chỉ URL.
Ví dụ: nếu tên miền của bạn là example.com, hãy truy cập vào địa chỉ example.com/robots.txt.
- Nếu trình duyệt hiển thị một nội dung dạng văn bản với các dòng lệnh như
User-agent,Disallow…, điều đó có nghĩa là website của bạn đã có file robots.txt. - Ngược lại, nếu trình duyệt báo lỗi như “404 Not Found” hoặc không hiển thị file văn bản nào, thì website của bạn hiện chưa có tệp robots.txt.
Bạn có thể áp dụng cách kiểm tra này cho bất kỳ website nào. Chẳng hạn, với website socseoer.com, bạn chỉ cần nhập socseoer.com/robots.txt vào thanh địa chỉ và nhấn Enter. Kết quả hiển thị sẽ cho bạn biết website đó có tạo file robots.txt hay chưa.

Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?
Trong file robots.txt, bạn có thể thêm nhiều bộ quy tắc khác nhau để kiểm soát hành vi của từng loại bot truy cập vào website WordPress của mình. Mỗi bộ quy tắc sẽ bắt đầu bằng khai báo User-agent, sau đó là các chỉ thị như Allow hoặc Disallow.
Thông thường, nhiều người chỉ áp dụng một bộ quy tắc duy nhất cho tất cả các bot. Tuy nhiên, nếu bạn muốn quy định riêng cho từng bot cụ thể thì có thể thêm nhiều đoạn như ví dụ sau:
Giải thích:
User-agent: *là quy tắc áp dụng cho tất cả các bot. Ở đây, bạn cho phép truy cập toàn bộ website, ngoại trừ thư mục /wp-admin/.User-agent: Bingbotlà quy tắc chỉ áp dụng riêng cho bot của Bing. Trong trường hợp này, bạn chặn toàn bộ quyền truy cập vào website đối với Bingbot.
Khi nhiều bộ quy tắc được khai báo, mỗi bot sẽ tuân theo phần User-agent phù hợp với mình. Nhờ đó, bạn có thể kiểm soát linh hoạt việc thu thập dữ liệu từ từng công cụ tìm kiếm khác nhau.
3 Cách tạo file robots.txt WordPress đơn giản
Nếu sau khi kiểm tra, bạn phát hiện website của mình chưa có tệp robots.txt hoặc bạn đang muốn điều chỉnh lại nội dung file này, hãy tham khảo 3 cách đơn giản sau để tạo robots.txt cho WordPress:

Tạo file robots.txt bằng Yoast SEO
Đây là cách phổ biến và đơn giản nếu bạn đang sử dụng plugin Yoast SEO. Làm theo các bước sau:
- Đăng nhập vào trang quản trị WordPress của bạn.
- Trong menu bên trái, chọn “SEO”, sau đó chọn “Tools” (Công cụ).
- Nhấn vào mục “File editor” (Trình chỉnh sửa tệp).
Tại đây, bạn sẽ thấy hai phần để chỉnh sửa: một là tệp .htaccess, hai là tệp robots.txt. Nếu WordPress của bạn chưa cho phép chỉnh sửa file trực tiếp, bạn cần kích hoạt tính năng này thông qua FTP (File Transfer Protocol).
Sau khi kích hoạt, bạn có thể tạo mới hoặc chỉnh sửa nội dung file robots.txt theo ý muốn, ví dụ:
