File robots.txt là gì? 3+ Cách tạo và gửi tệp robots.txt cho Google

Bạn đã bao giờ thắc mắc làm thế nào để Googlebot – robot của Google – biết được nên thu thập dữ liệu nào trên website của bạn và bỏ qua phần nào chưa? Câu trả lời nằm ở một tệp tin nhỏ nhưng cực kỳ quan trọng: robots txt.

Đặc biệt nếu bạn đang quản lý một website WordPress, việc thiết lập file robots.txt đúng cách không chỉ giúp kiểm soát quá trình lập chỉ mục mà còn góp phần tối ưu hóa ngân sách thu thập dữ liệu (crawl budget) và cải thiện hiệu quả SEO tổng thể.

Tuy nhiên, nếu cấu hình sai, bạn có thể vô tình chặn Google truy cập vào những nội dung quan trọng, làm ảnh hưởng đến thứ hạng website trên công cụ tìm kiếm.

Trong bài viết này, chúng ta sẽ cùng tìm hiểu chi tiết robots.txt là gì, vai trò của nó trong SEO và hướng dẫn 3+ cách tạo và gửi tệp robots.txt cho Google một cách dễ dàng, hiệu quả.

Nội dung

File robots.txt là gì?

Robots.txt là một tệp văn bản có định dạng .txt, được đặt tại thư mục gốc của website. Tệp này đóng vai trò như một bản hướng dẫn dành cho các công cụ tìm kiếm (như Googlebot), giúp xác định đâu là nội dung nên hoặc không nên được thu thập (crawl) và lập chỉ mục (index).

Với vai trò như cánh cổng đầu tiên mà các bot truy cập khi ghé thăm website, robots.txt cho phép bạn kiểm soát việc thu thập dữ liệu, bảo vệ những nội dung không mong muốn xuất hiện trên kết quả tìm kiếm và tối ưu hóa hiệu suất thu thập thông tin từ các công cụ tìm kiếm.

Việc cấu hình đúng file robots mang lại nhiều lợi ích cho quá trình quản lý và tối ưu hóa website:

  • Ngăn chặn nội dung trùng lặp xuất hiện trên kết quả tìm kiếm, giúp cải thiện chất lượng SEO.
  • Giữ một số khu vực của trang web ở chế độ riêng tư, không cho phép công cụ tìm kiếm tiếp cận.
  • Loại trừ các trang kết quả tìm kiếm nội bộ khỏi chỉ mục của Google.
  • Cung cấp vị trí của sitemap XML để hỗ trợ bot thu thập dữ liệu chính xác hơn.
  • Ngăn lập chỉ mục các tệp không cần thiết như hình ảnh, tài liệu PDF hoặc script.
  • Thiết lập thời gian trễ giữa các lần thu thập dữ liệu bằng lệnh Crawl-delay để tránh gây quá tải máy chủ.

Tuy nhiên, nếu bạn không có nhu cầu giới hạn quyền truy cập của các công cụ tìm kiếm, thì việc tạo file robots là không bắt buộc. Dù vậy, đối với các website cần kiểm soát truy cập và tối ưu SEO, robots.txt vẫn là một công cụ không thể thiếu.

File robots.txt là gì?
File robots.txt là gì?

Cú pháp của file robots txt

Các cú pháp trong robots.txt được xem như một ngôn ngữ chỉ dẫn dành riêng cho các công cụ tìm kiếm. Có 5 thuật ngữ cơ bản mà bạn thường gặp khi làm việc với file robots.txt. Bao gồm:

  • User-agent: Đây là phần dùng để xác định tên của trình thu thập dữ liệu web (web crawler). Ví dụ như: Googlebot, Bingbot,…
  • Disallow: Câu lệnh này được dùng để yêu cầu các User-agent không thu thập dữ liệu tại một URL cụ thể nào đó. Mỗi đường dẫn bị chặn sẽ tương ứng với một dòng Disallow riêng biệt.
  • Allow (chỉ áp dụng cho Googlebot): Câu lệnh này cho phép Googlebot được quyền truy cập vào một trang hoặc thư mục con nhất định, ngay cả khi các cấp thư mục phía trên đã bị chặn.
  • Crawl-delay: Lệnh này chỉ định thời gian chờ (tính bằng giây) mà Web Crawler phải tuân thủ trước khi tiếp tục tải và thu thập nội dung của trang tiếp theo. Tuy nhiên, Googlebot không hỗ trợ cú pháp này. Nếu muốn điều chỉnh, bạn nên thực hiện trong Google Search Console.
  • Sitemap: Câu lệnh này nhằm cung cấp đường dẫn đến các tệp sitemap XML có liên quan đến website. Lưu ý rằng chỉ các công cụ như Google, Ask, Bing và Yahoo mới hỗ trợ cú pháp này trong file robots.txt.
Cú pháp của file robots txt
Cú pháp của file robots txt

Pattern – Matching

Trên thực tế, các file robots.txt trong WordPress thường khá phức tạp khi cần chặn hoặc cho phép các bot tìm kiếm. Nguyên nhân là vì chúng hỗ trợ Pattern-Matching – tính năng cho phép mở rộng điều kiện áp dụng với nhiều kiểu URL khác nhau một cách linh hoạt.

Hầu hết các công cụ tìm kiếm như Google và Bing đều hỗ trợ hai ký tự đặc biệt dùng trong Pattern-Matching để xác định rõ các trang hoặc thư mục con mà quản trị viên web muốn loại trừ khỏi việc thu thập dữ liệu. Hai ký tự này bao gồm dấu hoa thị * và ký hiệu đô la $.

  • Dấu * là ký tự đại diện cho bất kỳ chuỗi ký tự nào. Điều này đồng nghĩa bạn có thể sử dụng nó để bao quát nhiều kiểu đường dẫn hoặc tệp tin khác nhau mà không cần liệt kê cụ thể.
  • Ký hiệu $ được sử dụng để chỉ phần kết thúc của URL, cho phép kiểm soát chính xác các URL kết thúc bằng một chuỗi cụ thể (ví dụ: .pdf.jpg…).

Định dạng cơ bản của file robots.txt

Một tệp robots.txt thường được cấu trúc theo định dạng cơ bản sau:

User-agent:
Disallow:
Allow:
Crawl-delay:
Sitemap:

Trong đó, Crawl-delay và Sitemap là tùy chọn, bạn hoàn toàn có thể lược bỏ nếu không cần thiết. Đây là định dạng đầy đủ và phổ biến thường thấy trong robots.txt của các website WordPress. Tuy nhiên, trên thực tế, file này thường chứa nhiều nhóm lệnh với các User-agent khác nhau, tương ứng với từng loại bot cụ thể.

Ví dụ, bạn có thể sử dụng nhiều dòng DisallowAllow hay Crawl-delay cho từng bot riêng biệt. Thông thường, các lệnh sẽ được tách ra bằng một dòng trống để phân biệt từng nhóm quy tắc áp dụng cho từng bot.

Tuy nhiên, trong một số trường hợp, bạn vẫn có thể viết liên tục các dòng lệnh không cách dòng nếu áp dụng cho cùng một loại bot. Khi có nhiều chỉ thị khác nhau dành cho một User-agent, bot sẽ ưu tiên làm theo lệnh được viết cụ thể và rõ ràng nhất để xử lý nội dung trên website của bạn.

File robots.txt chuẩn

Dưới đây là một số ví dụ phổ biến về cách cấu hình file robots.txt để kiểm soát việc thu thập dữ liệu từ các trình thu thập thông tin (Web Crawler):

File robots.txt chuẩn
File robots.txt chuẩn

Chặn tất cả các trình thu thập dữ liệu truy cập website (bao gồm cả trang chủ):

Nếu bạn muốn ngăn mọi bot truy cập vào bất kỳ phần nào của website, kể cả trang chủ, hãy sử dụng cú pháp sau:

User-agent: * Disallow: /

Cho phép tất cả các trình thu thập thông tin truy cập toàn bộ website:

Trong trường hợp bạn muốn mở quyền truy cập cho tất cả các bot đến toàn bộ nội dung của website, hãy sử dụng cú pháp sau:

User-agent: * Disallow:

Chặn bot của Google không được thu thập dữ liệu trong một thư mục cụ thể:

Nếu bạn muốn Googlebot không thu thập bất kỳ trang nào nằm trong thư mục có đường dẫn là /example-subfolder/, hãy sử dụng cú pháp sau:

User-agent: Googlebot Disallow: /example-subfolder/

Chặn Bingbot không được thu thập một trang cụ thể:

Để ngăn Bingbot truy cập vào một trang cụ thể trong thư mục /example-subfolder/, ví dụ như blocked-page.html, bạn có thể sử dụng cú pháp:

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Các ví dụ trên là những cấu hình robots.txt cơ bản và chuẩn, giúp bạn dễ dàng điều hướng hoạt động của các công cụ tìm kiếm sao cho phù hợp với chiến lược SEO và bảo mật nội dung của website.

Ví dụ cho file robots.txt chuẩn

Dưới đây là một ví dụ về tệp robots.txt được sử dụng cho website www.example.com:

User-agent: * Disallow: /wp-admin/ Allow: / Sitemap: https://www.example.com/sitemap_index.xml

Vậy cấu trúc của file robots.txt trên có ý nghĩa gì? Hãy cùng phân tích.

Trước tiên, dòng User-agent: * cho biết rằng các quy tắc áp dụng cho mọi loại trình thu thập dữ liệu (web crawler), bao gồm Googlebot, Bingbot, và các bot khác.

Tiếp theo, dòng Disallow: /wp-admin/ cho biết rằng thư mục /wp-admin/ – nơi chứa giao diện quản trị của WordPress – sẽ không được phép thu thập dữ liệu.

Dòng Allow: / lại chỉ định rằng toàn bộ phần còn lại của website đều được cho phép lập chỉ mục. Điều này đồng nghĩa với việc các bot có thể thu thập và lập chỉ mục tất cả nội dung trên website, trừ phần bị chặn như đã nêu ở trên.

Cuối cùng, dòng Sitemap: https://www.example.com/sitemap_index.xml giúp chỉ rõ vị trí của tệp sitemap XML, hỗ trợ các bot tìm kiếm nhanh chóng truy cập và lập chỉ mục toàn bộ các trang có trên website một cách hiệu quả.

Tóm lại, cấu trúc robots.txt như ví dụ trên cho thấy bạn chỉ ngăn bot truy cập phần quản trị, đồng thời cho phép lập chỉ mục toàn bộ nội dung còn lại và hỗ trợ trình thu thập dữ liệu bằng cách cung cấp sơ đồ website. Đây là một cấu hình chuẩn, thường được áp dụng cho các website WordPress.

Cách Submit File Robots.txt lên công cụ tìm kiếm

Mặc dù không bắt buộc, việc submit file robots.txt lên các công cụ tìm kiếm sẽ giúp tăng tốc quá trình thu thập dữ liệu cho website và đảm bảo rằng cấu trúc trang được hiểu chính xác hơn. Việc gửi file robots.txt cũng giúp bạn:

  • Nhanh chóng phát hiện và khắc phục các lỗi trong cấu hình robots.txt.
  • Cung cấp chỉ dẫn rõ ràng để công cụ tìm kiếm xác định nội dung nào cần được lập chỉ mục.
Cách Submit File Robots.txt lên công cụ tìm kiếm
Cách Submit File Robots.txt lên công cụ tìm kiếm

Các bước submit file robots.txt

Sử dụng Google Search Console

  • Truy cập vào Google Search Console và đăng nhập bằng tài khoản Google có quyền quản trị website.
  • Trong giao diện bảng điều khiển, chọn website bạn muốn thao tác.
  • Tìm đến phần “Thu thập dữ liệu” (hoặc “Crawl” trong phiên bản tiếng Anh).
  • Nhấp vào mục “Trình kiểm tra robots.txt” (Robots.txt Tester).
  • Nhập đường dẫn URL của website và nhấn “Kiểm tra”.
  • Nếu file robots.txt tồn tại, hệ thống sẽ hiển thị nội dung file.
  • Sau khi kiểm tra xong, nhấp vào “Gửi” (Submit) để hoàn tất việc gửi file robots.txt lên Google.

Sử dụng Bing Webmaster Tools

  • Truy cập Bing Webmaster Tools và đăng nhập bằng tài khoản Microsoft được cấp quyền quản trị website.
  • Chọn website bạn muốn thao tác từ danh sách trong bảng điều khiển.
  • Vào mục “Crawl” hoặc “Thu thập dữ liệu”.
  • Nhấp vào mục “Robots.txt” để truy cập công cụ gửi file.
  • Nhập địa chỉ URL chứa file robots.txt của bạn và nhấn “Submit” để hoàn tất quá trình gửi.

Việc gửi file robots.txt không chỉ giúp công cụ tìm kiếm dễ dàng tiếp cận sitemap và nội dung chính trên website, mà còn giúp quản trị viên chủ động kiểm soát cách bot thu thập dữ liệu một cách chính xác và hiệu quả hơn.

Những hạn chế của file robots.txt

Mặc dù file robots.txt là một công cụ quan trọng trong việc kiểm soát quyền truy cập của các trình thu thập dữ liệu, nhưng nó vẫn tồn tại một số hạn chế mà quản trị viên website cần lưu ý:

Không phải công cụ tìm kiếm nào cũng tuân thủ robots.txt

Một số công cụ tìm kiếm hoặc bot không uy tín có thể phớt lờ các lệnh trong robots.txt và vẫn truy cập vào các khu vực bị chặn. Do đó, nếu bạn muốn đảm bảo an toàn cho các nội dung nhạy cảm, cách bảo mật tốt nhất là thiết lập quyền truy cập hoặc đặt mật khẩu bảo vệ cho các thư mục và tệp quan trọng trên máy chủ.

Mỗi công cụ thu thập dữ liệu có cách hiểu cú pháp khác nhau

Dù các bot phổ biến như Googlebot hay Bingbot thường tuân thủ tiêu chuẩn robots.txt, nhưng mỗi công cụ tìm kiếm lại có cách phân tích cú pháp riêng. Điều này có thể dẫn đến việc một số chỉ thị không được hiểu hoặc thực thi đúng cách. Vì vậy, các lập trình viên và quản trị viên website cần nắm rõ cú pháp và mức độ hỗ trợ của từng trình thu thập dữ liệu để tránh nhầm lẫn.

Robots.txt không ngăn hoàn toàn việc index nội dung

Ngay cả khi bạn đã chặn một URL trong file robots.txt, Google vẫn có thể lập chỉ mục URL đó nếu tìm thấy liên kết ở nơi khác trên Internet. Trong trường hợp nội dung bên trong không quan trọng hoặc cần được ẩn hoàn toàn, bạn nên xóa URL khỏi website hoặc sử dụng thẻ meta noindex để đảm bảo Google không hiển thị trang đó trên kết quả tìm kiếm.

Những hạn chế của file robots.txt
Những hạn chế của file robots.txt

Một số lưu ý quan trọng khi sử dụng tệp robots.txt

Khi triển khai tệp robots txt cho website, bạn cần lưu ý một số điểm sau để đảm bảo hiệu quả và tránh rủi ro bảo mật:

  • Không cần chỉ định riêng từng User-agent: Thông thường, các User-agent đều thuộc về các công cụ tìm kiếm phổ biến và tuân thủ quy tắc chung. Việc liệt kê từng cái là không cần thiết và có thể làm phức tạp tệp robots txt mà không mang lại lợi ích rõ ràng.
  • Không sử dụng robots.txt để chặn dữ liệu nhạy cảm: Các thông tin như dữ liệu người dùng, thông tin cá nhân hay tài liệu nội bộ không nên được bảo vệ bằng robots txt. Lý do là vì một số công cụ tìm kiếm – kể cả Googlebot – vẫn có thể bỏ qua các lệnh trong tệp này, khiến nội dung có thể bị hiển thị công khai.
  • Bảo mật dữ liệu tốt hơn bằng mật khẩu: Thay vì dựa vào robots.txt, bạn nên sử dụng cơ chế bảo mật mạnh hơn như yêu cầu đăng nhập hoặc giới hạn quyền truy cập trên máy chủ để ngăn chặn các tệp hoặc URL không mong muốn bị thu thập.
  • Không nên lạm dụng tệp robots.txt: Việc sử dụng quá nhiều lệnh Disallow có thể gây hiểu lầm cho các công cụ tìm kiếm hoặc làm ảnh hưởng đến quá trình index nội dung quan trọng. Hãy sử dụng robots.txt một cách có chọn lọc và phù hợp với mục tiêu SEO của bạn.

File robots.txt hoạt động như thế nào?

Các công cụ tìm kiếm, chẳng hạn như Googlebot, có hai nhiệm vụ chính khi tiếp cận một website:

  1. Crawl (thu thập dữ liệu): Công cụ tìm kiếm lần theo các liên kết từ trang này đến trang khác để khám phá nội dung của website. Quá trình này còn được gọi là Spidering.
  2. Index (lập chỉ mục): Sau khi thu thập dữ liệu, các công cụ sẽ lưu trữ và sắp xếp thông tin để phục vụ cho các truy vấn tìm kiếm của người dùng.

Khi một công cụ tìm kiếm truy cập vào một website, điều đầu tiên nó làm là tìm kiếm tệp robots.txt. Nếu tệp này tồn tại, các bot sẽ đọc nội dung trong đó để biết những phần nào của website được phép hoặc không được phép thu thập dữ liệu.

Tệp robots.txt sẽ chứa các quy tắc chỉ định cho các bot công cụ tìm kiếm (User-agent) về việc truy cập các đường dẫn cụ thể. Ví dụ, bạn có thể cho phép Googlebot thu thập toàn bộ trang, nhưng không cho phép truy cập thư mục quản trị (/wp-admin/).

Trong trường hợp không có tệp robots.txt hoặc tệp này không chứa chỉ thị cụ thể, các bot sẽ mặc định rằng toàn bộ nội dung website đều có thể được crawl và index.

File robots.txt hoạt động như thế nào?
File robots.txt hoạt động như thế nào?

File robots.txt nằm ở đâu trên một website?

Khi bạn tạo một website bằng WordPress, hệ thống sẽ tự động sinh ra một file robots.txt ảo nằm tại thư mục gốc của máy chủ. Ví dụ, nếu website bạn là socseoer.com, bạn có thể truy cập file này bằng đường dẫn: socseoer.com/robots.txt

Nội dung mặc định ban đầu có thể trông như sau:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Trong đó:

  • User-agent: * có nghĩa là các quy tắc áp dụng cho mọi bot (trình thu thập dữ liệu).
  • Disallow: /wp-admin/ và /wp-includes/ yêu cầu bot không truy cập vào hai thư mục quan trọng, vốn chứa nhiều tệp nhạy cảm của WordPress.

Lưu ý, đây là file ảo do WordPress tự tạo và không thể chỉnh sửa trực tiếp thông qua hệ thống quản trị. Nó thường nằm trong thư mục gốc (root directory) của hosting, còn gọi là public_htmlwww hoặc tên thư mục chính của website.

Nếu bạn muốn tạo file robots.txt tùy chỉnh, bạn cần tạo một file thật và đặt nó vào thư mục gốc này để ghi đè file mặc định của WordPress.

Làm thế nào để kiểm tra website có file robots.txt không?

Để kiểm tra website của bạn có file robots.txt hay không, bạn chỉ cần thực hiện một thao tác đơn giản. Hãy nhập tên miền chính (root domain) của website, sau đó thêm đuôi /robots.txt vào cuối địa chỉ URL.

Ví dụ: nếu tên miền của bạn là example.com, hãy truy cập vào địa chỉ example.com/robots.txt.

  • Nếu trình duyệt hiển thị một nội dung dạng văn bản với các dòng lệnh như User-agentDisallow…, điều đó có nghĩa là website của bạn đã có file robots.txt.
  • Ngược lại, nếu trình duyệt báo lỗi như “404 Not Found” hoặc không hiển thị file văn bản nào, thì website của bạn hiện chưa có tệp robots.txt.

Bạn có thể áp dụng cách kiểm tra này cho bất kỳ website nào. Chẳng hạn, với website socseoer.com, bạn chỉ cần nhập socseoer.com/robots.txt vào thanh địa chỉ và nhấn Enter. Kết quả hiển thị sẽ cho bạn biết website đó có tạo file robots.txt hay chưa.

Làm thế nào để kiểm tra website có file robots.txt không?
Làm thế nào để kiểm tra website có file robots txt không?

Quy tắc nào cần được bổ sung vào trong file robots.txt WordPress?

Trong file robots.txt, bạn có thể thêm nhiều bộ quy tắc khác nhau để kiểm soát hành vi của từng loại bot truy cập vào website WordPress của mình. Mỗi bộ quy tắc sẽ bắt đầu bằng khai báo User-agent, sau đó là các chỉ thị như Allow hoặc Disallow.

Thông thường, nhiều người chỉ áp dụng một bộ quy tắc duy nhất cho tất cả các bot. Tuy nhiên, nếu bạn muốn quy định riêng cho từng bot cụ thể thì có thể thêm nhiều đoạn như ví dụ sau:

User-agent: * Disallow: /wp-admin/
User-agent: Bingbot
Disallow: /

Giải thích:

  • User-agent: * là quy tắc áp dụng cho tất cả các bot. Ở đây, bạn cho phép truy cập toàn bộ website, ngoại trừ thư mục /wp-admin/.
  • User-agent: Bingbot là quy tắc chỉ áp dụng riêng cho bot của Bing. Trong trường hợp này, bạn chặn toàn bộ quyền truy cập vào website đối với Bingbot.

Khi nhiều bộ quy tắc được khai báo, mỗi bot sẽ tuân theo phần User-agent phù hợp với mình. Nhờ đó, bạn có thể kiểm soát linh hoạt việc thu thập dữ liệu từ từng công cụ tìm kiếm khác nhau.

3 Cách tạo file robots.txt WordPress đơn giản

Nếu sau khi kiểm tra, bạn phát hiện website của mình chưa có tệp robots.txt hoặc bạn đang muốn điều chỉnh lại nội dung file này, hãy tham khảo 3 cách đơn giản sau để tạo robots.txt cho WordPress:

3 Cách tạo file robots.txt WordPress đơn giản
3 Cách tạo file robots txt WordPress đơn giản

Tạo file robots.txt bằng Yoast SEO

Đây là cách phổ biến và đơn giản nếu bạn đang sử dụng plugin Yoast SEO. Làm theo các bước sau:

  • Đăng nhập vào trang quản trị WordPress của bạn.
  • Trong menu bên trái, chọn “SEO”, sau đó chọn “Tools” (Công cụ).
  • Nhấn vào mục “File editor” (Trình chỉnh sửa tệp).

Tại đây, bạn sẽ thấy hai phần để chỉnh sửa: một là tệp .htaccess, hai là tệp robots.txt. Nếu WordPress của bạn chưa cho phép chỉnh sửa file trực tiếp, bạn cần kích hoạt tính năng này thông qua FTP (File Transfer Protocol).

Sau khi kích hoạt, bạn có thể tạo mới hoặc chỉnh sửa nội dung file robots.txt theo ý muốn, ví dụ:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sử dụng Plugin All in One SEO

Ngoài cách dùng Yoast SEO, bạn cũng có thể sử dụng Plugin All in One SEO để tạo file robots.txt WordPress một cách dễ dàng. Đây là một trong những plugin tối ưu SEO phổ biến – giao diện thân thiện, thao tác nhanh chóng.

Để bắt đầu, bạn truy cập vào giao diện chính của All in One SEO Pack. Tại đây, chọn All in One SEO > Features Manager > nhấn Active ở mục robots.txt.

Ngay sau đó, giao diện sẽ cập nhật thêm các tính năng mới liên quan đến robots.txt:

  • robots.txt, hỗ trợ tạo và quản lý file robots.txt

  • Nhấn Activate để kích hoạt tính năng này

Khi đã kích hoạt thành công, bạn sẽ thấy tab robots.txt xuất hiện trong mục quản lý của All in One SEO. Tại đây, bạn hoàn toàn có thể tạo mới hoặc tùy chỉnh file robots.txt phù hợp với cấu trúc website của mình.

Tạo và điều chỉnh file robots.txt WordPress ngay trong giao diện plugin.

Tuy nhiên, Plugin All in One SEO có một điểm hơi khác biệt so với Yoast SEO:

Nó không cho phép bạn chỉnh sửa trực tiếp nội dung file robots.txt mà chỉ hiển thị dưới dạng bị làm mờ. Điều này có thể gây một chút bất tiện khi bạn cần tùy biến chi tiết. Nhưng nhìn theo hướng tích cực, cách hiển thị này giúp bảo vệ website khỏi các lỗi chỉnh sửa không mong muốn. Đặc biệt là khi đối mặt với các Malware bots – những tác nhân gây hại âm thầm mà bạn khó lường trước.

Tạo và upload file robots.txt thủ công qua FTP

Nếu bạn không muốn sử dụng plugin để tạo file robots.txt cho WordPress, thì vẫn còn một lựa chọn khác linh hoạt hơn – đó là tự tạo file thủ công và upload qua FTP. Phương pháp này phù hợp với những ai thích kiểm soát chi tiết hoặc làm việc trực tiếp với hệ thống file trên máy chủ.

Bạn chỉ cần mở một trình soạn thảo văn bản đơn giản như Notepad (Windows) hoặc TextEdit (Mac), sau đó nhập nội dung theo cấu trúc file robots.txt mà bạn muốn. Ví dụ:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sau khi hoàn tất, lưu lại file với tên robots.txt.

Tiếp theo, bạn mở phần mềm FTP như FileZilla, đăng nhập vào hosting của mình và điều hướng đến thư mục gốc của website (thường là public_html hoặc thư mục chứa các file WordPress chính). Tại đây, chỉ cần upload file robots.txt vừa tạo vào.

Chỉ với vài thao tác đơn giản, bạn đã có thể tạo và cài đặt file robots.txt cho WordPress mà không cần dùng đến bất kỳ plugin nào. Cách này đặc biệt hữu ích nếu bạn đang làm việc với nhiều website khác nhau, hoặc muốn tự động hóa việc cài đặt robots theo ý mình.

Một số quy tắc cần lưu ý khi tạo file robots.txt

Để các bot tìm kiếm có thể phát hiện và truy cập, file robots.txt WordPress cần được đặt ở thư mục gốc (root) của website.

Lưu ý rằng định dạng .txt phân biệt chữ hoa và chữ thường, vì vậy tên tệp chính xác phải là robots.txt (không được ghi là Robots.txt hay robots.TXT,…).

Bạn không nên thêm các thư mục như /wp-content/themes/ hoặc /wp-content/plugins/ vào phần Disallow, vì điều này sẽ khiến công cụ tìm kiếm không thể đọc đúng giao diện hay tính năng của website.

Có một số User-agent (trình thu thập dữ liệu) sẽ bỏ qua hoàn toàn các hướng dẫn trong file robots.txt. Trường hợp này thường xảy ra với các bot độc hại như:

  • Bot chứa mã độc (malware robots)
  • Các công cụ thu thập địa chỉ email tự động (email scraping tools)

Ngoài ra, file robots.txt là tệp công khai – bất kỳ ai cũng có thể truy cập bằng cách thêm /robots.txt vào sau tên miền gốc. Điều đó đồng nghĩa với việc mọi người đều có thể thấy các đường dẫn bạn muốn (hoặc không muốn) bot thu thập. Vì thế, đừng dùng robots.txt để giấu dữ liệu nhạy cảm hay thông tin người dùng.

Cuối cùng, mỗi subdomain đều cần có file robots.txt riêng biệt. Ví dụ, blog.example.com và example.com nên sử dụng hai tệp khác nhau là blog.example.com/robots.txt và example.com/robots.txt. Đây cũng là cách tốt nhất để chỉ định vị trí của các sitemap liên kết với domain ở phần cuối file robots.txt.

Một số lưu ý khi sử dụng file robots.txt

Khi sử dụng file robots.txt cho WordPress, bạn cần lưu ý một số điểm quan trọng để tránh ảnh hưởng tiêu cực đến khả năng lập chỉ mục của website:

  • Tránh chặn nhầm nội dung quan trọng. Hãy đảm bảo rằng bạn không vô tình chặn các phần nội dung hoặc trang mà bạn muốn Google và các công cụ tìm kiếm khác lập chỉ mục.
  • Các liên kết nằm trong trang bị chặn bởi robots.txt sẽ không được các bot theo dõi. Nếu các liên kết đó không được dẫn từ các trang khác (không bị chặn), chúng có thể không được thu thập và lập chỉ mục.
  • Việc sử dụng robots.txt để chặn trang sẽ khiến Link juice (giá trị truyền từ liên kết) không được chuyển tiếp tới các trang đích. Nếu bạn muốn truyền giá trị liên kết, hãy cân nhắc sử dụng phương pháp khác thay vì chặn bằng robots.txt.
  • Không nên dùng file robots.txt để chặn các nội dung nhạy cảm như thông tin cá nhân hay dữ liệu riêng tư. Các trang này có thể bị liên kết từ những nơi khác và do đó vẫn bị lập chỉ mục bất chấp việc bạn đã chặn bằng robots. Thay vào đó, hãy sử dụng các phương pháp bảo mật mạnh hơn như mật khẩu bảo vệ hoặc dùng thẻ Meta Robots với thuộc tính noindex.
  • Một số công cụ tìm kiếm sử dụng nhiều User-agent khác nhau. Ví dụ, Google có Googlebot để thu thập dữ liệu trang thông thường và Googlebot-Image để thu thập hình ảnh. Mặc dù đa phần các User-agent thuộc cùng một công cụ tìm kiếm sẽ tuân thủ một quy tắc chung, việc phân định rõ ràng từng User-agent sẽ giúp bạn kiểm soát chi tiết hơn quá trình thu thập dữ liệu.
  • Nội dung file robots sẽ được các công cụ tìm kiếm lưu vào bộ nhớ cache và thường xuyên cập nhật lại, ít nhất một lần mỗi ngày. Nếu bạn cần cập nhật nội dung ngay lập tức, hãy sử dụng công cụ kiểm tra và gửi lại file robots.txt trong Google Search Console để yêu cầu cập nhật nhanh chóng.
Một số lưu ý khi sử dụng file robots.txt
Một số lưu ý khi sử dụng file robots txt

Câu hỏi thường gặp về robots txt

Kích thước tối đa của file robots.txt là bao nhiêu?

Khoảng 500 kilobyte.

File robots.txt của WordPress nằm ở đâu?

File này được đặt tại đường dẫn: domain.com/robots.txt.

Làm cách nào để chỉnh sửa file robots.txt trong WordPress?

Bạn có thể chỉnh sửa thủ công qua FTP hoặc sử dụng các plugin hỗ trợ SEO như Yoast, cho phép chỉnh sửa trực tiếp từ giao diện quản trị WordPress.

Điều gì xảy ra nếu chặn (Disallow) nội dung có chứa thẻ Noindex trong robots.txt?

Google sẽ không thể truy cập trang để thấy thẻ Noindex, do đó lệnh Noindex sẽ không có hiệu lực.

Có thể dùng URL đầy đủ thay vì đường dẫn tương đối trong robots.txt không?

Không thể. Các lệnh trong file robots.txt (ngoại trừ dòng chỉ định Sitemap) chỉ hoạt động với đường dẫn tương đối.

Làm cách nào để tạm ngừng toàn bộ hoạt động thu thập dữ liệu trang web?

Cách hiệu quả nhất là trả về mã HTTP 503 cho tất cả URL, bao gồm cả robots. Không nên dựa vào việc chỉnh sửa robots.txt để tạm dừng thu thập dữ liệu.

Làm thế nào để chặn tất cả các công cụ thu thập dữ liệu?

Bạn có thể vào phần Cài đặt > Đọc trong WordPress, sau đó chọn mục “Ngăn công cụ tìm kiếm lập chỉ mục site này”. Khi đó, WordPress sẽ:

  • Thêm thẻ meta vào tiêu đề trang:
    <meta name="robots" content="noindex,follow">

  • Cập nhật file robots.txt với nội dung:

    User-agent: *
    Disallow: /

Lưu ý: Đây chỉ là yêu cầu dành cho các công cụ tìm kiếm, họ có thể chọn tuân thủ hoặc bỏ qua.

Chặn trình thu thập dữ liệu của Google không truy cập thư mục con:

User-agent: Googlebot
Disallow: /example-subfolder

Chặn Bingbot không truy cập một trang cụ thể:

User-agent: Bingbot
Disallow: /example-subfolder/blocked-page.html

Nếu bạn cần thêm ví dụ về cách viết file robots hoặc muốn tối ưu hóa cho SEO, mình có thể hỗ trợ thêm.

Robots.txt, Meta Robots và X-Robots khác nhau như thế nào?

Robots.txt là một tệp văn bản đặt tại thư mục gốc của website, dùng để hướng dẫn trình thu thập dữ liệu (crawler) của công cụ tìm kiếm về việc có được phép truy cập vào các phần cụ thể của website hay không.

Meta Robots là các thẻ HTML được đặt trong phần <head> của trang web. Thẻ này cung cấp chỉ dẫn cho công cụ tìm kiếm về cách lập chỉ mục từng trang, ví dụ như: có nên lập chỉ mục trang, có nên theo các liên kết trong trang không, v.v.

X-Robots-Tag là một tiêu đề HTTP, không nằm trong mã HTML, được máy chủ trả về khi có yêu cầu truy cập tài nguyên. Nó cho phép bạn kiểm soát việc lập chỉ mục không chỉ trang HTML mà còn các tệp không phải HTML như PDF, hình ảnh hoặc video.

Tóm lại:

  • Robots.txt điều khiển quyền truy cập ở cấp thư mục hoặc toàn website.
  • Meta Robots kiểm soát lập chỉ mục ở cấp độ từng trang HTML.
  • X-Robots-Tag linh hoạt hơn, áp dụng được cho cả nội dung không phải HTML.

Cả Meta Robots và X-Robots đều cho phép thiết lập các lệnh như noindexnofollownoarchive… tùy theo mục đích SEO.

Kết luận

Việc tối ưu hóa file robots.txt là một bước quan trọng trong chiến lược SEO tổng thể, giúp điều hướng trình thu thập dữ liệu của công cụ tìm kiếm theo cách có lợi nhất cho website của bạn. Dù bạn chọn tạo thủ công hay sử dụng plugin, điều cốt lõi là phải hiểu rõ cấu trúc và cách hoạt động của robots, cũng như sự khác biệt giữa nó với Meta Robots và X-Robots. Một file robots.txt được cấu hình đúng không chỉ giúp bảo mật thông tin nội bộ, tránh lập chỉ mục những phần không cần thiết mà còn cải thiện hiệu quả crawl và index toàn trang. Hãy kiểm tra và cập nhật định kỳ để đảm bảo tệp luôn phù hợp với mục tiêu SEO và cấu trúc website hiện tại.