Robots.txt là gì? Tìm hiểu về robots.txt

Thảo luận trong 'Chiến Lược SEO' bắt đầu bởi Max Bay, 9/11/17.

  1. Max Bay

    Max Bay Member

    Tệp tin robot.txt là phương thức cơ bản để nói cho một công cụ tìm kiếm biết được nơi nào nó được quét và không được quét trên website của bạn. Đa số những công cụ tìm kiếm phổ biến hiện tại đều có hỗ trợ nền tảng cơ bản mà tệp robot.txt cung cấp. Có một vài nguyên tắc được các công cụ áp dụng cũng khá hữu ích. Hướng dẫn này bao gồm tất cả những ứng dụng của robot.txt cho website. Trông thì khá đơn giản, nhưng chỉ cần một sai sót nhỏ với robot.txt cũng có thể ảnh hưởng nghiêm trọng cho website, vì thế hãy chắc rằng bạn đọc và nắm những kiến thức dưới đây thật chắc.

    [​IMG]

    robot.txt là gì?

    robot.txt là một tệp tin văn bản, tuân theo cú pháp chặt chẽ. Nó sẽ được quét bởi các Spider - công cụ thu thập dữ liệu của các công cụ tìm kiếm. Những Spider này, còn có tên gọi khác là Robot, vì đó mà cái tên robot.txt ra đời. Cú pháp của tệp này phải thật chuẩn xác, đơn giản vì nó chỉ dành cho hệ thống máy tính đọc.

    Còn có tên gọi khác là “Robots Exclusion Protocol”, robot.txt được sinh ra từ sự hợp tác nghiên cứu của những người phát triển Spider đầu tiên. Đến nay, nó chưa thật sự có một chuẩn chính thức nào từ bất kì tổ chức uy tín nào, nhưng gần như tất cả những công cụ tìm kiếm lớn nhất hiện nay đều dùng nó.

    Tệp robot.txt có tác dụng gì?

    Các công cụ tìm kiếm sẽ xếp hạng trang của bạn bằng cách quét nó. Spider theo những liên kết để khám phá không ngừng nghỉ từ trang A đến B, từ B đến C,... Trước khi “con nhện” khám một trang từ tên miền mà nó chưa từng gặp trước đây, nó sẽ tìm và mở file robot.txt. Tệp robot.txt sẽ báo cho công cụ tìm kiếm biết được URL nào trong website được phép để index.

    Công cụ tìm kiếm thường lưu trữ lại nội dung của robot.txt, nhưng thường sẽ quét để cập nhật lại file này vài lần một ngày. Đó là lí do khi chỉnh sửa tệp đuôi txt này, bạn sẽ thấy những thay đổi nhanh chóng.

    Tôi nên đặt tệp robot.txt ở đâu?

    Tệp robot.txt nên luôn luôn đặt ở đuôi của tên miền. Ví dụ, nếu tên miền của bạn là http://www.abcdefgh.com, thì nên sắp đặt là
    Mã:
    http://www.abcdefgh.com/robot.txt
    . LƯU Ý: nếu tên miền không có “www.”, hãy chắc rằng nó cũng có đường dẫn tương tự! Điều này thì vẫn giống nhau cho HTTP và HTTPS. Khi một công cụ tìm kiếm cử một Spider đi khám một URL như:
    Mã:
    http://www.abcdefgh.com/test
    , nó sẽ khám file
    Mã:
    http://www.abcdefgh.com/robot.txt
    trước tiên. Khi nó cần quét cùng một đường dẫn đó nhưng trên giao thức HTTPS, nó cũng sẽ tự động nhảy vào tìm
    Mã:
    https://www.abcdefgh.com/robot.txt
    trước.

    Cũng nhắc thêm một điều quan trọng là “robot.txt” phải được viết đúng “robot.txt”. Sẽ có phân biệt giữa viết hoa và viết thường. Vì thế đừng mắc những sai lầm ngớ ngẫn và nó sẽ không vận hành được.

    Lợi và Hại của việc dùng “robot.txt”


    LỢI

    Mỗi trang sẽ có một “hạn định” cụ thể về việc có bao nhiêu URL của trang mà cho các ông lớn như Google sẽ quét qua, trong SEO gọi điều này là “Crawl Budget”. Bằng việc khóa những phần của site bạn khỏi Spider, bạn có thể dành phần “Crawl Budget” cho những mục khác mà bạn muốn. Đặc biệt đối với những site còn nhiều mục chưa kịp tối ưu chuẩn SEO, thì sẽ cần thiết lúc ban đầu để khóa đi những phần cho công cụ tìm kiếm không “chạm tay” đến được.

    HẠI

    Sử dụng file robot.txt để báo cho một Spider nơi nào nó không được đi tới trong website của bạn. Nhưng bạn không thể nói với công cụ tìm kiếm: liên kết nào không được hiển thị trong kết quả tìm kiếm. Điều này có nghĩa là, không cho phép một công cụ tìm kiếm quét qua một URL – tạm gọi là khóa nó – thì không có nghĩa URL đó sẽ không xuất hiện trong kết quả tìm kiếm. Cho dù bạn đã ngăn cấm việc quét trang trong tệp txt, nhưng nếu Google nhận thấy rằng có n liên kết đều trỏ về URL đó (n là một số đủ lớn với Google), nó sẽ tự động bao gồm luôn trang đó.

    [​IMG]

    Nếu muốn ẩn khỏi kết quả tìm kiếm, bạn có thể sử dụng thẻ meta robot “noindex”. Tôi sẽ nói rõ hơn điều này ở phần sau.

    Một điều bất tiện nữa của file text này là: khi mà công cụ tìm kiếm không thể quét qua trang, nó không thể phân loại được “link value” cho những liên kết trỏ về trang mà bạn đã khóa. Nếu nó có thể quét, nhưng không index, chất lượng của những liên kết trỏ về trang vẫn được tính toán. Nhưng nếu khóa bằng robot.txt, những backlink trở về gần như bị mất “link value”

    Cú pháp của robot.txt

    Một file robot.txt sẽ bao gồm một hoặc nhiều câu lệnh, mỗi lệnh như vậy bắt đầu bằng một dòng “user agent”. “user-agent” là tên của Spider đặc trưng mà nó chỉ định. Bạn có thể khóa một lần cho tất cả công cụ tìm kiếm, sử dụng một kí tự đại diện cho user-agent hoặc chỉ khóa riêng đối với một công cụ tìm kiếm nào đó.

    Một khóa điều hướng sẽ có dạng như thế này – đừng hoảng, tôi có giải thích bên dưới:
    www.example.com. Ví dụ:

    host: example.com

    Bởi vì Yandex hỗ trợ lệnh host, chúng tôi sẽ không khuyến khích bạn phụ thuộc vào nó. Đặc biệt khi nó không cho phép bạn chọn lựa giao thức (http or https). Một giải pháp tốt hơn mà mọi công cụ tìm kiếm đều hỗ trợ đó là “301 redirect” và cài tên host mà bạn không mong muốn.

    Lệnh crawl-delay

    Lệnh này được hỗ trợ bởi Yahoo, Bing và Yandex, khá hữu ích trong việc làm chậm chạp đi những spider của 3 ông lớn trên trong việc ngấu nghiến thông tin trên web của bạn. Những công cụ tìm kiếm sẽ có phương thức tiếp cận trang khác đi một chút so với cách thông thường, tuy nhiên kết quả cuối cùng nhận được thường là vẫn vậy.

    Một dòng như bên dưới sẽ làm cho Yahoo và Bing đợi thêm 10s sau khi có một hoạt động quét dữ liệu. Yandex thì cũng chỉ tiếp cận được site với tần số 10s một lần

    crawl-delay: 10

    Nhưng hãy cẩn trọng khi sử dụng lệnh này, nếu bạn hoãn 10s mỗi lần quét, tức là chỉ cho phép mỗi ngày quét được 8640 trang trong site của bạn. Nghe thì có vẻ nhiều cho những site nhỏ, nhưng những site lớn chẳng đáng là bao nhiêu. Ở một góc nhìn khác, nếu bạn được truy cập ít hơn từ những công cụ tìm kiếm, cũng là một cách giúp tiết kiệm băng thông. Đó là lí do ra đời của lệnh này.

    Lệnh sitemap

    Dùng sitemap, bạn có thể nói với “ông cụ” – đặc biệt là Google, Yahoo, Bing – vị trí của sitemap XML. Tất nhiên bạn cũng có thể gửi XML sitemap cho từng “ông cụ”, bằng cách sử dụng công cụ quản lí webmaster uy tín của từng hãng tìm kiếm. Trong thực tế, chúng tôi khuyến nghị nên làm theo cách đó. Chương trình webmaster tool của mỗi công cụ tìm kiếm sẽ cung cấp những thông tin rất cụ thể và có ích cho website của bạn. Còn nếu không muốn, thì cứ thêm dòng sitemap cho file robot.txt thôi, đây là một cách “mỳ ăn liền”.

    Hợp thức hóa file robot.txt của bạn

    Có một vài công cụ sẽ hợp thức hóa robot.txt, chúng tôi thường tin tưởng vào những nguồn đáng tin cậy. Google có một công cụ kiểm tra robot.txt trong Google Search Console (ở dưới Crawl menu) và chúng tôi khuyến nghị nên dùng nó:

    [​IMG]
    Hãy chắc rằng bạn đã kiểm tra những thay đổi trước khi cho nó lên sóng! Bạn sẽ không muốn là một trong nhiều trường hợp gặp tai nạn với robot.txt khiến cho toàn bộ trang web gần như rơi vào quên lãng với những ông lớn như Google mà tôi đã từng gặp.

    Nguồn: SEOMxh
     

    Các file đính kèm:

    Tags:
    danh sách diễn đàn rao vặt gov chất lượng
  2. leson3

    leson3 New Member

    mình thấy dien dan có nhieu bai viet rat hay rat tot cho dan seo web.cam on
     
  3. huykjkj112

    huykjkj112 Member

    cảm ơn chủ thớt dù em đọc cũng chả hiểu gì nhiều lắm hihi =))
     
  4. Shop Maxsuong

    Shop Maxsuong Member

    Trước mình không chu ý đến file robot nay. Nhưng làm 1 thời gian mới biết tác dụng của nó. Nếu muốn seo tốt thì phải tìm hiểu kỹ hơn.
     
Đang tải...