Semalt đưa ra những lý do chính khiến Googlebot không thu thập thông tin mọi trang trên một số trang web


Chúng tôi đã có khách hàng đến để phàn nàn rằng một số trang web của họ không được Googlebot thu thập thông tin. Là các chuyên gia SEO, nhiệm vụ của chúng tôi là tìm ra vấn đề và khắc phục nó để khách hàng của chúng tôi có thể hài lòng và giữ cho trang web của họ ở trạng thái tốt nhất.

John Mueller của Google giải thích một số yếu tố ảnh hưởng đến cách các trang trên bất kỳ trang web nào được thu thập thông tin. Tất nhiên, điều này không cụ thể, nhưng nó chỉ cho chúng ta đi đúng hướng. Trong bài đăng đó, John cũng nêu rõ lý do tại sao một số trang trên một trang web không được thu thập thông tin.

Câu hỏi dẫn đến câu trả lời này là lo ngại về lý do tại sao Google thu thập dữ liệu các trang web với tốc độ tương đối chậm, không đủ để xử lý số lượng lớn các trang web hiện nay.

Hiểu Ngân sách Thu thập thông tin của Google

Đây là lĩnh vực đầu tiên chúng tôi chọn tập trung vào vì nó giải thích rất nhiều về tần suất Google thu thập dữ liệu một trang web. Googlebot (tên cho trình thu thập thông tin web của Google) đi qua các trang web và giữ cho chúng được lập chỉ mục để chúng có thể xếp hạng trên SERP. Tuy nhiên, số lượng lớn các trang web trở thành một vấn đề, đó là lý do tại sao Google đã nghĩ ra một chiến lược trong đó chỉ lập chỉ mục các trang web chất lượng cao. Hãy coi nó như một số dạng bộ lọc. Thay vì dành tất cả các tài nguyên đó trên các trang có nhiều khả năng không liên quan đến người dùng, Google chỉ tập trung vào các trang web có chất lượng cao.

Ngân sách thu thập thông tin của một trang web là lượng tài nguyên mà Google dành để thu thập dữ liệu trang web đó. Điều quan trọng cần lưu ý là không phải mọi thứ được thu thập thông tin đều được lập chỉ mục. Các trang web chỉ được lập chỉ mục sau khi chúng được thu thập thông tin và được coi là có giá trị.

Khi ngân sách thu thập thông tin của bạn đã được sử dụng hết, Google sẽ ngừng thu thập dữ liệu các trang web của bạn.

Đặt ngân sách thu thập thông tin của bạn

Ngân sách thu thập thông tin trang web được xác định bởi bốn yếu tố chính:
Dễ hiểu tại sao bạn lại lo lắng khi một số nội dung của bạn không được thu thập thông tin với tư cách là chủ sở hữu trang web. Điều này làm giảm cơ hội xếp hạng của bạn, đặc biệt khi đó là phần nội dung có giá trị nhất của bạn bị bỏ đi.

Cách khắc phục sự cố thu thập thông tin

Khắc phục sự cố với thẻ Meta hoặc tệp robots.txt của bạn

Các vấn đề thuộc loại này thường dễ phát hiện và giải quyết. Đôi khi, toàn bộ trang web của bạn hoặc các trang cụ thể trên trang web của bạn có thể bị Google không nhìn thấy vì Googlebot không được phép nhập chúng.

Có một số lệnh bot ngăn chặn việc thu thập dữ liệu trang và điều này có thể được khắc phục bằng cách kiểm tra thẻ meta và tệp robots.txt của bạn. Trên thực tế, có các thông số phù hợp và sử dụng chúng một cách thích hợp sẽ giúp bạn tiết kiệm ngân sách thu thập thông tin của mình và đưa Googlebot đi đúng hướng.

Không có liên kết theo dõi cũng có thể. Trong trường hợp này, trình thu thập thông tin lập chỉ mục một trang nhưng bị chặn truy cập liên kết. Điều này không tốt cho trang web của bạn vì Googlebot sử dụng các liên kết nội bộ này để tìm các trang mới. Điều này đưa chúng ta đến điểm tiếp theo.

Liên kết bị hỏng nội bộ

Liên kết bị hỏng không bao giờ là một trải nghiệm tốt cho cả người dùng và trình thu thập thông tin. Đối với mỗi trang được lập chỉ mục, một phần ngân sách thu thập thông tin của trang web sẽ được lấy ra. Biết được điều này, chúng tôi hiểu rằng khi có quá nhiều liên kết bị hỏng, bot sẽ lãng phí tất cả ngân sách thu thập thông tin của bạn để lập chỉ mục chúng, nhưng nó sẽ không đến các trang có liên quan và chất lượng của bạn.

Việc sửa các liên kết bị hỏng giúp Googlebot hiển thị nội dung chất lượng hơn.

Các liên kết nội bộ bị hỏng có thể do lỗi chính tả URL (trong đó có lỗi đánh máy trong địa chỉ URL siêu liên kết), URL lỗi thời hoặc Trang có quyền truy cập bị từ chối.

Sự cố liên quan đến máy chủ

Máy chủ của bạn cũng có thể là lý do tại sao Google không tìm thấy các trang nhất định. Có nhiều lỗi 5xx trên trang web của bạn có thể là tín hiệu cho thấy máy chủ của bạn có vấn đề. Để giải quyết vấn đề này, chúng tôi cấu hình lại các khu vực có lỗi và sửa lỗi.

Đôi khi, có thể máy chủ của bạn đang bị quá tải. Trong trường hợp này, nó ngừng phản hồi các yêu cầu của người dùng và bot. Khi điều này xảy ra, người xem cũng như bot của bạn không thể truy cập trang đó.

Trong các tình huống cực đoan, chúng tôi có thể đang xem xét cấu hình sai máy chủ web. Tại đây, trang web hiển thị với người dùng, nhưng nó liên tục đưa ra thông báo lỗi cho trình thu thập thông tin trang web. Vấn đề này khá phức tạp vì có thể khó nhận thấy. Trong trường hợp này, Googlebot không thể truy cập được trang web, điều này khiến bot không thể thu thập thông tin và lập chỉ mục.

Sự cố với XML Sơ đồ trang web

Sơ đồ trang web ảnh hưởng đến một loạt các yếu tố trên trang web của bạn. Điều cần thiết là giữ cho các URL trong sơ đồ trang web của bạn có liên quan. Chúng phải được cập nhật và chính xác. Điều này rất quan trọng vì khi ngân sách thu thập thông tin của bạn không đủ, sơ đồ trang web của bạn sẽ hướng các bot trình thu thập thông tin đến các trang web có liên quan nhất. Bằng cách đó, các trang quan trọng nhất của bạn vẫn được lập chỉ mục.

Sai lầm với kiến ​​trúc web

Đây là một trong những vấn đề khó khăn nhất cần giải quyết. Các vấn đề thuộc danh mục này có thể chặn hoặc làm mất phương hướng của trình thu thập thông tin trong trang web của bạn. Nó có thể xuất hiện dưới dạng các vấn đề với liên kết nội bộ của bạn. Hoặc nó có thể là trường hợp chuyển hướng sai. Trong trường hợp này, người dùng và bot được chuyển tiếp đến các trang ít liên quan hơn. Cuối cùng, chúng tôi có nội dung trùng lặp. Thật không may, nội dung trùng lặp là một trong những vấn đề SEO phổ biến nhất. Đây cũng là một trong những lý do chính khiến bạn hết ngân sách thu thập thông tin và Google sẽ khó thu thập thông tin một số trang của bạn.

Sự kết luận

Google không thể tìm thấy nội dung của bạn không chỉ vì các vấn đề liên quan đến nội dung hoặc bạn tối ưu hóa cho các từ khóa sai. Ngay cả nội dung được tối ưu hóa vẫn có thể ẩn với Google nếu nội dung đó có vấn đề về thu thập thông tin.

Chúng tôi ở đây để tìm ra vấn đề cũng như phác thảo một kế hoạch về cách chúng tôi có thể khắc phục vấn đề đó. Liên hệ chúng tôi Hôm nay và Semalt có thể giúp bạn đưa nội dung của mình trở lại radar.

mass gmail