Các yếu tố ảnh hưởng đến Google Crawl Budget
Google Crawl Budget là một khái niệm về SEO mà rất nhiều người trong chúng ta đã nghe về nó nhưng chưa thật sự hiểu rõ về nó. Đó là một trong những khái niệm cơ bản nhất mà bạn nên tìm hiểu khi làm SEO. Vậy Google Crawl Budget là gì? Bài viết sau đây sẽ lý giải những thắc mắc chi tiết dành cho bạn.
Google Crawl Budget là gì?
GoogleBot là tên của trình thu thập thông tin của Google. Nó sẽ tìm nạp các trang web và theo các liên kết có trên các trang Web đó để tìm ra URL mới. Bằng cách này, trình thu thập thông tin có thể tìm thấy nội dung mới và thêm nó vào chỉ mục của trang web. Đây được coi là một cơ sở dữ liệu lớn về các URL được biết đến thông qua các liên kết và được tìm kiếm bởi người dùng.
Nhưng vì số lượng trang web là rất lớn, vì vậy Google thường ưu tiên index website có chất lượng cao hơn và không index các trang web chất lượng thấp.
Theo nhà phát triển của Google cho biết:
“Lượng thời gian và tài nguyên mà Google dành để thu thập thông tin một trang web thường được gọi là crawl budget của trang web.
Lưu ý rằng: Không phải mọi thứ được crawl trên trang web của bạn sẽ nhất thiết phải được index; mỗi trang sau khi thu thập thông tin sẽ được đánh giá, tổng hợp để xác định liệu nó có được index sau khi được thu thập thông tin hay không.
Google crawl budget được xác định bởi hai yếu tố chính: Giới hạn dung lượng thu thập thông tin và nhu cầu thu thập thông tin. ”
Điều gì quyết định đến Google Crawl Budget?
Người đặt ra câu hỏi này có một trang web chứa hàng trăm nghìn trang. Nhưng Google chỉ thu thập khoảng 2.000 trang web mỗi ngày, một tốc độ quá chậm đối với một trang web lớn như vậy.
Có người đặt đã ra câu hỏi như sau:
“Bạn có lời khuyên nào khác để hiểu sâu hơn về google crawl budget không?
Chỉ vì tôi cảm thấy rằng chúng tôi đã thực sự cố gắng cải tiến trang web nhưng vẫn chưa thấy sự tăng vọt về số trang trong việc thu nhập thông tin mỗi ngày ”.
Mueller của Google đã hỏi người này xem trang web lớn như thế nào.
Người đặt câu hỏi đã trả lời:
“Trang web của chúng tôi có hàng trăm nghìn trang.
Và chúng tôi đã thấy có thể khoảng 2.000 trang được thu thập thông tin mỗi ngày mặc dù có khoảng 60.000 trang tồn đọng được phát hiện nhưng chưa được index hoặc chưa được thu thập thông tin. “
John Mueller của Google đã trả lời:
“Trong thực tế, tôi thấy có hai lý do chính khiến điều đó xảy ra.
Mặt khác, nếu máy chủ chậm đáng kể, đó là… thời gian phản hồi, tôi nghĩ bạn cũng thấy điều đó trong báo cáo thống kê thu thập thông tin.
Đó là một lĩnh vực mà nếu … ví dụ tôi phải đưa ra một con số cụ thể, tôi sẽ nói rằng hãy nhắm đến mục tiêu trung bình dưới 300, 400 mili giây.
Bởi vì điều đó cho phép chúng tôi thu thập dữ liệu nhiều như chúng tôi cần.
Nó không giống như tốc độ trang.
Vì vậy, đó là… một điều cần chú ý. ”
Chất lượng trang web có thể ảnh hưởng đến Google Crawl Budget
John Mueller của Google đã đề cập đến vấn đề chất lượng trang web.
Chất lượng trang web kém có thể khiến trình thu thập thông tin của GoogleBot không thể thu thập dữ liệu trang web.
John Mueller của Google giải thích:
“Lý do lớn khác khiến chúng tôi không thu thập được nhiều thông tin từ các trang web là vì chúng tôi không bị thuyết phục về chất lượng tổng thể.
Và tôi cũng thấy đôi khi mọi người nói tốt về mặt kỹ thuật, có thể tạo một trang web với hàng triệu trang bởi vì chúng tôi có một cơ sở dữ liệu và chúng tôi chỉ đưa nó lên mạng.
Và chỉ bằng cách đó, về cơ bản từ ngày này sang ngày khác, chúng tôi sẽ tìm thấy rất nhiều trang này nhưng chúng tôi chưa chắc chắn về chất lượng của những trang này.
Và chúng tôi sẽ thận trọng hơn một chút về việc thu thập thông tin và index chúng cho đến khi chúng tôi chắc chắn rằng chất lượng thực sự tốt. ”
Các yếu tố ảnh hưởng đến số lượng trang mà Google thu thập thông tin
Có những yếu tố khác có thể ảnh hưởng đến số lượng trang mà Google thu thập thông tin được đề cập.
Ví dụ: Một trang web được lưu trữ trên một máy chủ không thể phân phát các trang đủ nhanh cho Google. Vì có thể có các trang web khác trên máy chủ đang sử dụng quá nhiều tài nguyên, làm chậm hàng nghìn trang web khác trên máy chủ đó.
Một nguyên nhân khác có thể là do máy chủ đang bị tấn công bởi các bot giả mạo, khiến trang web bị chậm lại.
Lời khuyên của John Mueller nên lưu ý tốc độ máy chủ để phục vụ các trang web. Hãy nhớ kiểm tra nó sau nhiều giờ vào ban đêm, vì nhiều trình thu thập thông tin như Google sẽ thu thập dữ liệu vào sáng sớm. Đó thường là thời gian ít gây gián đoạn hơn để thu thập dữ liệu và có ít khách truy cập trang web hơn vào giờ đó.
Xem thêm về John Mueller của Google trả lời câu hỏi về việc GoogleBot không thu thập đủ các trang web.
Bài viết trên hy vọng có thể giải đáp được một số thắc mắc của các bạn trong quá trình tìm hiểu về SEO. Nếu bạn muốn biết thêm các thông tin khác bạn có thể xem thêm tại blog của Top On Seek.
Nguồn: https://www.searchenginejournal.com/googlebot-crawl-budget-factors/413993/
Google crawl budget là gì?
Là số lượng trang mà Googlebot thu thập dữ liệu và lập chỉ mục trên một trang web trong một khung thời gian nhất định.
Crawl budget trong SEO là gì?
là một thuật ngữ trong SEO để chỉ ra một số khái niệm và hệ thống liên quan các công cụ tìm kiếm sử dụng khi quyết định có bao nhiêu trang và những trang nào, sẽ thu thập thông tin. Về cơ bản, đó là sự chú ý mà các công cụ tìm kiếm sẽ dành cho trang web của bạn.
Bài viết mới nhất
TOS hợp tác & phát triển cùng các đối tác uy tín hàng đầu trong ngành