Google trả lời về tỷ lệ phần trăm nội dung trùng lặp
John Mueller của Google trả lời câu hỏi về việc liệu có ngưỡng phần trăm nào mà Google xác định nội dung nào đó là nội dung trùng lặp hay không.
John Mueller của Google gần đây đã trả lời câu hỏi về việc liệu Google có sử dụng ngưỡng phần trăm trùng lặp nội dung để xác định và lọc ra hay không.
Bao nhiêu phần trăm nội dung bị trùng lặp?
Duane Forrester (@DuaneForrester) đã hỏi trên Facebook liệu có ai biết liệu có công cụ tìm kiếm nào đã công bố phần trăm nội dung trùng lặp mà nội dung được coi là trùng lặp hay không.
Bill Hartzer (@bhartzer) đã hỏi John Mueller trên Twitter và nhận được câu trả lời gần như ngay lập tức.
Bill đã tweet:
“Hey @johnmu có tỷ lệ phần trăm đại diện cho nội dung trùng lặp không?
Ví dụ: chúng ta có nên cố gắng đảm bảo các trang có ít nhất 72,6% là duy nhất so với các trang khác trên trang web của chúng ta không?
Google thậm chí có đo lường nó không? ”
John Mueller của Google đã trả lời:
Phương pháp phát hiện nội dung trùng lặp của Google
Trong nhiều năm, phương pháp phát hiện nội dung trùng lặp của Google vẫn nhất quán đáng kể.
Matt Cutts (@mattcutts), một kỹ sư phần mềm của Google vào thời điểm đó, đã xuất bản một video chính thức của Google vào năm 2013 mô tả cách Google phát hiện trùng lặp.
Anh ta bắt đầu video bằng cách nói rằng một lượng lớn nội dung Internet bị trùng và điều này là bình thường.
“Điều quan trọng là phải nhận ra rằng nếu bạn nhìn vào nội dung trên web, thì 25% hoặc 30% nội dung của web là nội dung lặp.
… Mọi người sẽ trích dẫn một đoạn của blog và sau đó liên kết đến blog, đại loại là vậy. ”
Ông tiếp tục nói rằng Google sẽ không phạt nội dung trùng lặp vì phần lớn nội dung đó không có mục đích spam.
Ông khẳng định việc phạt các trang web vì có một số trùng lặp sẽ làm tổn hại đến chất lượng của kết quả tìm kiếm.
Khi Google phát hiện ra trùng lặp, Google sẽ thực hiện những việc sau:
“… Cố gắng nhóm tất cả lại với nhau và coi nó như thể nó chỉ là một phần nội dung.”
Matt tiếp tục:
“Nó chỉ được coi như một thứ mà chúng ta cần phải phân cụm lại một cách thích hợp. Và chúng tôi cần đảm bảo rằng nó được xếp hạng chính xác ”.
Ông tiếp tục nói rằng Google sau đó sẽ quyết định trang nào sẽ hiển thị trong kết quả tìm kiếm và lọc ra các trang trùng lặp để cải thiện trải nghiệm người dùng.
Cách Google xử lý nội dung trùng lặp vào năm 2020
Vào năm 2020, Google đã phát hành một tập podcast Search Off the Record trong đó chủ đề tương tự được mô tả bằng ngôn ngữ tương tự một cách kỳ lạ.
Từ phút 06:44 của tập phim, đây là phần liên quan của podcast đó:
“Gary Illyes: Và bây giờ chúng tôi đã kết thúc với bước tiếp theo, thực sự là chuẩn hóa và phát hiện dupe.
Martin Splitt: Không phải vậy, phát hiện dupe và chuẩn hóa, đại loại vậy?
Gary Illyes: [00:06:56] Chà, không phải, đúng không? Bởi vì trước tiên, bạn phải phát hiện các trang giả mạo, về cơ bản là tập hợp chúng lại với nhau, nói rằng tất cả các trang này đều là giả mạo, và sau đó về cơ bản bạn phải tìm một trang dẫn đầu cho tất cả chúng.
… Và đó là chuẩn hóa.
Vì vậy, bạn có sự trùng lặp, đó là toàn bộ thuật ngữ, nhưng bên trong đó, bạn có xây dựng cụm, như xây dựng cụm dupe và chuẩn hóa. “
Gary sau đó đi vào chi tiết kỹ thuật về cách họ làm điều đó. Về cơ bản, Google đang so sánh tổng kiểm tra hơn là tỷ lệ phần trăm.
Tổng kiểm tra là một đại diện của nội dung dưới dạng một chuỗi số hoặc chữ cái. Kết quả là, nếu nội dung giống hệt nhau, dãy số tổng kiểm tra sẽ tương tự.
Gary đã giải thích nó theo cách này:
“Vì vậy, để phát hiện bản dupe, những gì chúng tôi làm là, chúng tôi cố gắng phát hiện bản dupe.
Và cách chúng tôi làm điều đó có lẽ là cách hầu hết mọi người tại các công cụ tìm kiếm khác làm, về cơ bản, đó là giảm nội dung thành một băm hoặc tổng kiểm tra và sau đó so sánh các tổng kiểm tra ”.
Gary tuyên bố rằng Google làm theo cách này vì nó đơn giản và chính xác hơn.
Google sử dụng tổng kiểm tra để phát hiện nội dung trùng lặp
Vì vậy, khi thảo luận về nội dung trùng lặp, có lẽ không phải là vấn đề về ngưỡng tỷ lệ phần trăm, trong đó có một con số mà tại đó được cho là trùng lặp.
Thay vào đó, nội dung trùng lặp được phát hiện bằng cách sử dụng đại diện tổng kiểm của nội dung và sau đó các tổng kiểm tra đó được so sánh.
Một điều khác cần lưu ý là dường như có sự phân biệt giữa thời điểm một phần nội dung được sao chép và khi tất cả nội dung được sao chép.
Với dữ liệu TopOnSeek đã tổng hợp về Tỷ lệ phần trăm nội dung trùng lặp trên Google, bạn sẽ có thể phân bổ nội dung phù hợp và hiệu quả hơn cho công việc của mình.
Nguồn: https://us.everranks.com/duplicate-content/
Bài viết mới nhất
TOS hợp tác & phát triển cùng các đối tác uy tín hàng đầu trong ngành