Có rất nhiều nhầm lẫn xung quanh việc Google xử lý nội dung trùng lặp, nhưng nhà bình luận Patrick Stox muốn xóa nó một lần và mãi mãi. Có nhiều người thậm chí sợ hình phạt trùng lặp nội dung hơn là tác vụ thủ công do spam liên kết gây ra. Có rất nhiều huyền thoại xung quanh nội dung trùng lặp mà mọi người thực sự nghĩ rằng nó gây ra một hình phạt do các trang của họ sẽ cạnh tranh với nhau và làm ảnh hưởng toàn trang web của họ. Tôi thấy các bài đăng thảo luận trên diễn đàn, chủ đề mới trên Reddit, các trang thống kê kỹ thuật seo, công cụ và thậm chí các trang web tin tức SEO xuất bản các bài viết cho thấy mọi người rõ ràng đang không hiểu đúng cách Google xử lý nội dung trùng lặp. Google đã cố gắng loại bỏ nội dung trùng lặp cách đây 6 năm. Susan Moska đăng trên blog của Google Webmaster vào năm 2008: Let’s put this to bed once and for all, folks: There’s no such thing as a “duplicate content penalty.” At least, not in the way most people mean when they say that. You can help your fellow webmasters by not perpetuating the myth of duplicate content penalties! Tạm dịch là: Hãy đặt nó vào giường một lần và cho tất cả, folks: Không có điều gì giống như một "hình phạt nội dung trùng lặp". Ít nhất, không phải theo cách mà hầu hết mọi người đều đang nghĩ về nội dung trùng lặp. Bạn có thể giúp các quản trị viên web hay đồng nghiệp của bạn bằng cách không duy trì truyền thuyết về hình phạt nội dung trùng lặp! Nội dung trùng lặp là gì? Theo Google thì nội dung trùng lặp thường đề cập đến các khối nội dung thực trong hoặc trên toàn miền, hoàn toàn khớp với nội dung khác hoặc rất giống với nội dung khác. Hầu như, về nguyên gốc, đây không phải nội dung giả mạo. Ví dụ về nội dung trùng lặp không gây hại có thể bao gồm: Các diễn đàn thảo luận có thể tạo cả trang thông thường và trang cơ sở nhằm hướng đến các thiết bị di động Các mục lưu trữ được hiển thị hoặc được liên kết thông qua nhiều URL riêng biệt Các phiên bản trang web chỉ dành cho máy in Nếu trang web của bạn chứa nhiều trang có nội dung giống hệt nhau, có nhiều cách để bạn có thể chỉ cho Google URL ưa thích của bạn. (Việc này được gọi là "chuẩn hoá".) Thêm thông tin về chuẩn hóa. Tuy nhiên, trong một số trường hợp, nội dung bị trùng lặp trên toàn miền có chủ tâm nhằm thao túng khả năng xếp hạng của công cụ tìm kiếm hoặc để đạt được nhiều lưu lượng truy cập hơn. Những hành động giả mạo như vậy có thể dẫn đến việc không thoả mãn người dùng khi một khách truy cập xem được nội dung, về cơ bản, là giống nhau được lặp lại trong một loạt kết quả tìm kiếm. Google đang nỗ lực để lập chỉ mục và hiển thị các trang với thông tin riêng biệt. Quá trình lọc này nghĩa là, chẳng hạn, nếu trang web của bạn có phiên bản "thông thường" và "in" cho mỗi bài viết và không phiên bản nào trong số này bị chặn bởi thẻ meta noindex, chúng tôi sẽ chọn một phiên bản để liệt kê. Trong một số ít trường hợp mà Google nhận thấy rằng nội dung trùng lặp có thể được hiển thị với mục đích thao túng khả năng xếp hạng của chúng tôi và lừa gạt người dùng, chúng tôi cũng sẽ thực hiện những điều chỉnh phù hợp trong quá trình lập chỉ mục và xếp hạng các trang web có liên quan. Kết quả là, xếp hạng của trang web có thể bị ảnh hưởng hoặc trang web hoàn toàn có thể bị xoá khỏi chỉ mục của Google. Trong trường hợp đó, trang web sẽ không còn xuất hiện trong kết quả tìm kiếm. Bạn có thể giải quyết trước vấn đề về nội dung trùng lặp theo một số bước và đảm bảo rằng khách truy cập sẽ xem được nội dung mà bạn muốn họ xem. Sử dụng 301s: Nếu bạn đã cấu trúc lại trang web của mình, hãy sử dụng chuyển hướng 301 ("RedirectPermanent") trong tệp .htaccess của bạn để chuyển hướng nhanh người dùng, Googlebot và các trình thu thập dữ liệu khác. (Trong Apache, bạn có thể thực hiện điều này bằng một tệp .htaccess; trong IIS, bạn có thể thực hiện điều này thông qua bảng điều khiển quản trị.) Đồng nhất: Cố giữ liên kết nội bộ đồng nhất. Ví dụ: không liên kết tới http://www.example.com/page/ và http://www.example.com/page và http://www.example.com/page/index.htm. Sử dụng các tên miền cấp cao: Để giúp chúng tôi cung cấp phiên bản tài liệu phù hợp nhất, hãy sử dụng các tên miền cấp cao bất cứ khi nào có thể để quản lý nội dung theo từng quốc gia. Ví dụ: có nhiều khả năng chúng tôi biết rằng http://www.example.de chứa nội dung tập trung vào nước Đức hơn là http://www.example.com/de hoặc http://de.example.com. Thận trọng khi cung cấp nội dung: Nếu bạn cung cấp nội dung của mình cho nhiều trang web khác, Google sẽ luôn hiển thị phiên bản mà chúng tôi cho là phù hợp nhất đối với người sử dụng trong mỗi tìm kiếm định sẵn. Phiên bản này có thể là hoặc có thể không phải là phiên bản mà bạn ưa thích. Tuy nhiên, sẽ rất hữu ích khi đảm bảo rằng mỗi trang web được bạn cung cấp nội dung đều có chứa một liên kết quay trở lại bài viết gốc của bạn. Bạn cũng có thể yêu cầu những người sử dụng tài liệu do bạn cung cấp sử dụng thẻ meta noindex để ngăn công cụ tìm kiếm lập chỉ mục phiên bản nội dung của họ. Sử dụng Search Console để cho chúng tôi biết cách bạn muốn trang web của bạn được lập chỉ mục: Bạn có thể cho Google biết miền ưa thích của bạn (ví dụ: http://www.example.com hay http://example.com). Giảm thiểu sự lặp lại mẫu trích: Ví dụ: thay vì đặt văn bản dài dòng về nội dung bản quyền ở cuối mỗi trang, hãy chèn một bản tổng hợp vắn tắt và sau đó liên kết tới một trang chi tiết hơn. Ngoài ra, bạn có thể sử dụng công cụ Xử lý thông số để xác định cách bạn muốn Google xử lý thông số URL. Tránh xuất bản nội dung trang giữ chỗ: Người dùng không muốn nhìn thấy các trang "trống", do đó, hãy tránh trang giữ chỗ nếu có thể. Ví dụ: không được xuất bản các trang mà bạn chưa có nội dung thực. Nếu bạn đã tạo các trang giữ chỗ, hãy sử dụng thẻ meta noindex để chặn lập chỉ mục các trang này. Hiểu được hệ thống quản lý nội dung của bạn: Đảm bảo rằng bạn biết rõ cách thức hiển thị nội dung trên trang web của bạn. Blog, diễn đàn và các hệ thống liên quan thường hiển thị cùng nội dung theo nhiều định dạng. Ví dụ: một mục nhập blog có thể xuất hiện trên trang chủ của một blog, trong một trang lưu trữ và trong một trang có những mục nhập khác với cùng nhãn. Giảm thiểu nội dung tương tự nhau: Nếu bạn có nhiều trang tương tự nhau, hãy cân nhắc việc mở rộng mỗi trang hoặc hợp nhất các trang thành một. Ví dụ: nếu bạn có một trang web du lịch với các trang riêng biệt cho hai thành phố nhưng trên hai trang lại có cùng thông tin, bạn có thể nhập hai trang này thành một trang giới thiệu về cả hai thành phố hoặc bạn có thể mở rộng mỗi trang để nó có chứa nội dung duy nhất về mỗi thành phố.
diễn đàn thảo luận có thể tạo cả trang thông thường và trang cơ sở nhằm hướng đến các thiết bị di động
Trùng lặp nội dung cũng sợ. Nhưng giờ người ta thiết kế Website không còn vậy nữa rồi dù mã nguồn mỡ như Wordpress,
Mình thấy đa số website đều phát triển bài viết theo hướng dựa vào từ khóa mà không mấy quan tâm đến bài viết, bài viết có thể trùng lặp nội dung rất nhiều, miễn để lên top, điều này ảnh hưởng rất nhiều đến chất lượng website và thứ hạng về sau. Vì google ngày càng thông minh và cải tiến, chắc chắn sẽ phát hiện ra những điểm bất thường.
Theo mình hình phạt thứ nhất: Không duyệt cho đặt Gà (Adsense), s2 đánh tụt hạng website vì kém cạnh tranh, hình phat thứ 3 vè bản quyền số DMCA...để Bạn sau nói tiếp.
Cái này mấy năm trước em thấy không bị thuật toán đánh vào mạnh lắm. Nhưng tháng mười vừa qua ( 1/10/2019 ). GG chính thức đưa ra thuật toán nội dung. Và chính vì thuật toán này mà nhiều từ khóa đang đứng vị trí trong top 4 đã bay mất ra khỏi top 100, chưa hẹn ngày trở lại do bị đánh vào spam nội dung.