Contenido Duplicado

El término contenido duplicado, o duplicate content proviene de SEO. El contenido duplicado se crea cuando se puede acceder al mismo contenido con diferentes URL y se indexa con diferentes URL. La indexación de sitios web con contenido duplicado puede tener un efecto negativo en el Ranking en los SERPs.

Tipos de contenido duplicado

El contenido duplicado puede surgir si:

  • El contenido es sindicado, vendido o copiado ilegalmente, entonces diferentes sitios web utilizan el mismo contenido. En este caso, el contenido duplicado puede perjudicar al creador.
  • El contenido de un sitio web se muestra accidentalmente en diferentes dominios o subdominios (por ejemplo, sin "www").
  • El contenido se utiliza dos veces en diferentes categorías. Esto puede ocurrir si el contenido de una URL se publica en un área de noticias.
  • El sistema de gestión de contenidos no puede asignar URLs únicas al contenido.
  • Diferentes filtros de atributos en las tiendas online ofrecen las mismas listas de productos.

El contenido casi duplicado es un contenido muy similar que también podría dar lugar a problemas. Los bloques de texto que se copian con frecuencia (como teasers o textos recurrentes en cada página) pueden ser representados como contenido duplicado por los motores de búsqueda.

Antecedentes

Google] ha hecho varios ajustes a sus algoritmos para asegurar que el motor de búsqueda pueda filtrar el contenido duplicado muy bien. Tanto el Brandy Update de 2004 como el Bourbon Update de 2005 mejoraron la capacidad de Google para  detectar contenido duplicado.

Consecuencias del contenido duplicado

El contenido duplicado presenta un problema a los motores de búsqueda. Tienen que decidir cuál de las páginas duplicadas es la más relevante para una consulta de búsqueda. Google subraya que "la duplicación de contenido en un sitio web[...] no es una razón para tomar medidas contra este sitio web". Sin embargo, el proveedor del motor de búsqueda se reserva el derecho de imponer sanciones por intenciones manipuladoras: "En los raros casos en que tengamos que asumir que el contenido duplicado se muestra con la intención de manipular el posicionamientp o engañar a nuestros usuarios, hacemos las correcciones apropiadas al índice y ranking de los sitios web en cuestión". Los webmasters no deben dejar que Google decida si el contenido duplicado es involuntario o se ha creado deliberadamente; simplemente deben evitar el contenido duplicado.

600x400-ContenidoDuplicado-es-01.png

Causas técnicas del contenido duplicado

El contenido duplicado puede tener diferentes causas, que a menudo se basan en la configuración incorrecta de los servidores.

Duplicación de contenido debido a una mala configuración del servidor

Los fundamentos para evitar la duplicación de contenido dentro del propio sitio web se encuentran en la configuración del servidor. Los siguientes problemas pueden ser resueltos fácilmente:

Contenido duplicado debido a un subdominio Catch-All / Wildcards

Uno de los errores más básicos de SEO de una página surge cuando un dominio responde simultáneamente a todos los subdominios. Esto se puede probar fácilmente simplemente visitando "h

"http://www.DOMINIO.com” seguido de “http://dominio.com” (i.e, sin “www”)

Si se muestra el mismo contenido en ambos casos (y la barra de direcciones sigue mostrando el dominio introducido), se debe actuar rápidamente. En el peor de los casos, el servidor responde a todos los subdominios, incluyendo un subdominio como

“http://potatoe.DOMINIO.com”

Estas otras páginas con el mismo contenido se denominan dobles. Para facilitar que los motores de búsqueda decidan qué URL es relevante, se debe configurar el servidor correctamente. Esto se puede hacer, por ejemplo, usando el módulo mod-rewrite para el servidor Apache comúnmente usado. Con un archivo.htaccess en el directorio raíz del sitio web, se puede enseñar el siguiente código al servidor a través de una redirección 301 para asegurarse de que el sitio web sólo responde al dominio correcto - y redirige automáticamente los subdominios habituales al dominio correcto:

RewriteEngine On
# ! Please remember to replace “DOMAIN2 with the respective domain of your project !
RewriteCond %{HTTP_HOST} !^www.DOMAIN.com$ [NC]
RewriteRule (.*) http://www.DOMAIN.com/$1 [R=301,L]

Como consideración preliminar, uno debería primero decidir cuál debería ser el dominio principal - es decir, con o sin "www"? En el caso de los sitios web internacionales, la identificación del país también debe considerarse un subdominio.

http://en.DOMAIN.com/

Duplicar el contenido debido a la falta de barras

Otra forma generalizada de contenido duplicado surge del uso de  barras oblicuas. Estas son URLs que no contienen nombres de archivos sino que apuntan a directorios. Por ejemplo:

http://www.DOMAIN.com/register_a/register_b/

Esto (normalmente) abre el archivo de índice de la subcarpeta "register_b". Dependiendo de la configuración, la siguiente URL también responde de manera similar:

http://www.DOMAIN.com/register_a/register_b 

En el ejemplo anterior, falta la última barra. El servidor primero intenta encontrar el archivo "register_b", que no existe, pero luego se da cuenta de que existe tal carpeta. Dado que el servidor no desea devolver un mensaje de error innecesario ("archivo no existe"), se muestra el archivo índice de esta carpeta. En principio, esto es algo bueno pero desafortunadamente resulta en contenido duplicado (tan pronto como un enlace apunta a una URL "falsa"). Este problema se puede tratar de diferentes maneras:

  • 301 Redirigir a través de .htaccess.
  • Etiqueta canónica que apunta a la URL correcta.
  • Bloqueo mediante robots.txt.
  • Corrección de todos los enlaces mal escritos (difícil para los enlaces entrantes).

La mejor manera de hacerlo es usando un redireccionamiento 301 vía .htaccess así como rectificando enlaces defectuosos. Esto ahorra a Google los problemas innecesarios de crawl que, a su vez, pueden ser de beneficio para el sitio web en un punto diferente.

Tratamiento de contenidos duplicados

Las tareas de optimización de una página no sólo consisten en evitar la duplicación de contenidos, sino también en identificarlos y actuar de forma adecuada. El llamado Duplicate Content Checker puede ayudar aquí. Enumera las URLs que muestran contenido similar. Es particularmente importante que los webmasters y SEOs actúen apropiadamente en el caso de contenido duplicado. Dado que la indexación siempre es más rápida en los robots de los motores de búsqueda, el contenido idéntico también llega más rápido a la Web. Esto da como resultado el riesgo de una mala clasificación o incluso una exclusión acelerada del índice.

Unicidad del texto

Los contenidos duplicados a menudo afectan a las tiendas online que se hacen cargo de los textos de los productos 1:1 de los fabricantes y también los utilizan para los portales de comparación de precios. Matt Cutts ya ha expresado su opinión sobre este tema. [1] Por lo tanto, debes crear textos diferentes para tu propia página de inicio y comparaciones de precios o portales de compras externos. Aunque pueda parecer una tarea problemática, los textos individualizados para diferentes páginas valen la pena - en primer lugar, tu propia web y tu marca se verán fortalecidos, y en segundo lugar, las comparaciones de precios recibirán textos individualizados y por lo tanto más interesantes tanto para Google como para el usuario.

Con el fin de evitar la duplicación de contenido online en el propio sitio, los webmasters deben revisar su contenido cuidadosamente y potencialmente considerar si algunas categorías pueden ser fusionadas. En algunos casos, también puede ser útil marcar las páginas de filtro con la etiqueta "noindex, follow", por ejemplo. Los motores de búsqueda no indexan estas páginas, sino que siguen los enlaces que aparecen en ellas.

Para crear contenido único, se dispone de herramientas que tienen en cuenta la fórmula TF*IDF.

Contenido THEFT

En caso de que se produzca una duplicación de contenido externa como resultado de un "robo de contenido", deberás ponerte inmediatamente en contacto con el webmaster correspondiente y solicitarle que incluya la fuente original del texto o que elimine el texto. En la mayoría de los casos, una simple petición es suficiente. También puede emitirse una advertencia en casos extremos. Además, los webmasters tienen la posibilidad de denunciar a Google las páginas que violan los derechos de autor al copiar contenido. Este formulario se puede enviar desde la Consola de Búsqueda de Google.

Redirección 301

Si surge contenido duplicado externo debido a que un webmaster está operando dos sitios web con el mismo contenido en dos o más dominios, un Redireccionamiento 301 es a menudo suficiente para prevenir el contenido duplicado.

Otra opción es dar a conocer a Google la versión preferida de un sitio web a través de la Consola de Búsqueda de Google, por ejemplo.

Etiqueta canónica, etiqueta noindex y robots.txt

Existen varias alternativas cuando se trata de contenido interno duplicado en el propio sitio web. La etiqueta canónica es una herramienta importante en este caso. Esto hace referencia a la subpágina duplicada a la página original, y el duplicado está exento de la indexación. Si deseas estar absolutamente seguro de que una subpágina con contenido duplicado no está indexada, puedes marcarla utilizando una etiqueta  noindex. Para excluir adicionalmente el contenido duplicado del crawl, las respectivas subpáginas también se pueden guardar en el archivo robots.txt.

Etiquetas hreflang en páginas traducidas

Ahora Google puede identificar bien las páginas traducidas y asignar el contenido a una página original. Con el fin de evitar la duplicación de contenido a través de traducciones o idiomas idénticos para diferentes mercados de destino, la etiqueta se puede utilizar para indicar la región y el idioma de las URL individuales. De esta manera, Google reconoce que existen traducciones de una página y que la URL tiene una cierta orientación.


Un ejemplo: una tienda online alemana también ofrece sus productos en la parte de habla alemana de Suiza y en Austria. En este caso, el idioma de destino es el alemán. Sin embargo, la tienda utiliza el país correspondiente que termina en y para los países de destino. Para evitar la duplicación de contenido, se colocará en la cabecera de la versión alemana para referirse a una variante para Suiza.

Rel=alternativo con subdominios móviles=

La optimización móvil también puede producir contenido duplicado. Esto es especialmente cierto si el sitio web móvil tiene su propio subdominio. El contenido duplicado puede ser evitado usando la etiqueta rel=alternativa. La etiqueta se refiere desde la versión de escritorio a la versión móvil. Los motores de búsqueda reconocerán entonces que el dominio es el mismo y evitarán la doble indexación.

Prevención

Para evitar la duplicación de contenido interno, es aconsejable planificar la jerarquía de páginas de forma adecuada. Esto permite detectar de antemano posibles fuentes de contenido duplicado. Al crear productos en tiendas en línea, también se deben hacer preparativos para la fácil implementación de etiquetas canónicas. Lo siguiente es válido para el nivel de texto: Cuanto más individualizado es el texto, mejor es para Google y el usuario, y más fácil es evitar el contenido duplicado.

Verificador de contenido duplicado

Para el primer análisis está disponible el llamado Duplicate Content Checker, como por ejemplo desde copyscape o Ryte. Estas herramientas identifican inicialmente contenidos similares o incluso idénticos en la web. Las tiendas online, en particular, que transmiten los datos de sus productos a través de archivos CSV a portales de comparación de precios o plataformas de venta como Amazon, suelen verse afectadas por estos problemas. Matt Cutts ya ha expresado su opinión sobre este tema. [2]

Referencias

Enlaces Web