JMiur [E]


Un scraper es un sitio cuyo contenido es copiado integramente de otros sitios. Para eso, utiliza técnicas o software específico. No se trata de un simple copy and paste sino de arácnidos de todo tipo (bots, webbots, crawlers, harvesters, spiders) que recorren la red para extraer contenido. De alguna manera, lo que hacen es similar a lo que realizan los buscadores como Google o Yahoo; buscan ciertas palabras claves e indexan las páginas.

"Contenido duplicado es cuando se tiene una copia exacta de un sitio. Página por página, archivo por archivo, imagen por imagen."

Su existencia ha sido siempre un problema y su extensión se está volviendo ya algo relevante que no sólo afecta a sitios "importantes" sino a todos. Su único fin es ganar dinero, aprovechando el trabajo ajeno y legalmente, no hay mucho que pueda hacerse porque se mueven dentro de una franja dudosa y, desde la práctica, cualquier licencia o advertencia de copyright no es otra cosa que una entelequia sin valor.

¿Dónde está el problema? Fundamentalmente, como casi todo en este mundo de la internet, Google es la clave del asunto porque el efecto se ve en los buscadores. Es común que esos sitios aparezcan mejor posicionados que el original y no están solos, lo mismo ocurre con redes sociales como Menéame o con algunos directorios de blogs.

Imaginemos un ejemplo extremo. Un blog recién creado publica un artículo que es reproducido por otro sitio muy bien rankeado. En una búsqueda, aparecerá primero la copia y el original estarará en la página 10 de los resultados.

El buscador, no termina de funcionar correctamente.

Esto se ha transformado en un problema tan serio que el mismo Google ha publicado un artículo al respecto donde se dan algunas explicaciones sobre el contenido duplicado.

Lo que dice, es casi obvio pero no importa.

En la mayoría de las ocasiones, el administrador de un sitio no tiene control sobre la distribución sin su consentimiento y, por lo tanto, publicar varias veces el mismo contenido no viola los términos de la Guía para Webmasters. Google, a veces es bueno para diferenciar la fuente original de las copias pero a veces no. Si lo hace bien, el posicionamiento de las páginas originales no es afectado; si lo hace mal ... quien sabe.

Cuando se encuentra contenido duplicado en diferentes páginas, Google trata de determinar cuál es el contenido original y hay dos casos generales: duplicados en el mismo sitio y duplicados en sitios diferentes.

En el primer caso, lo que recomiendan es evitarlo o bloquearlo si es que disponemos de las herramientas para hacerlo. En Blogger o cualquier otro servicio gratuito no hay mucho que podamos hacer salvo establecer el dominio preferido (con o sin www). En los blogs, esas duplicaciones son parte integral del mismo sistema, hay una página inicial, una para cada categoría, una de archivos, una individual.

En el segundo caso, cuando los duplicados están en sitios distintos, las cosas se complican, Google dice que intenta determinar cuál es la original pero no siempre lo logra. Ellos, recomiendan tratar de colocar algún tipo de marca en los feeds (un enlace a nuestra web) pero, eso, depende del servicio que usemos. Si podemos hacerlo, es una forma de aprovechar ese contenido duplicado para beneficio propio. En WordPress hay plugins que lo hacen; en Blogger o Feedburner, lo desconozco.

Otro método más casero es incluir enlaces a nuestro propio sitio en los artículos pero, eso hay que hacerlo con moderación.

¿Y qué pasa si vemos que nuestro artículo original está relegado y la copia esta mejor posicionada? Nuevamente, en Blogger, nada; en otros servicios, si podemos acceder al sitemap deberíamos verificarlo.

Para quienes estén preocupado por el PageRank o el posicionamiento, Google aclara que, en la mayoría de los casos, el contenido duplicado no afecta la presencia de un sitio en el índice a menos que se detecte una actitud maliciosa .

Hay un muy buen artículo que podemos ver en Search Engine Land donde se muestra gráficamente la forma en que los buscadores analizan el contenido duplicado.

5 comentarios:

Anónimo  

Pasándome por Blogger Buster, encontré ESTO.

Supongo que sería la solución para Blogger.

Sería bueno que lo revises.

¡Saludos!

Responder
Jabba  

Dos geniales lecturas. Ésta sobre los contenidos duplicados por un lado, y esta otra sobre la "piratería" por otro. Una buena manera de desconectar por unos minutos de mi cansina jornada de estudio xD.

Precisamente no hace demasiado tiempo indagué tirando de Google para comparar el posicionamiento de varios artículos de cosecha propia sobre los duplicados que sabía que existían (y existen) en otras webs de esos mismos artículos (tutoriales de Linux fundamentalmente).

Por supuesto únicamente era por satisfacer mi curiosidad. Aunque entiendo que si que haya quien defienda un reconocimiento, en forma de posicionamiento, de la fuente original (el autor).

Por cierto, (por no escribirte otro comentario que voy escaso de tiempo) genial lo de la bicizapa. Me he reído agusto con el vídeo xD.

Responder
JMiur  

Lo tenía marcado para leerlo, Fernando. Sí, en principio sería una solución si es que forma parte del RSS. Lo intentaré usar a ver qué pasa.

Jabba: tema complicado este. Personalmente no me preocupan los duplicados hechos "a mano" a menos que sean hechos con mala fe; en todo caso esa seria una cuestión de relaciones humanas.

Más molesto resultan ese tipo de duplicado automático. allí, ni siquiera puedo enojarme o discutir con alguien :D

Responder
Jabba  

Por supuesto, el tema de los duplicados automáticos es un asunto completamente diferente.

Está claro que no deja de ser un problema que en mayor o menor medida te puede acabar afectando. Y ya ni siquiera es por el mero hecho de como dices tener la posibilidad de discutir o enfadarte con alguien al respecto, sino simplemente por saber que hay quien pese a ello se lucra impúnemente haciendo suyo el trabajo ajeno.

Responder
JMiur  

Monoblock:

Realmente es extraño pero no veo que ocurra ese problema. En mi caso, al publicar, siempre miro la página principal para verificar que esté todo en orden y no he notado eso. En el caso de tu blog, veo que la última entrada es del 16 de este mes ¿ves lo mismo?

El tema del elemento Archivos puede ser diferente. Hubo un tiempo en que daba datos erróneos pero eso fue corregido. Tampoco veo que allí falte nada.

Eso es lo extraño ¿te pasa lo mismo con cualquier navegador? Sería bueno detectar el momento exacto en que notás el problema para sabe si lo podemos ver.

Responder

¿Quiere dejar un comentario?

recuerde que los comentarios están siendo moderados y serán publicados a la brevedad ...

Nota: sólo los miembros de este blog pueden publicar comentarios.

Si le gusta ir a lo seguro utilice este botón para abrir los comentarios en una ventana modal en esta misma pagina.

Si añora tiempos idos, use este enlace para agregar un comentario al viejo estilo ...

 
CERRAR