Scraping
El scraping es una práctica donde el contenido de las webs se extrae, copia y almacena manualmente o con la ayuda de software y, si es necesario, se reutiliza en una versión modificada en tu web. Si se utiliza de forma positiva, el web scraping ofrece la posibilidad de añadir más valor a una web con contenido de otros sitios web. Sin embargo, si se utiliza indebidamente, el scraping viola los derechos de autor y se considera spam.
Técnicas
El scraping se puede hacer con diferentes técnicas. Los más frecuentes se describen brevemente a continuación:
- Usando la manipulación http, el contenido de webs estáticas o dinámicas puede ser copiado vía http-request.
- Con el método de Data Mining o minería de datos, los diferentes contenidos se identifican por las plantillas y scripts en los que están incrustados. El contenido se convierte utilizando un envoltorio y se pone a disposición de una web diferente. El envoltorio actúa como una especie de interfaz entre los dos sistemas.
- Las herramientas de scraping realizan múltiples tareas, tanto automatizadas como controladas manualmente. Desde el contenido copiado a las estructuras o funcionalidades copiadas.
- Los analizadores HTML, tal como se utilizan en los navegadores, recuperan datos de otras webs y los convierten para otros fines.
- La copia manual del contenido a menudo se denomina scraping. Desde la simple copia de textos hasta la copia de snippets completos del código fuente. El scraping manual se utiliza a menudo cuando los programas de scraping se bloquean, por ejemplo, con el archivo robots.txt.
- El escaneo de microformatos también forma parte del scraping. Con el continuo avance del desarrollo de la web semántica, los microformatos son componentes populares de una web.
Aplicaciones comunes
El scraping se utiliza para muchos propósitos. Algunos ejemplos son:
- Herramientas de análisis web: guarda el ranking en Google y otros motores de búsqueda, y prepara los datos para sus clientes. En 2012, este tema fue muy debatido cuando Google bloqueó algunos servicios.
- Servicios RSS: el contenido proporcionado a través de los canales RSS se utiliza en otras web.
- Datos meteorológicos: muchas webs, como los portales de viajes, utilizan los datos meteorológicos de los grandes sitios web meteorológicos para aumentar su propia funcionalidad.
- Planes de conducción y de vuelo: por ejemplo, Google utiliza datos relevantes de los servicios de transporte público para complementar la función de itinerario de Google Maps.
Scraping como método de spam
En el contexto de la sindicación de contenidos, el contenido de las webs puede distribuirse a otros editores. Sin embargo, el scraping a menudo puede violar estas reglas. Hay webs que sólo tienen contenido que ha sido scrapeado de otras webs. Muy a menudo se pueden encontrar páginas que contienen información que ha sido copiada directamente de Wikipedia sin mostrar la fuente del contenido. Otro caso de spam scraping es que las tiendas online copian las descripciones de sus productos de competidores exitosos. Incluso a menudo el formato se mantiene igual.
Es importante que los webmasters sepan si su contenido está siendo copiado por otras webs. Porque en el caso extremo, Google puede acusar al autor de scraping, lo que podría llevar a que el dominio que ha sufrido scraping vea reducido su posicionamiento de los SERPs. Las alertas se pueden configurar en Google Analytics para supervisar si el contenido está siendo copiado por otros sitios web.
Google como scraper
Motores de búsqueda como Google utilizan el scraping para mejorar su propio contenido con información relevante de otras fuentes. En particular, Google utiliza métodos de scraping para OneBox o para hacer su Gráfico de Conocimiento. Google también hace scraping en la web para añadir entradas a Google Maps que aún no han sido reclamadas por las empresas. Además, Google recopila datos relevantes de webs que han puesto a disposición microformatos de su contenido para crear rich snippets.
Cómo prevenir el scraping
Hay varias medidas simples que los webmasters pueden utilizar para evitar que sus sitios web se vean afectados por el scraping:
- Bloqueo de bots con robots.txt.
- Insertarn de consultas captcha en el sitio.
- Uso de CSS para mostrar números de teléfono o direcciones de correo electrónico.
- Reforzar las reglas del firewall para el servidor.