O que é Data Scraping (Raspagem / Extração de Dados)?

Visualizando 1 post (de 1 do total)
  • Autor
    Posts
  • #150449

    O que é Raspagem / Extração de Dados (Data Scraping) ?

    Extração de Dados da Web
    Créditos: ipopba / iStock

    O Data Scraping, em sua forma mais comum, refere-se a uma técnica na qual um programa de computador extrai dados gerados por um outro programa ou computador.

    A coleta de dados, no mais das vezes, se manifesta no processo de extração de dados na Web, o processo de usar um aplicativo para extrair informações valiosas de um site como o próprio buscador Google.

    Por que copiar dados do site?

    Application Programming Interface
    Créditos: Stas_V / iStock

    Em geral, as empresas não querem que seu conteúdo exclusivo seja baixado e reutilizado para fins não autorizados. Como resultado, as mesmas não expõem todos os dados por meio de uma API (Application Program Interface) ou por outro recurso de fácil acesso.

    Scrapers, por outro lado, estão interessados ​​em obter dados do site, independentemente de qualquer tentativa de limitar o acesso. Como resultado, existe um jogo de gato e rato entre o Web Scraping e várias estratégias de proteção de conteúdo, com cada um tentando superar o outro.

    O processo de extração da Web é bastante simples, embora a implementação possa ser complexa. A captura da Web ocorre em 3 etapas:

    Primeiro, o pedaço de código usado para extrair as informações, que chamamos de raspador, envia uma solicitação HTTP GET para um site específico.

    Quando o site responde, o Scraper analisa o documento HTML para um padrão específico de dados.

    Depois que os dados são extraídos, eles são convertidos em qualquer formato específico criado pelo autor do Scraper.

    Raspadores podem ser projetados para vários propósitos, como:

    Recolha de conteúdos

    • o conteúdo pode ser retirado do website para poder replicar a vantagem única de um determinado produto ou serviço que depende do conteúdo. Como exemplo, um produto como o site Yelp depende de revisões; um concorrente pode coletar todo o conteúdo de revisão do Yelp e reproduzir o conteúdo em seu próprio site, fingindo que o conteúdo é original.

    Captura de preços

    • ao coletar dados de preços, os concorrentes podem agregar informações sobre sua concorrência. Isso pode permitir que formem uma vantagem única.

    Raspagem / Captura de contatos

    • muitos sítios virtuais contêm endereços de e-mail e números de telefone em texto sem formatação. Ao capturar locais como um diretório de funcionários online, um Scraper pode agregar detalhes de contato para listas de mala direta, chamadas de robô (bot) ou tentativas mal-intencionadas de engenharia social. Esse é um dos principais métodos usados ​​pelos spammers e golpistas para encontrar novos alvos.

    Como é que o Web Scraping pode ser mitigado?

    Data Scraping
    Créditos: maciek905 / iStock

    A realidade é que não há como impedir a captura da web; com tempo suficiente, um Web Scraper repleto de recursos pode extrair todo um site voltado para o público, página por página.

    Isso é fruto do fato de que qualquer informação visível dentro de um navegador da Web pode ser baixada para ser tratada. Em outras palavras, todo o conteúdo que um visitante pode visualizar deve ser transferido para a máquina do visitante, e qualquer informação que um visitante possa acessar pode ser copiada.

    Esforços podem ser feitos para limitar a quantidade de raspagem da web que pode ocorrer. Existem 3 métodos principais de limitar a exposição a esforços de raspagem de dados:

    Solicitações de limite de taxa:

    • Segurança dos dados da web

      para um “internauta humano” clicar em uma série de páginas Web em um sítio virtual, a velocidade de interação com o site é bastante previsível; por exemplo, você nunca terá um humano navegando por 100 (cem) páginas por segundo. Os computadores, por outro lado, podem fazer inúmeras solicitações de ordens de magnitude mais rápidas do que um ser humano, e os raspadores de dados novatos podem usar técnicas de raspagem não-rotuladas para tentar extrair os dados de um site inteiro muito rapidamente. Ao limitar o número máximo de requisições que um determinado endereço IP (Internet Protocol) é capaz de realizar em uma determinada janela de tempo, os sites podem se proteger de solicitações de exploração e limitar a quantidade de dados que podem ser extraídos em uma determinada janela.

    Modifique a marcação HTML em intervalos regulares:

    • o software de extração de dados depende da formatação consistente para percorrer efetivamente o conteúdo do site e analisar, bem como salvar os dados úteis. Um método de interromper este fluxo de trabalho é alterar regularmente os elementos da marcação HTML para que a extração consistente se torne mais complexa. Encaixando elementos HTML ou alterando outros aspectos da marcação, esforços simples de coleta de dados serão impedidos ou frustrados. Para alguns sites, cada vez que uma página Web é processada, algumas formas de modificações de proteção de conteúdo são randomizadas e implementadas, enquanto outras irão alterar seu site ocasionalmente para evitar esforços de coleta de dados a longo prazo.

    Use CAPTCHAs para solicitantes de alto volume:

    • Captcha entrada de tela com senha
      Créditos: BeeBright / iStock

      além de utilizar uma solução de limitação de taxa, outra etapa útil na desaceleração dos extratores de conteúdo é a exigência de que um visitante do site responda a um desafio que é difícil para um computador superar. Embora um ser humano possa responder de forma razoável ao desafio, um navegador sem ser programado para desafios CAPTCHAs para extração de dados provavelmente não pode, e certamente não irá obter sucesso em muitos desafios. Outros desafios baseados em javascript podem ser implementados para testar a funcionalidade do navegador.

    Optical character recognition
    Créditos: domoskanonos / iStock

    Outro método menos comum de mitigação exige a incorporação de conteúdo dentro de objetos de mídia, como imagens. Como o conteúdo não existe em uma cadeia de caracteres, a cópia do conteúdo é muito mais complexa, exigindo reconhecimento ótico de caracteres (OCR – Optical Character Recognition) para extrair os dados de um arquivo de imagem.

    Isso também pode fornecer um obstáculo aos usuários da Web que precisam copiar conteúdo, como um endereço ou número de telefone, de um site, em vez de memorizá-lo ou digitá-lo.

    Como a web scraping é interrompida completamente?

    A única maneira de impedir o Web Scraping de conteúdo é evitar colocar o conteúdo em um site completamente. Métodos mais realistas incluem ocultar conteúdo importante por trás da autenticação do usuário, onde é mais fácil rastrear usuários e destacar comportamentos nefastos.

    Qual é a diferença entre a coleta de dados e o rastreamento de dados?

    O rastreamento basicamente se refere ao processo que os grandes mecanismos de pesquisa, como o Google, Yahoo, Bing, Yandex, entre outros, realizam quando enviam seus robôs rastreadores, como o Googlebot da Google, para a rede para indexar o conteúdo da Internet.

    A raspagem, por outro lado, é tipicamente estruturada especificamente para extrair dados de um site específico.

    Aqui estão três das práticas em que um scraper se envolverá e que são diferentes do comportamento do rastreador da web:

    Os Scrapers fingirão ser navegadores da web, em que um rastreador indicará seu objetivo e não tentará enganar um website, fazendo-o pensar que é algo que não é.

    Às vezes, os raspadores realizam ações avançadas, como o preenchimento de formulários ou o envolvimento em comportamentos para alcançar determinada parte do site. Crawlers não.

    Os Scrapers geralmente não levam em consideração o arquivo robots.txt, que é um arquivo de texto que contém informações especificamente projetadas para informar aos rastreadores da Web quais dados analisar e quais áreas do site devem ser evitadas. Como um raspador foi projetado para extrair conteúdo específico, ele pode ser projetado para extrair conteúdo explicitamente marcado para ser ignorado.

    O Sistema WAF de empresas de CDN como a Cloudflare, Gocache, entre outros que podem ajudar a limitar o limite e filtrar os raspadores, protegendo o conteúdo exclusivo e impedindo que bots abusem de um site na web. (Com informações da Cloud Flare)

Visualizando 1 post (de 1 do total)
  • Você deve fazer login para responder a este tópico.