Como usar o Planilhas Google para coletar dados online

Encontrar os dados de que você precisa pode ser um desafio, mas quando se trata de visualizar grandes quantidades, você precisará da ajuda de ferramentas adicionais. O Planilhas Google tem tudo o que você precisa para formatar grandes quantidades de dados em um formato adequado.


Mostramos a você como extrair dados da Internet usando três métodos. Dividimos como cada um funciona e quando você deve usá-los. Qual é a melhor coisa sobre eles? Como eles estão no Planilhas Google, você pode extrair dados de qualquer lugar com apenas um Chromebook econômico.

ANDROIDPOLIC VÍDEO DO DIA

O que é raspagem de dados?

A raspagem de dados, nesse sentido, é o processo de extrair dados de um site e exibi-los em uma saída legível por humanos.

Uma raspagem de dados bem-sucedida economiza horas de trabalho reunindo informações espalhadas por uma ou várias páginas da Web e exibindo-as em um formato que um ser humano pode ler rapidamente. Embora o termo em seu sentido mais geral possa se referir a qualquer raspagem de programa para programa, cobrimos o processo de raspagem de dados de um site para o Planilhas Google.

Quando devo raspar os dados?

A raspagem de dados é usada quando um método de visualização de dados estabelecido não está disponível. Como o processo depende de tags HTML e XML, a maioria dos dados de sites pode ser extraída com a fórmula correta.

Por exemplo, a extração de dados é o método mais fácil de exportar uma tabela na Wikipédia para facilitar a pesquisa e a organização (como faremos mais adiante neste guia).

Como funciona a raspagem de dados?

Existem três métodos para raspar dados, que devem ser escolhidos com base na complexidade e no tipo dos dados que estão sendo raspados. Estes são HTML, XML e RSS (sem Python necessário).

Cada método envolve uma fórmula diferente, mas segue as mesmas regras fundamentais. Aponte a fórmula para os dados que deseja raspar com as tags apropriadas e ela raspa os dados e os coloca em sua tabela. A habilidade é identificar as tags necessárias e compensar o código-fonte de cada site.

O que são etiquetas?

Se você usa o Google Chrome ou a maioria dos navegadores de desktop, pode visualizar o código-fonte de uma página da Web clicando com o botão direito do mouse na página e selecionando Ver fonte da página no menu suspenso. Isso abre uma guia separada mostrando o código-fonte HTML do site. Não se assuste se isso parecer esmagador. Tudo o que você precisa para coletar dados com sucesso é identificar algumas tags.

O código-fonte para a página web do Android Police


O código-fonte HTML para a página inicial do Android Police

Tags vêm como pares e fique assim no código-fonte:


  • Qualquer coisa colocada entre as tags é exibida conforme especificado pelas tags escolhidas. Portanto, no exemplo acima, o texto entre essas tags é formatado como uma lista. As tags podem ser colocadas dentro das tags para especificar mais detalhes sobre como o texto é exibido.

    Dependendo do método que você usar, você procurará tags diferentes.

    Quais dados posso raspar?

    A resposta curta é praticamente qualquer coisa. Raspar de tabelas e listas é o mais fácil, mas você pode raspar qualquer coisa que corresponda a uma tag específica com o know-how certo. É melhor escolher um método depois de identificar seus dados. Não adianta mexer com uma fórmula XML complicada para uma lista HTML simples.

    Quais dados posso extrair com o método HTML?

    O método HTML pode raspar listas e tabelas. Verifique o código-fonte da página e procure os dados que deseja coletar. Se for entre

    ,

      ,

    1. ou
        tags, você pode usar este método.

        Quais dados posso raspar com o método XML?

        Em vez de clicar Ver fonte da páginaclique Inspecionar no menu suspenso. Isso exibe o código-fonte da página em XML.

        A extração de dados com o método XML envolve encontrando o XPathName. Isso é mais preciso do que o método HTML, pois você pode pesquisar um ponto específico no código-fonte. Use o método XML se estiver copiando dados que não estejam em formato de lista ou tabela ou se quiser raspar uma parte de uma tabela.

        Este método é usado para coletar feeds RSS. É uma ótima maneira de criar sua própria ferramenta para coletar notícias, listas de empregos ou dados atualizados regularmente.

        Como raspar dados usando o Planilhas Google

        Agora que você tem uma compreensão básica da extração de dados, pode experimentá-la em ação.

        Como raspar dados usando o método HTML

        O método HTML requer uma fórmula direta:

        =IMPORTHTML(“URL”, “elemento”, localização)

        Mostramos a você como extrair dados desta página da Wikipedia de livros mais vendidos. Como você pode ver na página, existem várias tabelas aqui. Extrairemos dados da segunda tabela que inclui livros que venderam entre 50 milhões e 100 milhões de exemplares.

        Uma lista da Wikipédia dos livros mais vendidos

        Nós usamos o Inspecionar ferramenta em vez de Ver fonte. Para encontrar tags HTML, ambos os métodos funcionam, mas Inspecionar tem a vantagem de destacar as seções correspondentes na página.

        Ao inspecionar o código-fonte, vemos que se trata de uma tabela, não de uma lista. Portanto, usamos “tabela” para o componente do elemento. É a segunda tabela na página, então usamos “2” como a localização. A fórmula resultante é:

        =IMPORTHTML(“https://en.wikipedia.org/wiki/List_of_best-selling_books”, “tabela”, 2)

        dados raspados


        É isso! Agora você pode organizar os dados como quiser no Planilhas Google. No entanto, você pode ter problemas. Aqui estão alguns problemas comuns e suas soluções:

        • Você recebe uma mensagem de erro. Verifique novamente a fórmula. Verifique se você está usando aspas retas em vez de aspas curvas e se o componente de posição não está entre aspas. A URL e os componentes do elemento devem aparecer em verde e a posição deve estar em azul.
        • Sua fórmula não raspa a tabela correta. Tente números diferentes. Isso envolve algumas tentativas e erros, pois o que parece ser a primeira tabela na página pode não ser a primeira tabela no código.
        • Você não consegue encontrar a etiqueta. Usar Ctrl + F e pesquise “tabela” ou uma das tags da lista. Passar o mouse sobre o elemento na janela Código-fonte destaca a seção relevante na página da web.

        Como raspar dados usando o método XML

        Se o método HTML não funcionar ou os dados copiados não forem precisos o suficiente, o método XML deve ser seu próximo porto de escala. Este método requer a seguinte fórmula:

        =IMPORTXML(“URL”, “XPath”)

        O componente URL é autoexplicativo, mas o componente XPath pode ser complicado. Este tutorial da w3schools faz um ótimo trabalho explicando a estrutura de uma consulta XPath, mas detalhamos o básico aqui.

        Para este exemplo, rasparemos todos os títulos de livros da mesma página da Wikipédia no exemplo HTML. Nesse cenário, a fórmula correta seria:

        =IMPORTXML(“https://en.wikipedia.org/wiki/List_of_best-selling_books”, “//tbody/tr/td/i”)

        dados XML raspados


        Acima, você pode ver o resultado. Então, como chegamos a “//tbody/tr/td/i” para a consulta XPath?

        A primeira etapa envolveu encontrar um exemplo dos dados que queríamos. Nesse caso, tivemos que vasculhar as tags antes de encontrar o elemento que contém o título do livro dentro da tabela.

        Um exemplo de XML


        Como você pode ver, ele está aninhado em várias tags. Está aninhado dentro então

    , e assim por diante. A consulta XPath solicita dados encontrados no marcação. No entanto, se você usar “//i” para a consulta XPath, obterá isto:

    Um mau exemplo de XML


    Verificando a página da Wikipedia, vemos que a fórmula retornou todos os dados em itálico, que é o que o marca representa. No entanto, queríamos apenas o texto dentro da tabela. Portanto, usamos “//tbody/tr/td/i” para restringir a pesquisa. A fórmula resultante retorna apenas o texto encontrado neste local específico, que são os títulos dos livros.

    Os comandos XPath não são uma ciência exata, pois cada página da Web é diferente. Neste exemplo, alguém poderia puxar a tabela que quisesse porque ela tinha uma classe que nenhuma outra tabela na página tinha. Descobrir qual XPath você precisa depende da página da web.

    Este não é um método infalível. Neste exemplo, um script XML separado teve que ser escrito para coletar os dados, e isso ocorreu devido a más práticas de HTML no site de origem. Portanto, se tudo o que você fizer falhar, culpe o código-fonte.

    A extração de dados RSS é mais semelhante ao método HTML do que ao método XML. É apenas extremamente limitado em seu escopo. A fórmula é a seguinte:

    =IMPORTAFEED(“URL”)

    Se usarmos o Android Police como exemplo de URL (portanto, =IMPORTFEED(“https://www.androidpolice.com/feed/”) ), obtemos esse resultado, exatamente o que queríamos.

    rss-exemplo


    Mas você pode personalizá-lo ainda mais usando os seguintes parâmetros em sua fórmula:

    =IMPORTFEED(url, [query], [headers], [num_items])

    rss-exemplo-2


    Uma análise completa desses parâmetros pode ser encontrada na página de suporte do Google para a fórmula. Usando esses parâmetros, você pode criar um feed mais organizado, como o exemplo acima, que retorna apenas o título e a URL.

    Extraia dados em segundos, não em horas

    Raspar dados no Planilhas Google é um conceito desafiador para entender, mas depois de alguma prática, você pode extrair grandes quantidades de dados em segundos. Ainda assim, você precisará entender o Planilhas Google, mas essas dicas e truques podem ajudá-lo a classificar seus dados sem dor de cabeça.

    Deixe uma resposta