Crawler¶

O plugin Crawler permite raspar e extrair dados de sites sem usar um navegador.

Instalação¶

PythonJava

pip install botcity-crawler-plugin

Dependências do sistema Linux

Se você pretende usar este pacote com Linux e JavaScript, existem dependências do sistema que precisam ser instaladas.

Para Debian/Ubuntu, execute o seguinte comando:

Apt Install libxCompose1 libxcursor1 libxdamage1 \
libxfixes3 libxi6 libxtst6 libnss3 libnspr4 libcups2 \
libdbus-1-3 libxrandr2 libasound2 libatk1.0-0 libatk-bridge2.0-0 \
libgtk-3-0 libx11-xcb1--não-Install-Recommends

Certifique-se de instalar as bibliotecas equivalentes para sua distribuição Linux.

Importando o Plugin¶

Depois de instalar este pacote, a próxima etapa é importar o pacote para o seu código e começar a usar as funções.

PythonJava

from botcity.plugins.crawler import BotCrawlerPlugin

Fazendo a Requisição¶

Para fazer a requisição, você deve usar o método request que leva como argumento uma URL.

Python

# Instancie o plug -in e habilite JavaScript
crawler = BotCrawlerPlugin(javascript_enabled=True)

url = "https://www.youtube.com/c/BotCityComputerVisionAutomationRPA"

# Faça o pedido
html = crawler.request(url)

Localizando um elemento¶

Olhando para a fonte da página do exemplo anterior, podemos observar que o elemento que mantém as informações dos assinantes possui o atributo id como subscriber-count.

Aqui está como podemos ler o valor do elemento:

PythonJava

# Isso define o elemento atual no objeto HTML para aquele encontrado
html.get_element_by_id("subscriber-count")

# Leia o valor na variável de assinantes
assinantes = html.value()