Saltar a contenido

Crawler

El complemento de crawler te permite rastrear sitios web y extraer datos de ellos sin usar un navegador.

Instalación

pip install botcity-crawler-plugin

Dependencias del sistema Linux

Si planeas usar este paquete con Linux y JavaScript, hay dependencias del sistema que deben instalarse.

Para Debian/Ubuntu, ejecuta el siguiente comando:

apt install libxcomposite1 libxcursor1 libxdamage1 \
libxfixes3 libxi6 libxtst6 libnss3 libnspr4 libcups2 \
libdbus-1-3 libxrandr2 libasound2 libatk1.0-0 libatk-bridge2.0-0 \
libgtk-3-0 libx11-xcb1 --no-install-recommends

Asegúrate de instalar las bibliotecas equivalentes para tu distribución de Linux.

Importar el complemento

Después de instalar este paquete, el siguiente paso es importar el paquete en tu código y comenzar a usar las funciones.

from botcity.plugins.crawler import BotCrawlerPlugin

Realizar la solicitud

Para realizar la solicitud, debes usar el método request que toma como argumento una URL.

# Instantiate the plugin and enable JavaScript
crawler = BotCrawlerPlugin(javascript_enabled=True)

url = "https://www.youtube.com/c/BotCityComputerVisionAutomationRPA"

# Make the request
html = crawler.request(url)

Localizar un elemento

Al examinar el código fuente de la página del ejemplo anterior, podemos observar que el elemento que contiene la información de los suscriptores tiene el atributo id como subscriber-count.

Aquí te mostramos cómo leer el valor del elemento:

# This sets the current element on the HTML object to the one found
html.get_element_by_id("subscriber-count")

# Read the value into the subscribers variable
subscribers = html.value()