Un crawler en Javascript accompagné d'un programme en python qui fait presque tout.
Discalmer : Si vous avez Python et Flask d'installés, allez directement à la partie Lancement.
Tout d'abord, il vous faut Python. Vérifiez la version avec :
$ python3 --version
Python 3.x.x
ou
$ python3 -V
Python 3.x.xSinon, il faudra télécharger Python sur le site officiel. Une fois que c'est fait, tapez
$ pip install Flask
ou
$ pip3 install Flask # Si vous avez une version antérieure à Python 3Maintenant (si l'intallation à réusi), on va passer à la partie suivante.
Il faudra ensuite installer le fichier si ce n'est pas déjà fait et entrer cette commande :
cd /Votre/chemin/de/dossier/CrawlerJS
python3 app.pyEn remplaçant bien par le chemin vers le fichier CrawlerJS.
La console devrait vous renvoyer ce message
* Serving Flask app 'app'
* Debug mode: on
WARNING: This is a development server. Do not use it in a production deployment. Use a production WSGI server instead.
* Running on http://xxx.0.0.1:5000
Press CTRL+C to quit
* Restarting with stat
* Debugger is active!
* Debugger PIN: xxx-xxx-xxxCopiez l'adresse créée (4e ligne : http://xxx.0.0.1:5000) et collez-là dans la barre de recherche d'un navigateur.
Le site devrait normalement fonctionner.
Les requêtes peuvent prendre du temps à cause de (ou grâce à) la 38e ligne du code en python :
time.sleep(random.uniform(0.5, 1))Cette ligne attends un temps aléatoire entre 0.5s et 1s avant d'envoyer chaque requête.
Elle vous protège des attaques DDoS qui sont passibles de
jusqu'à cinq ans d'emprisonnement et 150 000 euros d'amende.
Bref, à éviter.