Le scraping pour les nuls

Devenez digital

Le scraping pour les nuls

Le scraping étant un sujet très complexe, et en évolution permanente, le but de cet article est d’en poser les bases.

Pour résumer en une phrase : le scraping consiste à récupérer des données pour les copier sur votre serveur

De ces données récupérées discrètement on distingue deux usages :

augmentation du business :

Par exemple : Je suis un vendeur de robes d’avocat. Si je pouvais récupérer une liste structurée des avocats avec leur adresse/mail/nom/prénom :

Cela me permettrait de lancer une campagne de mail parfaitement ciblée.

On peut également intégrer les data dans le CRM pour donner aux équipes commerciales un bel avantage.

Compréhension du client

Par exemple : je viens d’augmenter mes prix de 15% car j’utilise un nouveau matériau de meilleure qualité. Je peux récupérer et analyser automatiquement tous les tweets qui parlent de mon produit.

Ainsi, je pourrai donc savoir la proportion de clients mécontents de cette hausse de prix et la mettre en perspective avec l’augmentation de clients contents du nouveau matériau.

C’est ce type d’exemple qu’on utilise pour expliquer l’entreprise « data centric » qui prend une grande partie de ses décisions sur de l’analyse de données/Big Data/IA

Comment récupérer les données

Le scraping de données s’apparente un peu à un hack, il n’y a donc aucune formule magique qui fonctionne dans tous les cas.

Pour des petits volumes de données (disons un xml de10 Mo), certains outils sont disponibles aux débutants/confirmés.

Plus précisément : j’utilise généralement des extensions Google Chrome qui me permettent avec quelques scripts de tout télécharger

Je conseille l’extension web scrapper.

Cette extension permet de tout automatiser, de la gestion de la pagination, la gestion de la structure du document créé, ainsi que d’innombrables options.

La contre attaque des sites

Vous croyez que les propriétaires des données allaient vous laisser vous servir en open bar Sans réagir ? Perdu !

Certains sites embarquent des algorithmes de détection de scrapers basés sur leur vision des comportements humains normaux.

Par exemple, sur Linkedin :

  • tapez le nom d’une grande entreprise
  • Sélectionnez « personnes » (pour voir les personnes membres de l’entreprise)
  • vous avez 10 personnes par page
  • cliquez maintenant sur « suivant » plusieurs fois très rapidement

Normalement au bout de la 13 ème page, le site va vous afficher un capcha à remplir. Cela veut dire que l’algorithme de Linkedin à considéré que votre comportement était inhabituel et pouvait potentiellement s’apparenter à du scraping.

Les logiciels ne pouvant pas résoudre le bloquage, le programme s’arrête.

La contre contre attaque…

Au programme pour les scrappers :

  • Temps d’attente entre clics variables (suivant une courbe de Gauss)
  • Adresses IP variables
  • comptes variables
  • Signature web aléatoire
  • chemins de navigation variables

Ce petit programme est assez ambitieux, et s’adresse plutôt à la crème de la crème des scrapers, mais tout reste possible.

Pour les scrapers moins talentueux, il reste l’option moyenement éthique des « fermes à capcha » indiennes…

C’est à dire que à chaque page scrapée, le capcha sera rempli à la main par un opérateur.

Le point de vue légal

La complexité de l’aspect juridique du scraping n’a probablement rien à envier à la complexité technique de contournement des algorithmes.

D’un point de vue technique le processus de scraping n’est pas illégal, c’est la détention de ces données et l’utilisation qui peuvent être répréhensibles.

C’est sur cet aspect ou l’on voit un grand spectre de jurisprudence avec des décisions contradictoires selon les pays et les entreprises.

On voit généralement les startups utiliser ces méthodes de growth hacking pour grossir rapidement en prenant d’importants risques.

Pour les business plus pérennes, il est cependant conseillé d’utiliser le scraping avec parcimonie, même si cela peut se révéler un merveilleux levier de croissance.

Aucun commentaire

Ajoutez votre commentaire