Avec le web scraping, les entreprises peuvent facilement accéder à d'énormes quantités d'informations.
Explorons ensemble les différentes méthodes de web scraping afin de pouvoir déterminer celle qui est la plus appropriée pour votre entreprise.
Le web scraping peut être défini comme la mise en œuvre automatisée d'un "scrapeur" qui parcourt le contenu d'une partie ou de la totalité des pages d'un site web afin d'extraire des informations.
Ces informations peuvent être le texte affiché sur le site, les technologies utilisées par le site, sa structure etc..
L'objectif est ensuite de les stocker dans un format facilement accessible: fichier Excel JSON ou CSV, base de données...
Ces informations extraites peuvent alors servir à alimenter un système analytique (analyse textuelle par exemple), enrichir les bases données d'outils d'aide à la prise de décision, fournir de précieuses listes de leads avec emails et numéros de téléphones pour des services de prospection commerciale, effectuer des audits SEO de sites ou encore faire de la veille ou de l'agrégation de contenu comme cette page concernant l'actualité de la crypto-monnaie Ethereum.
Le web scraping peut être 100% automatisé par trois moyens :
1. Faire tourner un script de scraping directement depuis votre ordinateur (avec programme écrit en Python, Javascript ou PHP par exemple).
En langage Python, vous pouvez vous former sur ce très bon MOOC de Codecademy : Learn Web Scraping with Beautiful Soup.
2. Faire tourner un script de scraping depuis un serveur ou faire appel à une agence de scraping qui le fera pour vous.
Toujours en langage Python, je recommande ce tutoriel.
3. Vous pouvez passer des plateforme sans savoir coder. Phantom Buster est très utile pour scraper Google Maps ou les réseaux sociaux : Facebook, Linkedin, Instagram, etc.. Import.io est relativement chère mais permet de scraper n'imprte quel site. Une petite période d'apprentissage est néanmoins nécessaire.
Vous pouvez aussi utiliser une plateforme Saas comme Scraping Bee ou Zyte qui permet d'héberger très facilement vos scripts (à condition qu'ils soient programmés avec le framework Scrapy pour Zyte) sur des serveurs sans avoir à effectuer de setups.
Une solution gratuite consiste à installer un Add-on du type Web Scraper sur votre navigateur puis de sélectionner manuellement les éléments à extraire dans une page, et à expliquer au programme comment il devra passer de page en page. C'est un outils très pratique pour effectuer de petites extractions rapidement, sans avoir à monter une usine à gaz !
(sélection manuelle des éléments à extraire pour paramétrer une solution semi-automatisée)
Le web scraping manuel se fait tout simplement en payant des individus pour naviguer manuellement sur les pages Web via un navigateur web (Google Chrome ou Firefox) procéder au copier/coller manuel des données intéressantes.
Vous pouvez trouver facilement de nombreux intermédiaires qui vous proposeront une main d'œuvre bon marché dans des pays comme l'Inde ou le Pakistan sur le site freelancer.com.
Lent, en proie à l'erreur humaine et peu scalable cette option reste néanmoins peu recommandée.
Avantages :
• Facile à mettre en place.
Inconvénients :
• Lenteur.
• Coûteux en ressources.
• Nécessite d'immobiliser un ou plusieurs ordinateurs.
Avantages :
• 100% des sites sont scrapables.
• Prix et performance lorsqu'il faut scraper beaucoup de données
• Une agence comme Scrapster.io peut le faire pour vous ;)
Inconvénients :
• Des connaissances en code sont requises à moins de passer par des plateformes souvent chères, surtout à grande échelle.
© Scrapster 2021