Proxy avec beautifulSoup pour scraper en Python

Web Thomas Vernier 26 novembre 2023 1 Commentaires

5/5 - (8 votes)

Salut ! T’as déjà eu des soucis pour scraper des sites web sans te faire bloquer ? Je te présente Proxy Scraper et BeautifulSoup, deux outils en Python qui vont changer ta vie de scrapeur.

Table des matières

Quel intérêt d’utiliser un proxy pour scraper ?

Quand tu scrapes, utiliser des proxies, c’est un peu comme jouer à cache-cache sur le web. Ils sont là pour :

Éviter les blocages : Si tu bombardes un site de requêtes, il va finir par te bloquer. Avec un proxy, tu changes d’IP et hop, tu passes incognito.
Contourner les restrictions : Des fois, le contenu que tu veux est bloqué dans ton pays. Les proxies, c’est la clé pour y accéder sans souci.
Rester anonyme : C’est pas mal de garder ton identité secrète, surtout si tu scrapes des trucs sensibles.

Mettre en place ton atelier de scraping

Avant de te lancer, t’as besoin de quelques outils. Installe Python si ce n’est pas déjà fait, puis choppe quelques bibliothèques comme requests, beautifulsoup4, et httpx. Ça va te servir pour faire des requêtes web et analyser le HTML des pages.

Requests

Alors, pourquoi requests ? Simple. C’est la base pour envoyer des requêtes HTTP. Quand tu navigues sur le net avec ton navigateur, il envoie des requêtes aux serveurs web. Avec requests, c’est ton script Python qui fait le job. Elle gère tout, que tu veuilles juste récupérer une page ou envoyer des données avec POST, requests est là. Et elle joue aussi avec les headers, les cookies, tout ça. Bref, elle rend la communication avec le web facile comme bonjour.

Beautifulsoup4

Maintenant, beautifulsoup4. Imagine que t’as récupéré un gros tas de HTML. Comment tu trouves ce que tu veux là-dedans ? Facile, avec beautifulsoup4. C’est l’outil parfait pour fouiller dans le HTML et en sortir ce que tu veux comme par exemple texte, liens, images. Elle te permet de trier, de filtrer, et de mettre la main sur les précieuses infos que tu cherches.

httpx

Et pour finir, httpx. C’est le petit nouveau, mais il promet. Son truc en plus ? Les requêtes asynchrones et le support d’HTTP/2. L’asynchrone, c’est pour faire plusieurs trucs en même temps. Pendant que t’attends une réponse d’un site, ton programme peut continuer à travailler. Et HTTP/2, c’est la nouvelle version du protocole HTTP, plus rapide et plus efficace.

Comment choper des proxies gratuits

Ici, je te montre comment récupérer des proxies gratuits. Tu vas faire une requête sur un site de liste de proxies, puis analyser le HTML pour extraire les adresses de proxies disponibles. C’est là que BeautifulSoup entre en jeu.

Utiliser un proxy pour scraper

Alors, t’as ta liste de proxies en main ? Nickel. L’étape suivante, c’est de les utiliser pour ton scraping. Le truc astucieux ici, c’est d’instaurer une rotation de proxies. Pourquoi ? Pour ne pas griller un proxy en le surutilisant. C’est comme ne pas toujours porter le même t-shirt pour passer inaperçu.

Liste de proxy gratuit

Free Proxy List : C’est un classique. Ce site offre une liste de proxies actualisée régulièrement. Tu y trouveras des proxies de différents pays, avec des informations sur le niveau d’anonymat de chaque proxy.
Hide My Ass : En plus d’être un VPN, Hide My Ass propose une liste de proxies gratuits. Ils offrent aussi des outils pour vérifier l’état des proxies.
SSL Proxies : Ce site est super pour trouver des proxies qui supportent le protocole SSL. Si tu veux scraper des sites en HTTPS, c’est l’endroit idéal.
ProxyScrape : Un autre site où tu peux trouver des proxies gratuits, avec la possibilité de filtrer par type de proxy, anonymat et pays.
Spys.one : Un site assez complet qui offre des listes de proxies par pays, type et niveau d’anonymat.

C’est quoi le principe de la rotation de proxy ?

C’est pas compliqué. L’idée, c’est d’alterner entre différents proxies. Tu en changes soit à chaque nouvelle requête, soit après un certain nombre de requêtes. Ainsi, ton adresse IP varie constamment, rendant plus difficile pour les sites web de détecter et de bloquer ton activité de scraping.

Aperçu de code pour la rotation

Je te montre pas le code ici, mais je te donne l’idée générale. Avec Python et la bibliothèque requests, tu vas pouvoir mettre en place cette rotation. Le concept est de piocher aléatoirement un proxy pour chaque requête que tu fais. C’est une méthode basique mais efficace pour commencer à organiser ta rotation de proxies.

import requests
from itertools import cycle
import random

# Mettons que t'as une liste de proxies
proxies = ["proxy1", "proxy2", "proxy3", ...]  # Remplace avec tes vrais proxies

proxy_pool = cycle(proxies)

def scraper_avec_proxy(url):
    for _ in range(len(proxies)):
        proxy = next(proxy_pool)
        try:
            response = requests.get(url, proxies={"http": proxy, "https": proxy})
            # Si la requête réussit, tu traites ta réponse ici
            return response
        except requests.exceptions.ProxyError:
            # Si ce proxy ne marche pas, on passe au suivant
            continue

# Maintenant, utilisons cette fonction pour scraper une page
url = "http://exemple.com"
resultat = scraper_avec_proxy(url)

Dans ce code, cycle de itertools te permet de parcourir ta liste de proxies et d’en choisir un nouveau à chaque fois. Si un proxy échoue, le code passe au suivant jusqu’à ce qu’il en trouve un qui fonctionne.

Quelques conseils de pro

Quand tu te lances dans le web scraping, surtout avec des proxies, y a quelques astuces à connaître pour que tout se passe bien. C’est pas juste une question de technique, mais aussi de savoir-faire et d’éthique. Voici quelques conseils :

1. change souvent de proxy

Tu te demandes peut-être pourquoi changer régulièrement de proxy ? Eh bien, si tu utilises toujours le même, les sites que tu scrapes vont finir par repérer des motifs dans tes requêtes. Et bam, t’es grillé ! Alors, varie les plaisirs :

Utilise une pool de proxies : Avoir plusieurs proxies à disposition te permet de les alterner facilement.
Algorithme de rotation : Mets en place un système qui change de proxy à intervalles réguliers ou après un certain nombre de requêtes.

2. sois prêt à gérer les erreurs

Dans le monde du scraping, les erreurs sont monnaie courante. Un proxy qui ne répond plus, un site qui change sa structure, des timeouts… T’as intérêt à être préparé :

Gestion des exceptions : Utilise des blocs try-except pour gérer les erreurs liées aux requêtes.
Réessaye avec un autre proxy : Si un proxy ne fonctionne pas, passe automatiquement au suivant.
Surveillance des performances : Garde un œil sur la réussite de tes requêtes. Si t’as un taux d’échec élevé, c’est peut-être le moment de revoir ta liste de proxies.

3. respecte les sites

Le scraping, c’est puissant, mais avec un grand pouvoir vient une grande responsabilité. Respecter les sites que tu scrapes, c’est essentiel :

Lire le fichier robots.txt : Ce fichier, situé à la racine des sites web, te dit quelles parties du site les propriétaires préfèrent que tu évites. Respecte-le pour éviter des ennuis juridiques.
Ne surcharge pas les serveurs : Faire trop de requêtes en peu de temps peut surcharger les serveurs du site et affecter son fonctionnement. Sois raisonnable dans la fréquence de tes requêtes.
Considère l’aspect légal : Certains sites interdisent explicitement le scraping dans leurs conditions d’utilisation. Prends le temps de les lire pour éviter de violer la loi.

Quel intérêt d’utiliser un proxy pour scraper ?