Le scraping, qu’est-ce que c’est ?
Le scraping, ou collecte, capture ou extraction de données en français est une technique informatique par laquelle un programme extrait des informations depuis des sources informatiques lisibles par un humain.
Le data scraping permet d’extraire et structurer des données depuis des sources inorganisées, desquelles l’information peut être difficile à comprendre et à extraire.
Il existe de nombreuses formes de scraping (parsing, report mining, screen scraping…), mais une des plus intéressantes est le web scraping. Il permet d’extraire des informations depuis des pages web, le plus souvent de manière automatisée, avec des logiciels dédiés.
Quelles utilisations sont faites du scraping ?
La technique peut être employée à des fins de revente en masse, par des entreprises se spécialisant dans la collecte et la revente de données, ou bien à des fins personnelles de démarchage commercial par des sociétés collectant les données pour leur propre compte.
Le plus souvent, les données collectées sont des données d’identification ou de contact, comme le nom et prénom, le numéro de téléphone, l’adresse mail ou personnelle etc.
L’utilisation du web scraping est-elle licite en dehors de l’Europe ?
L’utilisation massive du scraping par les services internes des réseaux sociaux et la nécessité pour les entreprises d’utiliser ces données pour réaliser leurs objectifs commerciaux ont récemment conduit les Cours américaines à statuer en faveur de l’utilisation de tels outils.
Le principe selon les lois étatsuniennes est que les entreprises peuvent réaliser toute opération concernant des données du moment que la loi ne l’interdit pas. Une décision LinkedIn contre HIQ du 18 avril 2022 fait primer le "droit de faire des affaires" (the right to conduct business) sur la protection de la vie privée des utilisateurs. La Cour considère que les personnes choisissant de poster des informations personnelles sur leurs profils publics ne peuvent prétendre à ce que leurs données personnelles restent privées et inutilisées, par l'intermédiaire d'outils comme le scraping par exemple.
L’approche est inversée en Europe, le responsable de traitement doit s’appuyer sur une base légale appropriée avant toute utilisation. Sinon, le traitement de données sera par principe illicite.
En Europe, la protection renforcée des données personnelles par le RGPD ne s’oppose-t-elle pas à de telles utilisations ?
Les données présentes sur des plateformes ou des réseaux sociaux sont très souvent publiques, aucune identification n’étant requise pour aller les consulter. Cependant, elles restent des données à caractère personnel. Par conséquent, leur traitement tombe sous le coup du RGPD lorsque ce dernier s’applique et les utilisateurs de tels outils deviennent responsables de traitement.
Un certain nombre de ses articles sont susceptibles d’être violés par une telle pratique.
Peut-on tout de même, en tant que responsable de traitement soumis au RGPD, utiliser le scraping sur des plateformes comme LinkedIn ? Dans quel cadre ?
Le web scraping est un instrument encadré par le RGPD, son utilisation est soumise à 3 grandes conditions :
1) Ne pas violer les conditions générales d’utilisation de la plateforme d’où proviennent les données
La première difficulté réside dans les conditions d’utilisation de la plateforme. Les CGU de LinkedIn par exemple stipulent en effet : « Vous vous engagez à ne pas développer, prendre en charge ou utiliser des logiciels, des dispositifs, des scripts, des robots ou tout autre moyen ou processus visant à effectuer du web scraping des Services ou à copier par ailleurs des profils et d’autres données des Services »
Ainsi, utiliser le scraping sur LinkedIn expose l’utilisateur à des sanctions, d’autant plus que la plateforme met en place des algorithmes performants de détection de ces outils.
2) Respecter les obligations du RGPD concernant la prospection commerciale directe
En matière de prospection commerciale des particuliers, le principe est l’interdiction de la prospection directe en l’absence de l’information et de l’obtention du consentement préalable de la personne. La seule base légale possible pour la prospection commerciale est donc le consentement des personnes.
La seule exception à ce principe est lorsque la personne, qui dans le cadre de la plateforme, peut s’attendre raisonnablement à la réutilisation de ses données à cette fin.
A propos des attentes des personnes et de l'utilisation du scraping sur LinkedIn, une délibération de la CNIL du 8 décembre 2020 est particulièrement éclairante.
La société Nestor, faisant de la vente de repas sur le lieu de travail, utilisait un outil de web scraping pour se constituer une base de prospect au travers du réseau LinkedIn. Elle invoquait la base légale de l'intérêt légitime qu'elle a à propecter des professionnels pour constituer et utiliser cette base de données. En effet, la prospection de professionnels à professionnels (B2B) sur les sujets en rapport avec leur activité peut être réalisée sans consentement de leur part.
Cependant, la CNIL a considéré d'abord que "les messages de prospection pour la vente de repas sur le lieu de travail des personnes n'ont que peu de lien avec l’activité professionnelle des prospects", puis a statué sur une violation du RGPD constituée par le manquement aux obligations d'information et de recueil du consentement. La société n'a pas pu se fonder sur son intérêt légitime pour réaliser ce traitement de données.
3) Respecter les grands principes du RGPD applicables à tout traitement de données
On pense notamment à l’absence d’information des personnes, le défaut de consentement, ou encore le non-respect du droit d’opposition des personnes, en particulier lorsque ces dernières se sont déjà opposées à toute réutilisation pour du démarchage.
De plus, si la société a recours à un prestataire qui fournit l’outil, il devra s’assurer que les obligations du chapitre IV du RGPD sur la sous-traitance sont remplies.
Enfin, la réalisation d’une AIPD peut être obligatoire dans certains cas. Même si elle n’est pas obligatoire, eu égard aux caractéristiques d’un tel traitement, il est recommandé d’en effectuer une en tout état de cause.
Dastra vous aide dans la mise en conformité RGPD avec une solution simple et efficace : demandez nous une démo.
Quelles seront les sanctions en cas de non-respect de ces obligations ?
Sur le fondement du RGPD, la condamnation est possible pour violation des articles 5, 12 et 13 du RGPD (principes du traitement et droits des personnes). L'article 83 du RGPD fait état d'une amende administrative pouvant aller jusqu'à 20 millions d'euros ou 4% du CA annuel mondial total de l'entreprise.
De plus, une infraction spécifique existe dans le code pénal, celle de "collecte frauduleuse, déloyale ou illicite de données personnelles", présente à l'article 226-18.
Ainsi, toute collecte réalisée de manière frauduleuse (par exemple à l'insu des personnes concernées) peu importe que les données soient publiques ou non, est punie de cinq ans d’emprisonnement et de 300 000 euros d’amende.
Une autre infraction peut être également envisagée par le recours au scraping : la violation des droits du producteur de la base de données. En effet, la base donnée est protégée par le droit d'auteur, et par un droit sui generis (à part entière) protégeant son producteur (articles L. 112-3 et L. 341-1 du code de la propriété intellectuelle).
Le producteur de la base peut interdire toute extraction d'une partie substantielle de la base, tout comme sa réutilisation par la mise à disposition du public.
Les peines encourues sont de 300 000 euros d'amende et de 3 ans d'emprisonnement.