Challenges à l’ère du Big Data

Eric Siegel, fondateur de Predictive Analytics World, estime ainsi que nous accumulons en moyenne 2.5 quintillions (10^30) d’octets de données par jour. Ces données peuvent facilement être collectées de façon passive, sans besoin de grands efforts et sans conscience de la part des personnes concernées par celles-ci. Ceci est d’autant plus accentué par le fait que le coût moyen de stockage des données décroit d’année en année et qu’à contrario la puissance des ordinateurs augmente sans cesse.

Les données sont présentes de façon volumineuse et non structurée. Elles se présentent également sous différentes formes  et proviennent de différentes sources (réseaux sociaux, click stream, messageries instantanées, logs, puces RFID, objets connectés, géolocalisation, …). En réalité, la vraie problématique que pose le Big Data n’est pas celle du stockage mais bel et bien celle de la façon dont les entreprises peuvent transformer cet immense volume de données en informations utiles, fiables et pertinentes. Les organisations doivent ainsi se démarquer de l’environnement d’analyse classique des données dans lequel elles ont évolué : changement de périmètre d’attention du stock aux flux ; prédominance des data scientists, du développement produits et du développement des process sur les data analysts ; transfert de l’analyse des données du département IT aux fonctions essentielles de l’entreprise telles que le marketing ou la production.

Pour être géré, le Big Data utilise plusieurs technologies :

  • Hadoop : technologie permettant de rechercher et d’analyser les données générées. C’est aujourd’hui un environnement de traitement des données à grande échelle composé de deux éléments : MapReduce et DFS (Distributed File System).
  • Google Bigtables : c’est un système de stockage de données structurées pouvant gérer un haut volume de données réparties sur des milliers de serveurs.
  • NoSQL : c’est un environnement de bases de données n’étant plus fondé sur l’architecture classique de bases de données relationnelles.
  • Internet des objets (IoT : Internet of Things en anglais) : extension d’Internet à des choses et à des lieux du monde physique au travers des objets connectés.

Différentes notions viennent caractériser le Big Data :

  • Le volume : quantité générée de données stockées et utilisées.
  • La variété : différents types de données générées.
  • La vélocité : vitesse à laquelle les données provenant de différentes sources sont générées.
  • La véracité : authenticité des données.
  • La validité : les données correspondent au concept qu’elles étaient sensées représenter (s’applique surtout au marketing).
  • La valeur : le ROI et la valeur commerciale que possèdent les données.
  • La variabilité : l’information contenue dans les données peut être variable selon le niveau auquel on traite ces données.

Les avantages et inconvénients que peuvent procurer le Big Data sont nombreux. D’un côté le Big Data peut être perçu comme un instrument puissant pouvant remédier à diverses problématiques sociétales et pouvant s’appliquer à des domaines variés tels que la recherche médicale, la lutte contre le terrorisme ou encore la lutte contre le changement climatique. D’un autre côté, celui-ci peut être vu comme un outil de surveillance utilisé par les gouvernements et autres organisations et venant perturber la vie privée et les libertés individuelles.

Le Big Data peut aboutir à une amélioration de l’efficience économique, améliorer l’accès aux services sociaux, renforcer la sécurité, personnaliser les services et augmenter la disponibilité d’informations pertinentes ainsi que faciliter l’innovation des plateformes de communication. Le Big Data peut également avoir un gros impact sur les organisations en les rendant plus efficaces via une amélioration des opérations, une facilitation de l’innovation et de l’adaptabilité, une optimisation de l’allocation des ressources. On peut citer comme exemple la société Danone qui, grâce au Big Data, put améliorer la précision de ses prévisions concernant la demande de ses distributeurs, aboutissant à une meilleure satisfaction client, une diminution des pertes et une augmentation de la profitabilité. Le Big Data est ainsi un outil offrant de nouvelles perspectives au Marketing. L’analyse des données peut permettre la découverte de nouveaux comportements de consommation rendant possible la mise en place de campagnes de discount, d’adapter le marketing de nouveaux produits, d’augmenter le contenu moyen du panier du consommateur, … Le Big Data permet également d’effectuer un Marketing personnalisé en fonction du client, basé sur son comportement et ses préférences. Il peut, en outre, déterminer quel média/canal de communication est le plus adapté pour atteindre le consommateur.

En résumé, avec le développement de l’accès à l’Internet, des technologies de réseaux sans fil, des smartphones, des réseaux sociaux ou encore de l’Internet de objets, les individus communiquent, sans même s’en apercevoir et sans même que ceci soit intentionnel, leurs données personnelles. Via le Big Data, les marqueteurs ont accès à celles-ci et peuvent les utiliser, directement ou indirectement, avec ou sans permission. Ceux-ci sont ainsi en mesure d’identifier précisément et efficacement les comportements, leurs changements, et de cibler ceux-ci à un niveau individuel.

Mais les marqueteurs ne sont pas les seuls acteurs pouvant tirer un avantage du Big Data. Les scientifiques, quant à eux, peuvent l’utiliser dans leurs recherches pour améliorer le bien-être des individus. Celui-ci peut aussi lutter contre la propagation d’épidémies (exemple de Google Flu Trends contre les épidémies de grippe), prévenir des incendies, des tremblements de terre, ou encore effectuer des prévisions météorologiques.

Le Big Data peut également aider à améliorer la performance des agences gouvernementales. Celles-ci sont en mesure de mettre à disposition de meilleurs services en termes de santé, d’éducation, de services sociaux, de sécurité ou encore de transport. Par exemple, la police peut, à l’aide du Big Data, identifier des zones géographiques où le taux de criminalité est élevé et concentrer ses efforts sur ces zones. Elle peut également identifier les futures tendances criminelles ou les futures menaces terroristes.

Cependant, une énorme quantité de données sous-entend également que des brèches de sécurité peuvent aboutir à de plus sévères conséquences, pertes et dégâts, notamment en termes de réputation, d’éthique, de responsabilité … Les données se présentent sous différents formats, de façon structurée ou non structurée. Ces données non structurées, prenant la forme de documents Word, d’e-mails, d’images, de vidéos …, sont particulièrement sensibles car elles sont de nature à contenir des données personnelles identifiables ou des données de propriété intellectuelle. En outre, les techniques de sécurité existantes dans un environnement non adapté au Big Data ne sont pas adaptées pour appréhender l’échelle, le volume, la rapidité, la variété et la complexité des données. Ceci est de nature à provoquer des lacunes de sécurité, notamment lors des pics de trafic de données.

En outre, des problématiques sécuritaires prennent également leur source dans l’externalisation du stockage de données chez des fournisseurs de services (par exemple de Cloud computing). Il a ainsi été déterminé qu’en 2012, 64% des brèches de sécurité impliquaient des prestataires de services externalisés. Ceci est notamment dû au fait que bien souvent, les fournisseurs de services sont des sociétés bien plus importantes que leurs clients, stockant un très important volume de données, et faisant ainsi d’eux des cibles privilégiées pour les cybercriminels.

La disponibilité d’une énorme quantité de données augmente également la possibilité que les données personnelles soient utilisées dans le cadre d’autres utilisations que celles initalement prévues afin de créer de la valeur. Lors de telles pratiques, le consentement des personnes concernées par les données n’est alors pas recueilli. Or, ces utilisations dépassent bien souvent le cadre dans lequel consentement initial avait été donné.

Un autre aspect négatif du Big Data est celui des entreprises spécialisées dans le Consumer Database Marketing. Ces sociétés possèdent des milliers de serveurs où sont enregistrées et analysées chaque année des centaines de milliards de données et transactions. Grâce à celles-ci, les entreprises sont capables de constituer des dossiers fichant les différents consommateurs et contenant des milliers d’éléments sur chacun d’entre eux. Ainsi, il a été prouvé que la société Acxiom a été en mesure de ficher environ 75% des consommateurs américains. Ces sociétés revendent ensuite leurs dossiers à divers organismes tels que des agences gouvernementales ou des compagnies commerciales, mais il leur arrive parfois de revendre ces informations à des pirates qui peuvent dès lors aisément commettre leurs méfaits (usurpations d’identité, fraudes de cartes bancaires, …). Dans le jargon de la sécurité informatique, on appelle ces dossiers de données des fullz : dossiers regroupant le maximum d’informations possible sur un individu, telles que numéro de sécurité sociale, nom, prénom, nom de jeune fille de la mère, …

L’anonymisation et la dé-identification sont ainsi proposées comme solutions aux problèmes de confidentialité des données et de respect de la vie privée. Cependant plusieurs remarques sont à faire sur le sujet. Tout d’abord, il a été prouvé qu’il est aisé de retrouver l’identité d’un individu en recoupant des données, même si celles-ci peuvent n’avoir aucun lien entre elles. Ainsi, en recoupant les données anonymisées de Netflix et de la compagnie d’assurance du Massachusetts, des chercheurs ont été capables d’identifier plusieurs individus, et notamment le Gouverneur de cet Etat. Aussi, il est possible d’utiliser des données non personnelles afin de définir des traits de la personnalité tels que l’orientation sexuelle ou l’état financier d’une personne. On peut citer l’exemple de l’utilisation des « likes » du réseau social Facebook qui, lorsqu’utilisé de de la bonne manière, permet de déterminer de façon précise des données sensibles telles que les opinions politiques ou religieuses, l’appartenance à une ethnie, le genre, l’âge, la consommation de substances interdites ou encore le degré de bien être d’un individu.

Grégoire Carissimo

Membre de l’association Juristes du Numérique

Promotion 2015-2016