10/06/2015

Le Big Data, Big Brother?

Quoi ?

Mot clé à la mode, les « Big Data » agitent toutes les industries, de la politique au transport aérien, en passant par la télévision et bien sûr la publicité. L’essor des « Big Data » serait même l’une des raisons qui aurait poussé Publicis et Omnicom à se rapprocher pendant l’été. Mais que cache ce concept ? A quoi ça sert ?

Petit rappel :
Des milliards et des milliards de données.
1969 : Internet est créé par quatre universités américaines qui souhaitaient communiquer et partager leurs données plus rapidement, plus facilement.
1971 : le premier courrier électronique est envoyé par Ray Tomlinson, également américain.
1972 : Internet est présenté au grand public.
2010 : près de 1.000 milliards de Gigaoctets de données sont accessibles sur Internet.
2015 : cette année-là, le cabinet d’analyse Gartner estime que le volume des données disponibles sur Internet sera de 8 Zettaoctets, soit 8.000 milliards de Gigaoctets. Cela correspond à près de 250 milliards de DVD.

Quand les médias évoquent le Big Data, on comprend qu’il s’agit d’une masse importante d’informations, mais on sait peu d’où celles-ci proviennent, comment elles sont gérées, et ce qu’elles peuvent apporter ou coûter à l’humanité.

Avec l’émergence des « Nouvelles » Technologies de l’Information et de la Communication, l’Homme a construit la Société de l’Information, où les données deviennent peu à peu la matière première dominante de nos économies. Rapidement, nous avons du ré-apprendre à gérer l’information : recherche, production, stock, tri, partage, analyse, croisement, synthèse, sauvegarde, etc.

Baptisées « le pétrole du XXIème siècle« , les données informatiques sont produites en permanence et à une vitesse croissante : elles proviennent de tous les secteurs (ex : recherche scientifique), et notamment de notre utilisation d’Internet : recherches web, commentaires sur les réseaux sociaux, produits consultés sur les sites de e-commerce, notations des vidéos en streaming, géolocalisation mobile, etc. sont autant d’informations que les internautes communiquent – souvent à leur insu – et qui en disent long sur leurs goûts, leurs centres d’intérêt, leurs habitudes, etc. Et autant de données qui sont analysées avec le plus de pertinence possible.

Le Big Data, c’est donc non seulement une masse considérable de données, mais c’est aussi une spectaculaire force de calcul informatique mise en œuvre pour les analyser, dans le but d’en retirer une valeur ajoutée supplémentaire : dépistage de risques sanitaires, découvertes spatiales, renseignement policier, développement de nouveaux modèles économiques, prévisions climatiques, nouveaux procédés marketing, etc.

Qu’est-ce qu’il est possible de faire aujourd’hui qui n’aurait pas été réalisable auparavant?

Prenez la traduction. Il y a 20 ans, si vous tapiez une phrase de l’anglais au français sur un site Web dédié, il traduisait les mots de manière littérale. Le résultat était ridicule. Le système ne marchait pas bien car il choisissait les mots en piochant simplement dans un dictionnaire alors qu’ils peuvent avoir plusieurs significations: «Light» peut dire «lumière» ou «léger» en français. Il faut pouvoir prendre le contexte en compte. Au début des années 2000 les sites de traductions ont commencé à utiliser beaucoup plus de données pour améliorer le service. Les outils de Google marchent très bien aujourd’hui grâce à cela.
Le domaine de la santé est un bon exemple. Une personne arrive en urgence à l’hôpital, le médecin essaye plusieurs traitements en fonction du diagnostic en espérant que cela fonctionne. Lorsqu’elle quitte l’hôpital, on ne garde pas ces informations pour les agréger et les analyser: quel médicament fait effet, à quelles conditions, avec quels types de patients, pour quels symptômes, et avec quel autre médicament pris en même temps? Tout cela est jeté à la poubelle avec les seringues usagées, alors que nous pouvons utiliser ces données pour guérir les futurs patients.

L’exploitation de données massives peut aboutir à des outils particulièrement utiles.

Prenons Gmail. Oui, il s’agit bien de Big Data : chaque jour, la boîte mail version Google analyse les centaines de millions de messages électroniques échangés. Gmail sélectionne alors des mots-clés au sein des emails et sélectionne, dans sa base de données, des annonces de publicités liées au contenu de ces messages. Par exemple, lorsque vous évoquez un futur voyage en Thaïlande dans un message avec un ami, Gmail va instantanément placer un bloc de publicité, sur la droite de la page, proposant des billets d’avion pas cher ou des logements à Bangkok.

Comment ça marche ?

Le Big Data se concentre sur analyse des données provenant de sites web, de smartphones, de web analytics, via des algorythmes de calculs puissantes et des technologies comme les bases de données très développées, des infrastructures de serveurs et le stockage des données. Il se caractérise souvent sous la forme de 3 valeurs :

– Le volume : c’est la quantité de données générées, en constante augmentation.
– La vitesse : c’est la vitesse à laquelle les données sont générées et partagées.
– La variété : c’est la diversité des types de données, provenant de différentes sources; mobile, médias sociaux, machine.

En 2016 il y aura sur terre 3 fois plus de terminaux connectés au web que d’individus sur terre. Sachez que 93% des dirigeants d’entreprises estiment perdre des opportunités de croissance du fait de ne pas savoir comment exploiter des données. Alors êtes vous tenté de vous y mettre ?

« Le Big Data n’est pas magique ». Ce sont les mots de Damien Cudel, de la division Marketing de Microsoft. L’éditeur de logiciel, qui accompagne les entreprises dans les solutions de stockage des données, est conscient des nombreux freins se dressant déjà face à la « Big Data ». Notamment dans le monde professionnel. « Le premier écueil consiste à se poser les mauvaises questions lors d’une recherche de données », explique Bernard Ourghanlian, directeur technique et sécurité chez Microsoft. Si par exemple un portail de commerce en ligne arrive à la conclusion que tel modèle de chaussures est préféré par ses internautes, puis les met en avant sur son site sans vérifier l’état de ses stocks, la Big Data ne sert à rien. « Le tri des données est complexe. Si le calcul n’est pas adapté au business de l’entreprise, cela peut aboutir à un gros échec », prévient Joannès Vermorel, fondateur de Lokad, qui propose des solutions aux entreprises pour exploiter les données massivement récoltées.

La question de la confidentialité des données

Techniquement, le Big Data invite à relever de nombreux défis, notamment concernant les capacités de stockage et d’analyse. Pour exemple, la NSA créé en ce moment même un gigantesque entrepôt sous-terrain capable de stocker des millions de Yottabits (Stellar Wind, le Big Brother de demain).
Mais sur le plan sociétal, c’est le thème de la confidentialité des données qui est préoccupant : plus nous vivons dans un univers connecté, dématérialisé et urbain, et plus nous sommes sujets à la collecte de données : informations web, cartes bancaires, géolocalisation, caméras de surveillance, titres de transport, etc. Ces données, qui peuvent être considérées comme personnelles, rejoignent la masse hétérogène du Big Data, et sont potentiellement utilisées, analysées, etc.
Aujourd’hui, un véritable (mais difficile) combat est mené par des acteurs comme l’Union Européenne ou des associations de consommateurs, non pas pour interdire la collecte et l’analyse de données, mais pour que les utilisateurs/consommateurs/citoyens puissent avoir le contrôle sur leurs propres informations. Bref, intégrer au Big Data certaines règles de confidentialité, de respect et de bonne intelligence. Pas sûr que l’Homme parvienne à programmer une machine qui soit ce que lui n’a pas réussi à devenir…

Combien ça rapporte ?

En 2012, Gartner évaluait les dépenses informatiques liées au Big Data à 232 milliards de dollars entre 2011 et 2016… Les géants du logiciels sont d’ailleurs les plus fervents promoteurs des « Big Data », qui, comme le « Cloud », est devenu un concept marketing. Pour les entreprises et les institutions publiques, les gains sont variables, en fonction de l’ambition des projets et des moyens mis en oeuvre. Le cabinet McKinsey estime de son côté que les administrations européennes pourraient générer des gains d’efficacités en centaines de milliards d’euros s’ils utilisaient les Big Data.

Pendant la campagne présidentielle de 2012, les équipes de Barack Obama ont exploité les données à leur disposition pour optimiser chaque action, des plus basiques (les objets des emails) aux plus complexes (le ciblage des campagnes TV ou le choix des messages à transmettre). Résultat : les donateurs ont donné en moyenne 156$ chacun, contre 126$ en 2008. « Ce qui a changé radicalement [dans cette campagne], c’est l’aspect temps réel. Avant, on avait une analyse qui sortait un mois après. Maintenant, on peut réagir immédiatement » explique Kilian Bazin.

Chez Qantas, Vaughan Chandler évalue que chaque employé de l’équipe « Insight and Innovation » rapporte 6 millions de dollars par an à la compagnie en revenus additionnels. « Avec de tels chiffres, on devrait tripler les embauches sur les prochaines années ! » Un souci : selon Gartner, les Big Data devraient générer 4.4 millions d’emplois IT dans le monde d’ici 2015 et 6 millions d’emplois rien qu’aux Etats-Unis, mais seulement un tiers des emplois IT seront pourvus, faute de talents…
IT (Information technology) : Technologies de l’information et de la communication, des techniques utilisées dans le traitement et la transmission des informations

Quels enjeux à venir ?

C’est probablement l’un des plus grands défis informatiques des prochaines années. Les données des bibliothèques (numériques ou physiques), celles des très grandes entreprises et bien entendu celles des administrations, leur analyse et la possibilité de les exploiter constituent un des enjeux majeurs du futur d’Internet. Une hypothèse qui peut faire peur : des chercheurs en Big Data planchent actuellement sur le comportement du cerveau humain. Si un jour les résultats de ces analyses sont croisés avec celles des sites marchands, le ciblage publicitaire sera à son paroxysme.

Sources :Blogneocamino, petitweb.fr, panoptinet.com, leparisien.fr, europe1.fr, 2Ominutes.fr
Fermer