Big Data : pourquoi nos métadonnées sont-elles plus personnelles que nos empreintes digitales ?

Thierry Bardy ; tags ; Big data , Telco....

Big data ; mefiez-vous des géants qui sommeillent et notamment des Telco

On parle toujours de Facebook, Twitter et Google lorsque l’on évoque les quantités titanesques de données des internautes détenues par ces acteurs du web. Il existe un autre type d’acteur qui dort sur une mine d’or de données : ce sont les FAI (fournisseurs d’accès Internet) et surtout les opérateurs mobiles comme SFR, Bouygues Telecom, Free ou Orange.

En effet, les opérateurs mobiles disposent des données de localisation en temps réel de l’ensemble de la population française, puisque le taux d’équipement dépasse depuis bien longtemps les 100%. Ainsi, SFR, Bouygues Telecom, Free et Orange sont assis sur des terrrabites de données personnelles qui intéressent de près tous les annonceurs et agences.

Les opérateurs mobiles peuvent, sur le papier, modifier toute l’industrie publicitaire, en particulier pour tout ce qui touche au mobile. C’est une occasion unique pour eux de générer des revenus additionnels en commercialisant ces données uniques. Mais la CNIL et les autres gendarmes veillent de près sur l’utilisation qui est faite des données personnelles.

Des expérimentations déjà en cours

Les opérateurs mobiles n’ignorent pas le phénomène. Ainsi, Orange dispose d’un fonds d’investissement avec Publicis d’un total de 300 millions d’euros qui cible l’ad tech. L’entreprise a par exemple investi dans le spécialiste européen du reciblage, MyThings.

Aux Etat-Unis, l’opérateur Verizon Wireless propose depuis l’année 2012 Precision Market Insights, un service de monétisation des données de plus de 100 millions de clients capturés et qui ont été anonymement agrégés. Cette information permet aux annonceurs de mieux cibler leurs campagnes sur le PC, les tablettes et smartphones.

De même, Sprint s’appuie sur plus de 50 millions de clients pour proposer un outil similaire nommé Pinsight Media Plus, http://pinsightmedia.com/ Il se focalise sur le ciblage d’audiences mobiles.

Dès 2011, AT&T propose un service similaire combiné à son propre réseau publicitaire multiplateforme s’appuyant sur ses données propriétaires. L’opérateur US a ouvert une division AdWorks qui opérait comme une agence mobile, mais en Octobre 2013, AT&T a dû fermer cette filiale qui employait plus de 120 collaborateurs.

Les opérateurs mobiles disposent d’avantages compétitifs en termes de quantité et de type de données sur le comportement des consommateurs : plan tarifaire, utilisation des applications, type d’appel, localisation, navigation… En combinant ces informations, les opérateurs sont en mesure de dresser un portrait complet du comportement de ses utilisateurs sur la toile. Voici quelques exemples des informations dont disposent les opérateurs mobiles à des fin marketing :

- L’utilisation : navigation, applications, appels, SMS;

- Localisation avec un niveau de précision de l’ordre de 1 km;

- Démographie : revenus du foyer, nombre de personnes, âges des enfants…

- Valeur : type de plan tarifaire, risque de non-paiement, historique de facture, valeur…

- Convergence multiplateforme : utilisation des données, non seulement sur le smartphone mais aussi sur la tablette, le PC et la télévision IP pour ceux qui sont aussi fournisseurs d’accès à internet.

Espérons que la démonstration soit probante. Oui les opérateurs mobiles sont en possession d’une mine d’or de données clients qu’il faut veiller à exploiter anonymement dans les respect des données personnelles.

Alors est-ce que dans un futur proche les opérateurs vont devenir des fournisseurs de données de premier rang et des princes de l’analytique publicitaire ? Il est encore trop tôt pour être en mesure d’y apporter une réponse.

Certaines initiatives visent à améliorer les panneaux d’affichages publicitaires placés à l’extérieur en fonction du « trafic » généré à proximité par les abonnées d’un opérateur mobile. Ces informations peuvent aussi permettre aux distributeurs et aux concepteurs de centres commerciaux de déterminer l’endroit à choisir pour la création d’une nouvelle boutique.

Il est certain que la majorité des entreprises s’appuient encore sur des outils datant d’une autre ère. La mesure de l’audience mobile pourrait être révolutionnée par les opérateurs mobiles qui sont capables d’aider les acheteurs publicitaires à mieux acheter l’inventaire publicitaire mobile. Il s’agit donc autant d’une opportunité que d’un risque. En effet, demain les opérateurs mobiles vont pouvoir lancer leur propre DMP et DSP avec un avantage compétitif certain sur les pure players. Il s’agit d’un réel relais de croissance pour les opérateurs mobiles. Reste à savoir s’ils seront capables de saisir cette opportunité ou bien si les géants vont continuer à faire la sieste

A l’occasion du colloque "la politique des données personnelles : Big Data ou contrôle individuel " organisé par l’Institut des systèmes complexes et l’Ecole normale supérieure de Lyon qui se tenait le 21 novembre dernier, Yves-Alexandre de Montjoye (@yvesalexandre) était venu présenter ses travaux, et à travers lui, ceux du MediaLab sur ce sujet (Cf. "D'autres outils et règles pour mieux contrôler les données" ). Yves-Alexandre de Montjoye est doctorant au MIT. Il travaille au laboratoire de dynamique humaine du Media Lab, aux côtés de Sandy Pentland, dont nous avons plusieurs fois fait part des travaux.

Nos données de déplacements sont encore plus personnelles que nos empreintes digitales

Faire correspondre des empreintes digitales n’est pas si simple, rappelle Yves-Alexandre de Montjoye. Dans Les preuves de l’identité, Edmond Locard, le fondateur de la police scientifique, explique qu’il suffit d’utiliser 12 points de références pour être sur et certain d’identifier les empreintes digitales d'un individu.
Nos traces numériques laissent bien plus d’empreintes que 12 petits points… Nos téléphones laissent derrière eux, dans les données des opérateurs, de nombreuses informations : qui on appelle, quand, pendant combien de temps, de quel endroit… Nos données de mobilités listent tous les endroits où nous sommes allés. Or, nos façons de nous déplacer sont très régulières, répétitives, uniques, pareilles à des empreintes digitales. Quand on regarde une base de données d’opérateur téléphonique, on est confronté à des millions d’enregistrements. On semble n’y voir personne et pourtant, chacun d’entre nous est là. Comment retrouver quelqu’un dans de telles bases ? Quel serait le nombre de points nécessaires pour identifier à coup sûr une personne dans de telles bases ?

Image : illustration de l'unicité de nos parcours repérés via des antennes mobiles. Image tirée de l'étude "Unique dans la foule".
Et Yves-Alexandre de nous inviter à retrouver un de ses collègues du Media Lab. Sur son compte Flickr, on voit qu’il a posé une photo prise dans le centre de Boston entre 10h et 11h. Sur Foursquare, Twitter ou Facebook, il indique être allé voir Lisa, une collègue à Cambridge à 11h30. En partant des traces laissées sur le web peut-on retrouver son collègue dans la base de données de son opérateur téléphonique ? Combien de points faut-il pour retrouver Charlie ? C’est un peu le travail qu’a réalisé Yves-Alexandre avec ses collègues dans "Unique dans la foule" (Cf. "Peut-on fouiller les données des téléphones mobiles en respectant la vie privée ?"). Dans une base de données d’un opérateur national comprenant quelques 1,5 millions d’abonnés, il suffit de 4 points pour identifier 95% des gens. "Nos données de déplacements sont encore plus personnelles que nos empreintes digitales."
Peut-on rendre la ré-identification moins précise ? Peut-on diminuer la résolution de cette ré-identification ? Et Yves-Alexandre de Montjoye de montrer un trombinoscope et d’y appliquer une diminution de la résolution pour montrer qu’à partir d’un certain degré, nous ne sommes plus capables de reconnaître les personnes sur les photos, de distinguer chacun… Peut-on faire pareil avec les données de mobilité ? A partir de quel moment la résolution ne permet plus d’identifier les gens ?

Image : Quand on change la résolution d'un trombinoscope, on rend les gens non identifiable. Peut-on faire pareil avec les données de nos téléphones mobiles ?
Les chercheurs du MIT ont pris les données de mobilité et ont réduit la résolution spatiale et la résolution temporelle. Plutôt que d’avoir une information sur telle ou telle antenne de téléphonie mobile, les chercheurs les ont remplacés par des données plus générales, par grandes zones géographiques et par indications temporelles larges plutôt que précises. Certes, réduire la résolution spatiale et temporelle rend la réidentification plus difficile, mais il suffit alors de quelques points supplémentaires pour rétablir l’identification. En fait, nos routines journalières sont tellement uniques qu’il est extrêmement difficile de se cacher dans la foule. La réduction de la résolution n’est pas un système d’anonymisation suffisant. Nous avons tous l’impression d’être semblables quand nous nous entassons chaque matin dans le même métro, alors que nous sommes tous parfaitement uniques.

Les traces de nos déplacements disent bien plus que nos déplacements

Or nos données de déplacements sont devenues très disponibles, comme l’ont souligné les écoutes de Verizon et de la NSA. Elles le sont aussi via les applications qu’on installe sur nos smartphones : 30 % d’entre elles enregistrent nos localisations. Nos données transactionnelles, celles issues de nos cartes bleues ou de nos cartes de transports, comportent aussi des données de localisation. Nos données contribuées, celles que l’on renseigne en utilisant des services sur le web, en appréciant des films ou des chansons, ou en appréciant des pages sur Facebook, permettent également d’en déduire beaucoup sur nos comportements et donc sur qui nous sommes.
Le BFI (Big Five Inventory), cet inventaire des cinq grands facteurs de personnalité est un test psychologique mis au point par les psychologues John, Donahue et Kentle en 1991 (voir Wikipédia), qui depuis une centaine de questions permet de décrire 5 grands types de caractères auxquels sont corrélés des caractéristiques comme la performance au travail ou la capacité à prendre des décisions d'achats. Pour chacun de ceux qui passe le test, le modèle distingue 5 grandes caractéristiques psychologiques comme l’ouverture à l’expérience (c’est-à-dire l’appréciation de l'art, de l'émotion, de l'aventure, des idées peu communes, la curiosité et l’imagination), la conscienciosité (c’est-à-dire l’autodiscipline, le respect des obligations, l’organisation plutôt que la spontanéité), l’extraversion (l’énergie, la tendance à chercher la stimulation et la compagnie des autres), l’agréabilité (une tendance à être compatissant et coopératif plutôt que soupçonneux et antagonique envers les autres) et enfin le névrosisme ou neuroticisme (c’est-à-dire le contraire de la stabilité émotionnelle, à savoir la tendance à éprouver facilement des émotions désagréables comme la colère, l'inquiétude, la dépression ou la vulnérabilité). Pour les psychologues qui utilisent ces tests depuis longtemps, nos réponses permettent d’évaluer notre profil psychologique selon ces critères qui permettent à leur tour d’induire un grand nombre de caractéristiques comme la performance au travail ou la capacité à prendre des décisions d’achats…

Image : les 5 caractéristiques psychologies du test BFI et leur niveau de corrélation avec des données de mobilité, via le poster de l'étude "Qu'est-ce que votre téléphone dit de vous ?".
Le MIT a demandé à des étudiants de remplir ce test pour déterminer leur profil et a ensuite regardé leurs données de téléphones mobiles pour y trouver des corrélations, c’est-à-dire pour trouver depuis les données de mobilité des indicateurs permettant de déduire les 5 types de personnalités. Cette étude a permis de mettre à jour 36 indicateurs (localisation, usage du téléphone, régularité, diversité des contacts, activité des utilisateurs, par exemple le temps mis à répondre à un texto…) capables de prédire le résultat du test BFI de n’importe quel abonné. Le modèle est relativement fiable, par exemple, il est capable à partir des données de mobilité de prédire votre score d’extraversion d'une manière assez fidèle… Cela signifie qu’à partir d’un profil d’usage de votre téléphone, pris comme une simple ligne de chiffres dans une énorme base de données où chacun paraît protégé par la masse, on peut en déduire vos caractéristiques psychologiques… c’est-à-dire des choses qui n’ont rien à voir avec l’usage de votre mobile a priori. Et pourtant… Votre personnalité se dévoile dans le moindre de vos comportements et à l’heure où tous nos comportements sont enregistrés, nos personnalités sont dans toutes les traces de nos activités. Toutes nos données sont devenues personnelles, disions-nous déjà en 2009. C’est chaque jour plus vrai.
Cet exemple montre combien il est difficile d’anonymiser les données transactionnelles. Qu’enlever les numéros de téléphone ou les noms des abonnés ne suffit pas à rendre ce type de base anonyme. Et que de telles bases disent bien plus que les déplacements qui sont les nôtres ou les réseaux relationnels desquels on appartient. Bienvenue dans l’ère des corrélations ! Aussi imparfaits que soient les modèles ont peut désormais déduire des appréciations sur vous depuis le moindre de vos comportements enregistrés. Et il suffit de bien peu de données finalement pour le faire…

La technologie peut-elle réparer ce qu’elle a cassé ?

Alors faut-il arrêter d’utiliser Facebook ? Faut-il remiser son téléphone mobile ? Faut-il arrêter d’utiliser l’internet ?… Impossible répond l’ingénieur du MIT. Parce que ces données ont une valeur pour la science et pour chacun de nous. D’un point de vue social, elles vont permettre d’étudier le comportement humain et de répondre à des questions de société cruciales. D’un point de vue individuel, chacun d’entre nous veut connaître le meilleur chemin pour éviter les bouchons, écouter la musique qu’il va préférer… Ces services nous sont utiles et nous n’avons pas envie de nous en passer. Cela signifie qu’il est urgent de trouver un nouvel équilibre, un juste milieu technique et légal pour encadrer la collecte, comme le soulignait l’appel lancé il y a quelques semaines par Yves-Alexandre de Montjoye, Cesar Hidalgo et Sandy Pentland sur le Christian Science Monitor et Le Monde.
C’est ce à quoi travaille désormais le MIT : rétablir l’équilibre. Construire un New Deal autour des données. Ce New Deal nécessite que l’utilisateur ait accès à ses données ou au moins à une copie lui permettant de comprendre leur utilisation et imaginer de nouveaux services, estime le chercheur. C’est l’enjeu d’OpenPDS (que nous avions déjà évoqué). OpenPDS se veut un magasin de données personnelles, qui permet à l’utilisateur de conserver ses données transactionnelles et de gérer lui-même les accès aux services qui le veulent. Un coffre-fort de données personnelles.

Image : OpenPDS aide à protéger sa vie privée.
Mais c'est en même temps un peu plus que cela. A partir d'une implémentation d'OpenPDS, du côté de l'opérateur de données, le MIT imagine un service de requête permettant de protéger l'anonymat des données, tout en permettant de les utiliser. Safe Answers est un service à destination des services ou des chercheurs que pourraient implémenter les grands fournisseurs de données. En fait, les chercheurs et les services n’ont pas besoin d’accéder aux données brutes des banques ou des opérateurs téléphoniques par exemple. Les services de musique en ligne n’ont pas besoin d’accéder à toutes les chansons que vous écoutez depuis des années pour vous faire des recommandations pertinentes, une dizaine de chansons seraient largement suffisantes. L’idée de Safe Answers est de permettre de poser des questions sous forme de code à des bases de données tout en respectant la vie privée des utilisateurs. L’idée est de réduire la dimensionnalité des données à une simple réponse… L’idée aussi est, pour ces opérateurs de données, de créer un service supplémentaire d’accès à leurs données tout en préservant totalement leurs abonnés. Plutôt que de faire circuler des bases de données imparfaitement anonymisées, Safe Answers, propose de faire circuler les requêtes des gens du marketing ou des chercheurs, afin de fournir une réponse anonymisée.
Pour le jeune chercheur du MIT, il n’y a pas lieu de céder à la panique : l’anonymat n’est pas mort. Il faut ouvrir le débat. Trouver un juste milieu, trouver les bons outils… Car forcément, pour l’ingénieur, la réponse doit être technologique et le sera. C’est peut-être oublier un peu vite que les coffres-forts de données électroniques existent depuis longtemps sans rencontrer le moindre succès ou en restant souvent difficile à mettre en oeuvre pour l’usager, compliqués. La bonne volonté des services sera-t-elle suffisante ? Difficile d’y croire quand on constate que les révélations d’Edward Snowden n’ont pas vraiment fait bouger les grands barons des données… qui ont collaboré avec la NSA. Le risque n’est-il pas que se perpétue la situation actuelle de non-choix : entre la commodité de l’accès et le non-accès aux commodités, les utilisateurs ont vite choisi. Ils privilégient toujours l’accès, le service, à la confidentialité de leurs données…
Yves-Alexandre de Montjoye veut rester confiant. Pour lui OpenPDS promet d'être différent des coffres-forts de données existants. D'abord parce qu'il arrive au bon moment, ensuite parce qu'OpenPDS ne travaille sur n'importe quels types de données, mais cherche surtout à travailler sur les données transactionnelles et les données de mobilité, plus que les données contribuées. C'est un espace où l'on peut encore faire quelque chose, estime le chercheur, d'ailleurs, Apple et Google modifient sans cesse les modalités d'accès à ces données. Beaucoup de coffres-forts de données cherchaient à tout faire, à prendre en compte toutes les données sans faire une proposition de valeur suffisamment claire pour l'utilisateur, nous confie-t-il, même s’il reconnaît que rendre le contrôle à l’utilisateur est compliqué, non pas tant parce qu’il s’agit de transférer un pouvoir, mais plutôt en terme d’ergonomie, de simplicité d’accès à des solutions de contrôle de ses données.
Reste que le fait que l’utilisateur ait accès aux données ne signifie pas que le collecteur de données originel ou le fournisseur de service n’y ait plus d’accès ou diminue la collecte… La réponse technologique qu’avance l’ingénieur du MIT semble d’un coup effacer toutes les autres. Pas sûr qu’elle se suffise à elle-même. Il nous faut aussi des réponses sociales, pratiques, légales… »On n'arrivera pas à créer un écosystème différent pour l'utilisateur sans régulation », reconnaît le chercheur. Donner le contrôle à l'utilisateur est une manière de rendre le problème plus ouvert, plus compréhensible, "comme l'open data permet au citoyen de mieux comprendre le système politique". "Donner accès aux données personnelles est une solution simple, techniquement accessible et qui va permettre de faire évoluer les choses."

Thierry Bardy - Hemisphere droit institut /Club Open Prospective

lundi 16 décembre 2013