lundi 8 avril 2013

Big data: quelques éléments pour ne plus dire qu'il s.agit de la tarteà la crème du moment

Pour sa seconde édition, le salon Big Data, qui a migré de la Cité universitaire de Paris au CNIT, a accueilli un peu plus de 2 500 participants contre 700 l'an dernier. Blandine Laffargue, l'organisatrice de l'évènement, nous a indiqué sa satisfaction quant à la hausse des exposants (50 contre 25 en 2012), et des conférences (100 au lieu de 70). « Nous avons amplifié l'évènement dans tous les domaines », précise B. Laffargue, « avec notamment les ateliers produits où fournisseurs et partenaires pouvaient exposer leurs solutions et confronter leurs idées avec les clients potentiels » pendant 30 minutes. « En un an le marché du big data a vraiment décollé. L'année dernière, il était très difficile de trouver des projets innovants dans ce domaine, alors que cette année nous avons remonté 43 projets. » Mais c'est une fois de plus le Crédit Mutuel Arkea qui a remporté le premier prix des Trophées de l'Innovation 2013 de ce salon. L'année dernière, nous avions déjà remis à Mathieu Herberts, « ingénieur disruptif » du Crédit Mutuel Arkea, le Trophée de l'Innovateur CIO/LMI 2012 pour la mise en oeuvre d'une solution big data transverse en technologies Hadoop. Le second prix a été attribué à Monster pour son programme Seemore et le troisième à SFR pour un projet géomarketing dynamique.

Dans les allées du salon, nous avons pu discuter avec un grand nombre de start-ups dédiées au big data comme Affini-TECH fondée par Vincent Heuschling, mais aussi des SSII et des éditeurs. La première bonne surprise sur le salon était toutefois la présence de MapR Technologies, une des trois distributions majeures Hadoop avec celles de Cloudera et de Hortonworks. La seconde était l'ouverture d'une filiale française de MapR avec aux manettes Xavier Guérin, auparavant chez Isilon Systems et Quantum, comme vice-président en charge de l'Europe du Sud et du Benelux, et Aurélien Goujet, auparavant chez Isilon Systems, comme directeur technique Europe du Sud et du Benelux. Jusqu'à présent les trois principaux protagonistes oeuvrant sur le framework Hadoop n'étaient représentés que par leurs partenaires, VirtualScale pour Cloudera, par exemple, avec Sofiane Ammar et Maurice Abecassis.

Ted Dunning de MapR en évangéliste Hadoop

Sur le salon, MapR était très bien représenté grâce à la présence de Ted Dunning, chief application architect, qui a assuré une des conférences du salon. Ce dernier nous a souligné le travail de l'éditeur sur le framework Hadoop avec notamment l'utilisation du système de fichiers NFS (Network File System), associé à un connecteur HDFS pour garder la compatibilité avec le framework d'origine. MapR propose en fait deux versions de sa distribution, une de base dite M3, qui prend en charge le Network File System (NFS) pour assurer un déploiement plus facile avec les systèmes de stockage et de meilleures performances en débit (jusqu'à 20 Gbit/s), et une version dite M5, configurée pour la haute disponibilité (HA). Elle supporte également le multitenancy, ce qui lui confère un certain nombre d'avantages. Le logiciel de gestion peut maintenant supporter les clusters multiples, si bien que les administrateurs peuvent partitionner logiquement un cluster physique et lui attribuer des tâches différentes. Enfin des fonctions de snapshot et de mirrorring sont également de la partie. Ted Dunning s'est félicité de la croissance du big data aux États-Unis , avec une adoption qui explose depuis en un an et des projets qui fleurissent un peu partout dans la finance, la distribution, l'industrie... Le marché initial qui concernait essentiellement les opérateurs web est aujourd'hui totalement transformé.

Après un retard à l'allumage, le marché français du big data commence à se développer. Arnaud Laroche, associé chez Bluestone, nous a indiqué quelques usages très intéressants chez Air France pour la fixation dynamique du prix des billets d'avion et à la Caisse des dépôts pour la valorisation des brevets. Bluestone, qui emploie aujourd'hui 120 personnes, ne craint pas la pénurie de compétences. « En France, le profil des data scientists est différent de celui des États-Unis. Nous avions moins d'ingénieurs en informatique, mais plus de scientifiques et de mathématiciens attirés par ces nouveaux métiers. » Et la révolution n'est pas que dans les profils, elle est aussi dans les usages. « Aujourd'hui la data devient opérationnelle pour le développement de produits ou de services, notamment des alertes pour la maintenance avec, par exemple, la détection de signaux faibles ».

HP pousse bien sûr Autonomy IDOL

Mais le big data ne se limite pas à Hadoop, des éditeurs poussent leurs propres solutions pour traiter et analyser de grandes quantités de données. Progress Software, par exemple, mettait en avant son travail réalisé chez Turkcell, le 3e opérateur turc avec 20 millions de clients, pour réduire le taux d'attrition avec son moteur CEP. Ce dernier rassemble et traite en temps réel des couches de données issus de plusieurs sources (mobiles, flux sociaux...) pour filtrer et corréler les informations. Un outil de realtime marketing devenu indispensable pour dépasser la simple segmentation marketing.

Enfin, HP était également sur le salon pour mettre en avant ses plates-formes Autonomy IDOL (Intelligent Data Operating Layer) et Vertica. Jean Paul Alibert, directeur général chez HP France en charge de l'innovation, du big data et de la sécurité. « Des trois offres en croissance sur le marché (cloud, sécurité et big data), le big data offre aujourd'hui les plus larges opportunités. Avec Autonomy, nous possédons un outil capable de traiter et marquer des données structurés et non structurées, mais aussi des rich médias avec notamment la reconnaissance de visages et de logos. L'audio peut en outre être retranscrit en texte pour être analysé en temps réel ». Autonomy assure également des fonctions d'analyse de sentiments grâce à la détection de mots clefs dans une conversation et à l'analyse du spectre vocal pour détecter des tensions entre un client et un opérateur dans un centre d'appels. En cas de problème, le client peut être automatiquement basculé sur un manager pour régler le souci. Les principaux POC big data emmenés par HP aujourd'hui concernent la banque et assurance pour mieux cibler les clients via leur relevé bancaire. Et ce pour proposer, par exemple, des offres de crédits très ciblées et diminuer encore une fois les taux d'attrition. Pour les assurances, il s'agit d'analyser de grands volumes de données pour analyser le comportement des automobilistes grâce aux boites noires qui se multiplient dans les voitures. HP travaille également avec une distribution Hadoop, celle de Cloudera, associée à sa base de données Vertica et à Autonomy IDOL pour fournir des outils d'analyse prédéfinis. Grâce au paquet Hadoop d'Autonomy, les utilisateurs peuvent incorporer un moteur IDOL 10 dans chaque noeud de leur cluster Hadoop. Ce qui leur permet ensuite d'accéder à 500 fonctions d'analyse et de synthèse des données IDOL dans Hadoop.

Terminons notre panorama du salon avec Bull qui s'est associé avec Microsoft pour pousser ses solutions big data. Jean François Vannier, responsable commercial infrastructures décisionnelles chez Bull, nous a détaillé l'offre Better Data . Elle repose sur la plate-forme datawarehouse de Microsoft, SQL Server FastTrack - une appliance - capable de traiter en temps jusqu'à une centaine de téraoctets. Avec AT Internet par exemple pour du web analytique. Et pour monter en puissance, Bull va bientôt avancer l'offre Parallel Data Warehouse 2.0, une plate-forme capable de supporter jusqu'à 5 Po de données. Elle utilise un moteur, baptisé PolyBase, qui prend en charge des requêtes sur des données relationnelles et non relationnelles avec Apache Hadoop. Les requêtes Hadoop seront acheminées via le logiciel de datawarehouse Apache Hive.

Bruno Walther 
Le big band du big data 
A peine remis de la vague du digital, on doit se préparer à accueillir la seconde. La Big Data va changer les règles du marketing. Passionnants bouleversements à ne pas manquer. Interview de Bruno Walther, co-fondateur de Captain Dash. 

Comment en est-on arrivé à la big Data ?

Bruno Walther : Quand Google est arrivé avec le projet fou d’indexer l’ensemble des contenus d’Internet, Larry Page et Sergey Brin se sont heurtés à une question : comment mettre tout Internet sur une base de données sans que la réponse arrive des heures ou des jours après ? Tous les vieux systèmes d’indexation auraient imposé ce type de délais. Mais comme on a affaire à des mecs jeunes et naturellement insolents, ils se mettent comme défi de faire mieux que les modèles existants. La vieille informatique repose sur un modèle relationnel, c’est à dire qu’elle crée des relations entre les bases de données, ce qui est très long et très compliqué. Donc, Google a inventé un système qui sera théorisé par Yahoo! en 2004 et que des sites comme Facebook et Twitter continuent à améliorer. Pour faire très raccourci, la technologie du NoSQL est un système de requête de bases de données qui fonctionne sans base données et sans requêtes. C’est un peu comme si vous aviez un grand fichier xcell avec des milliers de lignes et plein de colonnes.
C’est une prouesse qui génère d’emblée plusieurs bénéfices. Le premier bénéfice est qu’on est plus rapide. Les anciens systèmes imposaient parfois des jours avant de délivrer des réponses. Vous pouvez proposer des réponses en temps réel aux utilisateurs à la façon du moteur de recherche de Google. Le second bénéfice est qu’on peut tout stocker, sans limite, ce qui va de pair avec le troisième bénéfice qui est, qu’on peut taper d’emblée dans tout pour faire ses requêtes.
Quatrième bénéfice, grâce au Cloud, on va être élastique. Au 20ème siècle, vous aviez besoin de vous doter de vos propres capacités de calcul. Quand vous aviez besoin à un moment d’atteindre un point critique pour calculer ou stocker quelque chose, vous étiez obligé d’acheter des machines et de dimensionner votre infrastructure pour pouvoir atteindre votre besoin optimum, même si ce besoin était à atteindre deux secondes dans le mois. Là, comme on va mutualiser l’effort et qu’on va utiliser une informatique en nuage, vous allez utiliser votre besoin optimum de traitement uniquement à l’instant T. Par exemple, chez Captain Dash, on va être capable de mutualiser des dizaines de milliers de serveurs pour faire un calcul. Cela nous donne une capacité de calculs quasi infinie mais qu’on peut ne mobiliser que 0.5 milliseconde. On ne paiera le coup de traitement que de cet instant T.

Ce système vous donne une agilité incroyable et vous permet de vous développer très vite. La Big Data est un truc dingue dont on ne sait pas encore tout ce qu’il va engendrer. C’est assez magique. Aujourd’hui, l’enjeu est d’amener cette technologie du NoSql dans le monde de l’entreprise.



Pour le marketing, qu’est-ce que cela change ?

B W : Cela change tout. Henri Ford disait dans les années 20 : « Je sais que la moitié de mon budget publicitaire ne sert à rien, mais je ne sais pas quelle moitié ». C’est toujours juste aujourd’hui. Mais comme la partie efficiente de la publicité est réellement efficace, on se dit que tout cela n’est pas si grave.
La première rupture vient du fait que, désormais, tous les individus produisent énormément de données, en permanence. La seconde rupture est que nous avons maintenant la capacité de traiter cette avalanche de données. On va donc pouvoir comprendre et jouer avec un certain nombre de mécanismes. 
Le marketing s’est construit sur le fait inverse. N’étant pas capable de traiter des données qui, par ailleurs, n’existaient pas forcément, pour rationaliser les démarches, on a inventé plein de théories basées sur la moyenne et les segments. Quand on réfléchit, toute la pensée marketing est basée sur la moyenne et les segments. Certes, c’est rassurant et relativement efficace bien sûr. Mais ça ne fonctionne pas.
Depuis trois ans qu’on applique les méthodes de la Big Data, on observe systématiquement que les moyennes comme les segments sont faux et qu’ils ne marchent pas.
L’analyse des moyennes de taux de clics sur les ad servers sont un très bon exemple. Quand vous prenez les moyennes, elles sont toujours mauvaises. Mais si vous prenez l’ensemble de la granularité de la donnée, vous allez vous apercevoir qu’à certains moments la campagne a fait 5% de taux de clics et à d’autres 0%. Vous observerez, et cela marche aussi systématiquement, que quand vous avez une campagne de publicité qui passe à la télévision, dans les 5mn, vous multipliez par 5, 6 ou 10 votre taux de clics. C’est normal : 40% des gens sur tablettes regardent la TV en même temps. Mais la moyenne gomme tous ces comportements.
Raisonner sur la moyenne quand on fait du marketing, c’est aussi absurde qu’un vendeur de jean’s qui dirait qu’il ne propose que des tailles 42 dans sa boutique parce que c’est la taille moyenne la plus vendue.
La Big Data vient tuer toute la pensée de la moyenne et des segments, dit autrement, 95% des théories qui fondent le CRM, les bases de données …
Ce qu’on va vivre, c’est un formidable mouvement vers l’efficience. Le budget de la publicité dans le monde pèse 3 000 milliards de dollars par an, soit une guerre en Irak. C’est quand même beaucoup d’argent. On peut penser que les annonceurs vont pouvoir en sauver un tiers. La mauvaise nouvelle, c’est qu’on va tous devoir réapprendre le monde.
Il est possible que la Big Data va être beaucoup plus radicale pour les annonceurs et les agences, que l’arrivée d’Internet. Internet était au départ un canal de plus. On va maintenant découvrir des applications dont on ne pouvait tout simplement pas avoir l’idée avant.



La Big Data permettra-t-elle de tenir compte d’emblée des facteurs exogènes qui influent sur la vie des marques ?

B W : On nous a longtemps expliqué que le secret de la réussite résidait dans la force de la répétition des messages. Cela a marché et globalement ça marche. Si je vous fais une campagne à 3000 GRP, vous achèterez mon produit à la fin de la journée sans vous en rendre compte. Comme on a fait cela, on a voulu mesurer la création et le canal qui performent le plus. En tant que marketeur, je dois regarder mes canaux, si je suis hyper agile mes clients et, si je suis vraiment très, très agile, mes créations. Mais c’est tout.
Avec la Big Data, je peux récupérer les données extérieures à l’entreprise. C’est fondamental. 
Par exemple, l’OCDE a mené une étude qui étudie la météo sensibilité. Il démontre, chiffre à l’appui, que 40% des actes de consommation sont liés à la météo. On n’achète pas les mêmes choses selon le temps. Mais demandez à un ad server d’acheter quand il fait beau … il ne sait pas le faire. Dans les calculs de performance, c’est un élément qui n’est jamais pris en compte alors qu’on sait tous que cela marche.
Donc, la première rupture c’est que nous savons faire les traitements et que toutes ces données peuvent être accessibles via des API on peut consulter toutes ces données dynamiquement alors qu’avant dans un modèle de business intelligence on était obligé de les charger, on recevait des éléments par la poste … c’était horrible, voire impossible.
Avec la big data, les marketeurs vont pouvoir prendre en compte l’ensemble des éléments qui influent sur leur marché et le comportement d’achat des individus. Et derrière, avec les outils internet d’achat en ligne de vos campagnes, vous allez pouvoir jouer des scénarios en fonction des facteurs exogènes. 
On s’est amusé à faire une étude sur les hypermarchés en province, sur les zones périurbaines. La conclusion est intéressante. On s’aperçoit que la zone de chalandise ne se calcule pas en minutes mais en euros. Quand le prix de l’essence augmente, la zone de chalandise se réduit et quand le prix de l’essence baisse, la zone de chalandise augmente. C’est logique et pourtant est-ce que vous tenez compte de cet élément quand vous faites de l’imprimé sans adresse ?
Il faut donc apprendre et pour un DSI c’est difficile à assumer; à mettre au même endroit vos tickets de caisses, la météo, le prix de l’essence, des éléments sur les actions de vos concurrents. Il faut que vous ayez une approche qui soit contre intuitive pour des gens qui font du marketing : on arrête de chercher à savoir quelles données on va choisir de traquer, on arrête ça. On a une logique de bouillabaisse : on met toutes les données au même endroit, on fait chauffer et on voit que ça donne. A la fin, on ne peut avoir que des surprises énormes.
C’est une approche de rupture. La Big Data permet d’avoir une vision beaucoup plus proche du réel.



Qu’est-ce que la Big Data va changer en terme d’organisation ?

B W On va avoir des gens qui manipulent la donnée un peu partout. McKinsey prédit que les Etats-Unis en 2017 auront besoin de 500 000 Data Scientist supplémentaires. De nouvelles fonctions vont apparaitre.
On aura aussi une démocratisation des données. Les patrons ont toujours des dashboards, le plus souvent faux, mais c’est le règne d’xcell. Le mec qui est sur le terrain, son dashboard est dans sa tête. C’est souvent plus fiable. Là on va lui permettre un accès à des éléments qui affineront encore sa capacité à agir et réagir. Il y a un exercice intéressant à faire. Aller dans une brasserie et demander au chef de rang de vous dire combien de couverts il pense faire le soir. Il va vous le dire précisément en tenant compte du jour de la semaine, de la météo, des matchs de foot ou des embouteillages … 
On va vers plus d’agilité. On va jouer avec la donnée sans même le savoir. Exactement comme on va sur Google sans se rendre de la complexité des calculs faits. Aujourd’hui dans les organisations, ce sont les plus gros salaires qui décident. Avec ces nouveaux outils, c’est la data qui aura le dernier mot. Et ce sera, de fait, plus efficace.
Derrière la pensée de la Big Data, il y a une approche qui reste assez démocratique. A la fin, c’est le consommateur qui arbitre et le bulletin de vote est l’euro investi.
Après, vous aurez toujours besoin d’intuition pour créer de grandes marques, de grandes aventures, de grandes sagas, tous ces trucs qui reposent sur la magie … On va avoir d’un côté des expériences qui créent de la magie et de l’autre côté de l’hyper rationnel. Tout le mou du milieu qui fait un peu n’importe quoi est condamné à disparaitre. C’est un gros schisme.



Les marketeurs ont-ils besoin de se mettre à la statistique ?

B W : Oui et non. Les outils deviennent de plus en plus simples et ils travaillent pour eux. On fera de la statistique sans le savoir. Ils vont par contre devoir être data centric, c’est-à-dire croire plus aux données. Ils devront être dans des logiques de tests, d’AB testing, accepter l’échec et apprendre de lui … La méthode de l’AB testing a l’avantage de dire la vérité. On teste la formule A, la formule B et on voit ce qui est le plus efficient. Google a un cas connu. Lors du lancement de leur logo, ils se prenaient la tête sur les couleurs, la formule qui marchait le mieux. Ils ont mis en ligne les différentes options et ils ont regardé la formule qui marchait le mieux. Ce sera plutôt ce genre de rupture.

Quelles sont les entreprises concernées par la Big Data ?

B W : Les infrastructures sont peu onéreuses. Pour 20 K€, vous pouvez vous offrir une première brique. Beaucoup de fonctions peuvent être concernées, les fonctions marketing mais aussi toutes les autres. Quoi qu’il en soit, la bonne pratique consiste à commencer par un petit sujet pointu qui vous empêche de dormir. Il vaut mieux commencer sur un petit périmètre, sur de petites expérimentations pour voir ce que ça donne et après on peut élargir. Le Big est l’ennemi du Data. C’est l’inverse de la méthode CRM qui veut tout gérer, tout de suite et pour très cher.
L’autre enjeu est de ne jamais se laisser dépasser par des mots compliqués. Comme sur l’internet du début, il y a eu tout un discours technique. Il ne faut pas se laisser stresser. Tout cela doit rester aussi simple que Google.
La vraie difficulté de la Big Data est qu’elle soulève beaucoup de mauvaises pratiques ou des problèmes d’organisation lourds.
Les premiers produits disponibles prouvent leur efficacité. IBM a lancé un outil qui mesure tous les bruits autours d’une marque. Ils ont fait pour vache qui rit une étude aux USA. Ils ont détecté que la marque sur ce marché était perçue comme un produit diététique. Ils l'ont déplacé dans les rayons diététiques - cela a fait progresser les ventes de + 40 %. Personne n’avait vu cela avant. Quand tout le monde utilisera ce type de solutions, les marques n’auront plus le choix, ce sera un enjeu de pronostic vital. Ça va changer la donne. L’efficience est tellement forte que c’est inévitable que cela arrive. Le premier livre blanc sur le sujet est sorti en 2005, les premiers produits matures sont sortis il y a un an et demi. On est au tout début du phénomène.


Aucun commentaire:

Enregistrer un commentaire