La vérité sur le Big Data aujourd’hui et demain

31 octobre 2012 16 h 42 min 27 commentaires Views: 854

Partagez cet article

  • TwitterTwitter
  • FacebookFacebook

Auteur(e)

Tags:

Big Data… Big Data… (1) le monde de l’informatique semble n’avoir que ce mot à la bouche depuis quelques mois, comme si l’avenir de tout un secteur dépendait du succès médiatique d’un nouveau concept. Quelle erreur ! Ce sont les clients qui font le succès d’une idée … si elle répond à leurs besoins. (2)

Bid Data
(Source de l’illustration: Google)

Mais de quoi s’agit-il en réalité lorsque l’on parle de Big Data ou de données volumineuses pour respecter la langue française ? Restons pragmatiques, ne nous laissons pas enfermer dans un enthousiasme marketing et profitons de ces lignes pour définir les usages à venir et vous donner quelques pistes de réflexion. Le Big Data, oui, mais sans doute pas tout de suite pour la majorité de nos lecteurs, et surtout pas pour n’importe quelles données.

Faire du Big Data sans le savoir

Tout comme Monsieur Jourdain faisait de la prose sans le savoir, peut-être faites-vous également déjà du Big Data sans le savoir. Il faudrait d’ailleurs s’entendre sur le terme de big, dont le dictionnaire nous apprend qu’il qualifie un truc “dont le volume, la taille, l’épaisseur, l’intensité, la quantité sont importants”… tout cela est donc bien relatif.

Lorsqu’en 1981 les premiers IBM PC pouvaient être équipés en option d’un disque dur de 5 Mo, le remplir avec un seul fichier de données aurait certainement été considéré comme du Big Data.

Bid Data
En fonction de l’activité de l’entreprise, une chaîne de grande distribution qui imprime des millions de tickets de caisse ne sera pas impressionnée par quelques téraoctets de données. Alors que certains entrepôts de données décisionnels dépassent aujourd’hui le Pétaoctet, parler du Big Data comme d’une révolution fera doucement rire les opérateurs téléphoniques, les banques, les chaînes de distribution. Ils y sont habitués depuis des années ! (Source de l’illustration: Google)

Tenter également de faire croire que ces volumes imposent de nouveaux outils pour les traiter, relève aussi du mensonge marketing (pléonasme ?). Les principaux outils du marché permettent de réaliser des interrogations, des tris, des analyses, des rapports sur des centaines de millions de données : nul besoin d’inventer un nouveau type d’outils.

L’analyse des médias sociaux, prémices de nouveaux besoins

La réelle innovation et les véritables nouveaux besoins proviennent de l’analyse des données non structurées. Est regroupé sous ce terme l’ensemble des images, fichiers audio, vidéos, textes, etc., que l’entreprise est aujourd’hui amenée à analyser. Aujourd’hui ou demain, car rares sont encore aujourd’hui les entreprises à disposer de données de ce type et à être capables de tirer profit de leur analyse.


En revanche l’explosion en quelques années de l’utilisation des médias sociaux a démocratisé instantanément ce type de besoin. Si vous disposez d’une page Facebook au nom de votre entreprise, d’un compte Twitter, ou, tout simplement, si vos clients parlent de vous, vous devez suivre et analyser ces publications. Il peut s’agir de statuts (donc de textes), mais également d’images ou de vidéos. Les analyser pour en comprendre le contenu, détecter des tendances, analyser leur impact, et réagir si possible en quasi-temps réel. (Source de l’illustration: Google)

Tout cela est non seulement devenu possible, mais rapidement indispensable. Lorsque récemment une grande marque française de ventes par correspondance a illustré un article de son catalogue avec une photo d’enfants sur une plage au second plan de laquelle on distinguait parfaitement un homme nu et ses attributs, il n’a pas fallu plus d’une heure pour que les réseaux sociaux ne s’emparent de la photo et moquent la marque. Elle n’a pas su réagir rapidement et a gardé le silence.

Rôle essentiel des médias sociaux

Pouvait-elle d’ailleurs faire autrement ? Si elle avait été équipée des bons outils, elle aurait sans doute pu identifier les internautes les plus virulents, les contacter, tenter de négocier un retrait de l’image, mesurer l’impact sur la marque, etc. Mais pour cela il fallait analyser en temps réel des milliers de tweets, de statuts Facebook, etc.

De manière plus positive, une marque peut aujourd’hui s’appuyer sur les réseaux sociaux pour diffuser son message. Là encore, identifier les meneurs, les informer en avant-première, mesurer leur influence, calculer leur potentiel, etc. C’est bien de décisionnel qu’il s’agit, à grande échelle et en traitant de ces données semi-structurées que fournissent les médias sociaux.


Il paraîtrait même que certains gouvernements, il y a quelques mois, au moment d’un printemps qualifié d’érable, auraient été inspirés de mieux écouter, analyser et intervenir sur les médias sociaux pour éviter de se laisser déborder par une jeunesse dont ils ignoraient tout… (Source de la photo: Jasmin Gendron)

La Business Intelligence dite sociale est donc bien la première application de ce Big Data dont tout le monde parle.
 

Demain les données issues de l’internet des objets

Et tout cela n’est qu’un début, car l’étape suivante est bien celle des très gros volumes de données. Des volumes dont il est difficile aujourd’hui d’imaginer la dimension ! Au 31 décembre 2011, le monde aurait compté environ 2,3 milliards d’internautes, sur une population de 6,9 milliards d’habitants. Cela paraît déjà énorme. Mais savez-vous que chaque être humain serait entouré de 1 000 à 5 000 objets traçables (Source: Jean-Baptiste Waldner en 2007 dans Nanoinformatique et intelligence ambiante).

L’internet des objets pourrait finalement connecter entre 50 et 100 000 milliards d’objets ! Et ces objets communiqueront une position, un état, des messages, ils parleront d’eux, mais tenteront également d’établir des communications avec les autres objets qui les entourent. Personne n’a encore osé quantifier le volume des messages concernés par cette révolution.

Déjà certaines automobiles sont capables de communiquer. Vous êtes victime d’un accident, inconscient, incapable de prévenir les secours. Votre véhicule, même endommagé, détecte cette situation, et appelle lui-même les secours, leur faisant gagner des précieuses minutes qui auraient pu vous être fatales. Dans cet exemple le volume de données transmis est limité (un identifiant, une position, peut-être des éléments de votre dossier médical pour faciliter l’organisation des secours), mais vital, et la vitesse de transmission est cruciale. Ce n’est qu’une illustration, d’autres applications vont naître, beaucoup plus anecdotiques, mais génératrices de volumes énormes.


(Source de la photo: Nespresso)

Un exemple des débuts de cette communication débridée : fin février 2012, l’opérateur téléphonique européen Orange et les machines à café Nespresso (photo ci-haut) ont annoncé deux nouveaux modèles de machines, capables de communiquer au travers du réseau téléphonique avec le centre de relation client de Nespresso. Commande de capsules, entretien, accessoires, les usages de ces objets connectés sont encore à imaginer. Demain sans doute la machine à café vous reconnaîtra, vous servira votre café préféré, et publiera un statut sur votre page Facebook.

À quoi cela sert-il ? Sans doute à rien, mais les générations à venir ne pourront plus s’en passer. Tout comme les analystes qui se délecteront des milliards de données qui aideront à mieux encore comprendre qui consomme quoi et quand.

Pour collecter, stocker et analyser ces données en provenance de l’internet des objets, votre système d’information devra évoluer. Intégrer ces données sous forme de flux, stocker ces données non structurées dans des architectures adaptées, analyser ces volumes en temps réel, et envoyer les résultats sur votre plateforme décisionnelle mobile.

Ce sont des perspectives incroyables qui s’ouvrent pour les dix prochaines années. À nous d’inventer les applications qui vont avec !

(1) Texte publié également dans le Newsletter n°53, octobre 2012, du Forum Athena

(2) Notre collaborateur Philippe NIEUWBOURG est l’auteur du livre Big Data qui paraîtra début 2013 chez Dunod. Ce sujet le passionne et il nous en donnera la preuve le mardi 6 novembre prochain, à Montréal, au cours de la conférence de clôture du Salon Business Intelligence. Pour assister à son allocution et en profiter pour faire le point pendant toute la journée sur l’actualité de l’intelligence d’affaires, vous pouvez vous acheter un billet sur le site SalonBI.

Auteur(e) Philippe Nieuwbourg

Après une carrière en gestion, en marketing et en journalisme, Philippe Nieuwbourg a fondé en 2000 le Musée de l’informatique de Paris, institution à succès qui, depuis le printemps 2010, a maille à partir avec la bureaucratie française. Mais cela ne l’empêche pas d’être, notamment, analyste spécialisé en intelligence d'affaires chez Decideo, un cabinet d’experts établi en France et au Québec.

27 commentaires

  • Je pense que vous n’y comprenez rien. Désolé, mais vous n’avez vraiment pas saisit de quoi il s’agissait.

    Aucune mention de l’apprentissage machine (Machine Learning), aucune mention des outils de data mining, aucune mention des algorithmes de topologie réseau, etc.

    Le Big Data, ce n’est pas la taille des données, ce sont les techniques d’intelligence artificielle requises pour leur traitement pour en extraire une signification et des informations utilisables autrement impossible.

    Cotez ce commentaire: Thumb up 5 Thumb down 32

    • “Beaucoup plus aurait pu être dit sur le sujet” aurait été un commentaire plus juste – selon ce qu’on comprend de votre constat – que ce triste “Vous n’y comprenez rien”.

      Pour ma part j’ai trouvé cet article plus que pertinent et brillant de concision, et je suis convaincu que M. Nieuwbourg ne prétend pas en ces quelques lignes faire le tour de la question.

      Cotez ce commentaire: Thumb up 26 Thumb down 0

    • Intelligence artificielle, tu me fais rire. Machine learning et autres niaseries qui foisonnent plus dans les université que dans la vraie vie….

      Cotez ce commentaire: Thumb up 6 Thumb down 1

      • Tous les gros sites web sont truffés de systèmes d’intelligence artificielle pour traiter le flot important de données.

        Il y a décidémment beaucoup d’ignorance ici sur ces questions.

        Cotez ce commentaire: Thumb up 3 Thumb down 5

      • Tiens, pour ton édification: http://web.mit.edu/press/2012/predicting-twitter-trending-topics.html

        Google, Facebook, Twitter, Amazon, Yahoo, Netflix, etc, tous ces sites sont truffés d’algorithmes d’intelligence artificielle.

        Mais, je trouve ça pour le moins délirant de lire sur un blogue techno quelqu’un qui méprise la recherche universitaire et les résultats concrets de la recherche universitaire. C’est comme: «As-tu bien regardé ta puce de silicium?»

        Cotez ce commentaire: Thumb up 2 Thumb down 7

  • Je suis d’accord avec Dany Labonté.

    Évidemment, ça renforce ma théorie qui dit que la plupart des commentaires les moins brillants sont toujours anonymes!

    Merci pour l’article, Philipe…!

    Et un autre pouce rouge pour Pythagore… au fond, gore aurait été suffisant!

    Cotez ce commentaire: Thumb up 8 Thumb down 3

    • Et à quoi cela vous servirait-il de connaître mon identité? Il y a eu diffamation?

      Et il y même sept personnes pour voter pour votre commentaire pitoyable, bravo! Ça donne le ton. Interdit de contredire quiconque ici, vive la pensée unique et la science infuse des blogueurs qui ne veulent surtout pas être confrontés à leurs erreurs. L’invicible Armada n’en fera qu’une bouchée, j’ai peur.

      Cotez ce commentaire: Thumb up 5 Thumb down 5

  • Pour le Gore:

    …”Big data (littéralement « grosses données » ou « grande quantité de données ») est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données”

    -Source Wikipédia

    …et non pas les techniques d’analyses et algorithmes utilisés pour en extraire des informations pertinentes! Vous mériteriez une bonne dizaine de pouces rouges supplémentaires, quant à moi! Hou, le vilain!

    Cotez ce commentaire: Thumb up 14 Thumb down 2

    • De votre citation: «qu’ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données» Tout est dans cette petite phrase qui vous échappe.

      Cotez ce commentaire: Thumb up 4 Thumb down 5

      • ça ne m’échappe pas!! Je lis mes propres citations, voyez-vous?

        Cotez ce commentaire: Thumb up 3 Thumb down 3

        • Faudrait alors démontrer que vous en comprenez le sens.

          Cotez ce commentaire: Thumb up 3 Thumb down 3

          • Je ne vous dois rien et comme nous n’avons pas gardé les vaches ensemble et que vous vous cachez derrière un courageux pseudonyme, je vous ignore de ce pas!

            Cotez ce commentaire: Thumb up 4 Thumb down 3

  • J’ai acheté mon premier GPS en juin dernier, un TomTom pour ne pas le nommer, et il y a une option où tu peux “appeler” une remorqueuse et/ou du secours en cas de pépin sur la route.

    Votre article est très intéressant Philippe, merci!

    Ça commence bien la journée.

    Cotez ce commentaire: Thumb up 4 Thumb down 0

  • Justement il faut faire attention aux images qu on colle ici (droit d’auteur). Parceque celle d’en haut est empruntée de quelque part et comme tu vois, on a pas besoin d outils analysant des peta octet p our s’en apercevoir.

    Cotez ce commentaire: Thumb up 4 Thumb down 1

    • Effectivement, c’est une illustration empruntée.

      Mais si vous cliquez sur le lien à la droite de “Source de l’illustration”, vous arrivez à une page Google qui démontre que tout le monde a utilisé cette image. Dans ce bordel de références, il y a quelque part un artiste ou une publication qui s’est fait truander, mais qui n’a rien fait. Résultat, l’œuvre semble relever désormais du domaine public.

      Voilà pourquoi je ne me gêne pas pour l’utiliser si je ne trouve rien d’autre. C’est le même principe de culpabilité que de rouler à 119 km/h sur l’autoroute alors que la limite est fixée à 100 km/h. Tout le monde le fait, donc …

      Cotez ce commentaire: Thumb up 9 Thumb down 2

      • l’origine est dans le coin en bas à gauche de l’image : http://www.fredcavazza.net/

        Remi

        Cotez ce commentaire: Thumb up 2 Thumb down 0

        • J’ai beau scruter, je me vois rien qui ressemble à ce que vous dites. Aidez-moi à vous comprendre.

          Cotez ce commentaire: Thumb up 2 Thumb down 0

          • Je crois que Remi.Net fait référence à la troisième image de l’article. Votre source est Google, mais dans le bas de l’illustration, on voit très clairement une adresse Web, qu’on supposerait être la source originale de l’illustration.

            Cotez ce commentaire: Thumb up 2 Thumb down 0

          • @Nelson

            Google prends les précautions requises pour ne pas faire l’objet de poursuites pour violation de propriété intellectuelle lors de l’affichage de la mosaïque d’images. Passez votre pointeur sur une image et vous trouverez les informations sur celle-ci, tel que les dimensions, la taille mais surtout l’URL d’où elle provient.

            Google n’attribue pas de propriétaire légitime à l’image, il ne fait que produire un rapport sur les différentes sources où il a été en mesure de retrouver l’image et ses variantes.

            Donc, en mentionnant que la source de l’image est Google, vous vous exposez même à des poursuites de la part de Google tout comme du vrai propriétaire car vous laissez entendre que avez avez obtenu de Google la permission d’utiliser l’image en question.

            Le 25 octobre, je vous ai envoyé un courriel dans lequel je vous faisais à nouveau part de ce problème suite à votre chronique Windows 8: Microsoft inaugure en pompe l’ère tactile, en voici un bref extrait:

            Pour prendre un exemple concret, votre chronique d’aujourd’hui. Sous l’image ci-dessous, provenant de votre chronique, vous avez indiqué: «Source de la prise d’écran: NDLM». C’est bien de savoir que vous avez procédez à la capture d’écran mais votre obligation (voire ici protection contre les poursuites) est de mentionner la provenance du Webcast sur lequel vous avez pris un instantané. Dans ce cas-ci, c’est Microsoft qui détient la propriété intellectuelle de l’image.

            Je vous ai fait part ce le problème pour la première fois le 17 septembre dernier dans la chronique Formation et pâté chinois de Benoît Lacombe où j’avais alors écrit:

            Puisque l’on parle de photo, vous vous exposez à des poursuites pour violation de droits d’auteur en ne spécifiant pas la source de celles-ci. La loi permet bien le «fair use», mais vous devez mentionner les auteurs et la provenance. De plus, il est important de vérifier la politique d’utilisation des documents.

            Je n’ai pas la prétention d’être un juriste, je suis du domaine techno. Je ne veux que vous aider en vous faisant part des directives que nous avons reçu du département des affaires juridiques où je travaille.

            Cotez ce commentaire: Thumb up 3 Thumb down 0

          • Vous avez raison sur toute la ligne. Mais …

            Il y a la pratique du quotidien du monde des médias. Si Microsoft fait un Webcast, c’est pour m’attirer, pour que j’en parle. Et si, en prime, je ramasse une illustration dont elle est propriétaire des droits, elle est super heureuse. Parce que je suis un média. Si, par contre, j’exploite un commerce et que, pour vendre des bidules en ligne, je lui pique des images, il se peut qu’elle vienne me chercher des crosses. Il n’y a rien de vraiment écrit sur ce que je vous dis, il n’y a qu’une vieille pratique.

            Autre pratique médiatique. Si je ramasse une image qui appartient à Apple, une autre qui provient de chez Microsoft et une troisième que je cueille sur le site d’Ubuntu, si je me sers des éléments ramassés pour produire une nouvelle image, je déclare la source comme étant NDLM. Techniquement, c’est illégal. En pratique ça se fait. Dans le commerce, non. Dans les médias, oui.

            Il y a une différence importante entre prendre une image sans autorisation d’un produit Microsoft sur un site Microsoft (image qui est là pour ça, notamment) et prendre la même image sur un site soi-disant concurrent au sien (image qui est là pour ajouter de la valeur). Par exemple, si La Presse publie une image lui appartenant, p. ex. celle de Microsoft Surface, et que je pique cette photo pour illustrer un article sur Surface, je risque des ennuis, même si je donne les crédits de la photo à La Presse. Ça ne se fait pas. Mais il arrive aux gens comme moi de tricher. On ne reprendra généralement rien de nos médias québécois, voire canadiens, mais on se risquera (en donnant tous les crédits possibles) avec les médias américains et européens. Pire, on n’hésitera même pas si l’image provient d’un site russe ou asiatique.

            Si, dans le cas d’une illustration que tout le monde a reprise, ce que l’on peut constater en le demandant à Google (All sizes), j’indique “Google” à côté de “Source”, ce n’est pas pour les droits, mais pour publier l’URL qui nous ouvrira une page où l’on constatera que l’image a été beaucoup beaucoup beaucoup reprise. Et si j’y retrouve 50 URL parce qu’il y a 50 copies de la même image, je ne suis guère mieux avancé sur l’origine première de cette image devenue, par la force des choses, citoyenne du domaine public.

            Je sais que tout ce qui précède est un peu tordu. Mais c’est ainsi. Quant au reste, sachez que j’ai bien apprécié vos mises en garde, que j’en ai tenu compte et que je fais de mon mieux pour ne pas m’attirer des ennuis.

            Merci.

            Cotez ce commentaire: Thumb up 7 Thumb down 0

          • @Nelson

            Je suis bien heureux que vous preniez mes commentaires amicalement, puisque cela a toujours été mon intention.

            Je me demande si cela ne serait pas approprié d’utiliser cette vitrine pour prôner le bon exemple. Qui sait, vous pourriez contribuer à prévenir une tonne de misère à vos lecteurs.

            J’aimerai vous proposer une bonne affaire: Si vous aviez à vous défendre d’une poursuite de violation de droits d’auteur sur une image devant un juge et que vous êtes prêt à invoquer les raisons que vous avez mentionné ci-haut, invitez-moi à l’audience et je vous donnerai une bouteille de Champagne;-)

            Cotez ce commentaire: Thumb up 2 Thumb down 1

  • La signification du terme Big Data, varie beaucoup d’un utilisateur du terme à un autre mais la popularité du terme a débuté avec la popularité du framework Hadoop (la populaire BD No-SQL Cassandra est basé sur Hadoop).

    Hadoop outil Open Source développé par Yahoo et maintenant faisant partie de la fondation Appache, donne les outils pour traiter des Tera Octects de données sur une architecture matériel abordable (ne se chiffrant en plusieurs millions de dollards), d’où l’apparition du terme Big Data.

    C’était mon ajout, en désaccord avec le premier commentaires, excellent article.

    Remi.Net

    Cotez ce commentaire: Thumb up 3 Thumb down 0

    • J’ai déjà mis le lien plus haut, mais ça ne peut pas faire de mal de le mettre une seconde fois: http://web.mit.edu/press/2012/predicting-twitter-trending-topics.html

      Les BD No-SQL ne sont pas une fin en soit, mais bien une infrastructure pour supporter ces algorithmes.

      Stocker des données pour stocker des données n’a aucune utilité et aucune signification, ce qui fait la richesse de Google et des autres, ce sont les algorithmes qui permettent d’exploiter ces données-là. Et c’est ça le Big Data.

      Cotez ce commentaire: Thumb up 4 Thumb down 3

      • à Gore:

        Le problème n’est pas ce que vous amener comme argument mais la façon dont vous vous y prenez!

        Mais bon…

        Je passe à un autre appel!

        Cotez ce commentaire: Thumb up 9 Thumb down 2

  • Pour ceux qui sont vraiment intéressés un petit clip d’une sommité mondiale du domaine de l’intelligence artificielle, le professeur Geoffrey Hinton de l’université de Toronto. Pas très long, un petit deux minutes et qui gratte un peu le rapport entre le volume de données et la nécessité de système d’apprentissage artificiels pour leur traitement. Et il y en a plein d’autres, il faut juste ne pas être trop obtus et s’ouvrir aux perspectives d’avenir. Une autre sommité est tout près de nous, à l’université de Montréal, le professeur Yoshua Bengio.

    http://www.youtube.com/watch?v=Z_JFUuSet4U

    Les systèmes de recommandation sur Amazon, Neflix et ali sont des systèmes d’apprentissage machine, la vision artificielle en fait un usage intensif, la reconnaissance vocale, la reconnaissance du langage naturel, la robotique, le Google Car, les engins de recherche, le data mining, la détection de fraudes financières, etc.

    Cotez ce commentaire: Thumb up 5 Thumb down 3