• La gouvernance de l’information dans le secteur public – étude Markess

    La gouvernance de l'information dans le secteur public - étude Markess

    Markess International a mené une étude auprès de 85 décideurs du secteur public en France. Le résultat est présenté dans l'étude intitulée "Les enjeux autour de la gestion et de la gouvernance de l’information dans le secteur public" et disponible au téléchargement en suivant le lien en fin de note. Cette étude sur la gouvernance de l'information dans le secteur public a été réalisée par Markess tandis que PAC ...

    Lire la suite ...

  • Information Management: gérer, intégrer, analyser et gouverner les données

    Information Management: gérer, intégrer, analyser et gouverner les données

    La Gestion de l'Information regroupe un ensemble de domaines fonctionnels qui permettent de gérer, d'intégrer, d'analyser et de gouverner les données. Qu'il s'agisse de données structurées ou non structurées, la problématique est la même et voici comment tout cela s'articule. Si vous lisez régulièrement ce blog, vous n'êtes pas sans savoir que j'ai élargi mon domaine de compétence à la Gestion de l'Information. Loin de moi l'idée de ne ...

    Lire la suite ...

  • Les vidéos du Forum Intégration et Gouvernance de l’Information

    Les vidéos du Forum Intégration et Gouvernance de l'Information

    Découvrez les présentations du récent Forum Intégration et Gouvernance de l'Information qui a eu lieu à l'IBM Forum le 5 mai dernier. Si vous n'avez pu vous rendre à cette manifestation, si vous n'avez pas non plus suivi mon Tweet Live (!), profitez des vidéos qui viennent d'être postées sur la chaîne YouTube d'IBM Information Management France. Au programme : - IBM Forum Paris - Vidéo d'introduction - Pourquoi la gouvernance de ...

    Lire la suite ...

  • La gouvernance de l’information : c’est le pied !

    La gouvernance de l’information : c’est le pied !

    Le Forum Intégration et Gouvernance de l'Information avait lieu ces derniers jours, et je profite de cet événement pour ouvrir le blog à un invité et publier un Guest-Post, selon l'expression consacrée. C'est Jean-Pascal Perrein, blogueur et Président de 3org Conseil, qui nous propose sa vision de ce Forum. Pas de consigne particulière pour écrire ce billet, l'invité est libre de ses propos et si le cœur vous en ...

    Lire la suite ...

  • La gouvernance de l’information dans les entreprises du secteur privé – Etude PAC

    La gouvernance de l'information dans les entreprises du secteur privé - Etude PAC

    J'ai eu la chance d'assister ces jours-ci à la restitution de l'étude menée par PAC - Pierre Audoin Consultants - sur la Gouvernance de l'Information dans les entreprises du secteur privé. Cette étude permet d'avoir une bonne vision de comment les entreprises considèrent la gouvernance de leurs informations. A défaut pour le moment de pouvoir rendre publique cette étude dans son intégralité, voici quelques extraits qui doivent vous permettre ...

    Lire la suite ...

  • Gouvernance des données et contraintes réglementaires

    Gouvernance des données et contraintes réglementaires

    L'augmentation des données d'entreprise et les contraintes réglementaires désormais associées à ces données nécessitent de penser différemment la gouvernance des données. Voici une présentation qui propose un constat en matière de gouvernance ainsi que des pistes de mise en place de solutions appropriées. Vous remarquerez que cette présentation est à l'initiative d'IBM Software, elle n'en présente pas moins d'intérêt. Il s'agit du sujet présenté par IBM ECM lors du ...

    Lire la suite ...

1 2 3 4 5 6

Qu’est-ce que Big Data ?

13 janvier 2012

dans Concepts, Gestion de l'Information

Si vous suivez un peu l’actualité de la Gestion de l’Information, vous n’avez pas pu passer à côté du phénomène Big Data. Et comme pour beaucoup il n’est encore pas évident de bien comprendre ce que désigne ce terme anglo-saxon que l’on a bien du mal à traduire (grosses données, c’est pas terrible …), je passe beaucoup de temps à me documenter et à échanger avec les experts autour de moi pour arriver à construire une présentation la plus pertinente possible.

Watson utilise des solutions analytiques de type Big Data

L’ordinateur Watson utilise des solutions analytiques et des composants de type Big Data

Je profite de ce travail personnel pour commencer une première approche écrite, et je vous livre ici ma compréhension de ce qu’est Big Data. Ce n’est ni exhaustif ni intangible, mais il faut bien commencer par quelque chose. Je vous invite au passage, si le sujet vous intéresse, à venir me retrouver le mardi 14 février dans le cadre de la conférence 01 Big Data. Ce sera l’occasion d’écouter les experts, de comprendre les problématiques, d’aborder les cas d’usages et d’avoir des échanges enrichissants.

Big Data, les 3 V

description des 3V de Big Data

Pour définir ce qu’est Big Data, au-delà des aspects logiciels, organisationnels et architecturaux, il suffit de s’intéresser aux 3V :

  • volume,
  • variété,
  • vélocité.

De grosses quantités de données, peu importe la quantité absolue tant qu’il s’agit d’un volume important pour votre activité, constituent un volume à prendre en compte qui ne peut plus être traité par une approche traditionnelle (comme celle mise en œuvre avec les bases de données).

Des données dont les formats sont hétérogènes, de natures diverses et variées, structurées comme non structurées, sont des données variées.

Si les données que vous manipulez vous arrivent à grande vitesse, que vous devez gérer des flux au fil de l’eau, que vous devez pouvoir les prendre en compte et les traiter tout aussi rapidement, alors vous avez une problématique de vélocité.

Si vous êtes confronté à une problématique de gestion de données correspondant à ces trois critères, alors vous avez à gérer une problématique de type Big Data. Ce qui signifie accessoirement que Big Data n’adresse pas uniquement les quelques entreprises en France qui manipulent beaucoup de données, mais bien toutes celles qui ont une problématique 3V.

Big Data, c’est pas pour moi

types - sources de données pour Big Data

J’ai pour habitude de dire que le terme Big dans Big Data est mal approprié car beaucoup pensent qu’il faut énormément de données pour être plongé dans une problématique Big Data. Je ne pense pas. La notion de volume est à rapporter à votre activité : si pour un besoin donné, le volume à prendre en compte est supérieur à la moyenne de ce que vous savez déjà gérer, et en passe de croitre encore, si vous ne savez pas gérer ces données avec les architectures traditionnelles, alors vous avez un volume de type Big Data.

Big Data, c’est juste un concept

J’ai pu lire plusieurs articles ces derniers mois dont les auteurs décrivaient Big Data comme un simple concept (de plus) poussé par les éditeurs pour mettre sur le marché des offres qui au final n’étaient qu’un habile réhabillage d’offres existantes.

Il semble que ces gens là finissent par revenir sur leurs positions, et je préfère m’attacher à ce que proposent les analystes (Forrester, Gartner) qui positionnent Big Data comme une des dix problématiques clés des entreprises pour l’année 2012 (c’est maintenant).

Pour lire ce que dit le Gartner, je vous renvoie vers cet article Gartner, the top 10 strategic technology trends for 2012. Pour Forrester, c’est Brian Hopkins qui présente sa vision Big Data Will Help Shape Your Market’s Next Big Winners.

Big Data, architecture ou logiciels ?

Les deux. Si la mise en œuvre de Big Data fait appel à une architecture spécifique, il existe des offres logicielles dédiées qui viennent offrir leurs services. Big Data s’appuie sur le filesystem Hadoop dont une définition nous est donnée par Wikipedia :

Hadoop est un framework Java libre destiné aux applications distribuées et à la gestion intensive des données. Il permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de données. Hadoop a été inspiré par les publications MapReduce, GoogleFS et BigTable de Google.

Pour ce qui est des logiciels, chaque éditeur a ses propres outils. Chez IBM c’est dans la gamme Infosphere que l’on trouve les deux offres Stream et Big Insight. Ces deux solutions sont spécifiquement conçues pour répondre aux problématiques d’analyse de flux de données, de qualification, traitement, référencement. Vous pouvez trouver un descriptif plus précis et des ressources documentaires ici Bringing Big Data to the Enterprise. Ces offres sont complétées des appliances analytiques de seconde génération Netezza.

Big Data, ce n’est que du stockage et de l’archivage

C’est ce que tendent à faire croire ceux qui ne disposent que d’une offre d’archivage (petite pique gentille à certains de mes confrères). Mais Big Data demande d’autres capacités, comme celle de savoir analyser les flux de données, les interpréter en temps réel, en extraire les données essentielles à destination des utilisateurs métiers, etc.

Pour aller plus loin …

Si le sujet Big Data vous intéresse, je vous invite à visiter les sites précédemment cités. Vous pouvez aussi parcourir l’ebook « Understanding Big Data » gratuit après enregistrement.

Sur Twitter, suivez le tag #bigdata (et abonnez-vous à mon compte, j’en parle régulièrement).

Et n’oubliez pas le 14 février pour la conférence 01 Big Data.

Vous avez des compléments, des exemples, des cas d’usages ? Laissez un commentaire.

Lire la suite :

Article précédent :

Article suivant :