Projet Obsun Big Data

L'Observatoire des Usages du Numérique expérimente actuellement la mise en place d'un entrepôt de données de type Big Data sur les usages des outils numériques de l'Université de La Réunion : environnement numérique de travail, plateforme pédagogique, etc.

Quotidiennement, des volumes gigantesques de données générés par les actions des utilisateurs sur ces plateformes sont collectés par notre entrepôt d'archivage, puis traités et exploités afin de construire automatiquement des statistiques, indicateurs et tableaux de bords interactifs.

De multiples usages

Quelle catégorie d'étudiants utilise le plus la plateforme pédagogique ? Ce comportement a-t-il un impact sur leur réussite ? Comment évolue l'activité d'une plateforme numérique sur une année scolaire ? Quels sont les outils en ligne les plus sollicités ? Pour quelles pratiques ? A quelles périodes ?

Notre entrepôt a pour objectif de répondre à ce type de questions sur la base d'indicateurs précis construits à partir des données archivées. A ce titre, il intéresse à la fois les développeurs et administrateurs des outils observés, afin par exemple d'évaluer les ressources matérielles à affecter en fonction des besoins, les décideurs, en les guidant dans les stratégies numériques à adopter, les chercheurs et enseignants s'intéressant aux sciences de l'éducation et aux TIC, et bien sûr l'ensemble de la communauté universitaire.

Des technologies de pointe

Notre entrepôt Big Data s'appuie sur des technologies innovantes et puissantes, déjà utilisées par de grands groupes (Yahoo, Facebook, etc.). Beaucoup d'entre elles exploitent des développements issus du monde de l'Open Source (exemple : Fondation Apache).

Les données, issues de diverses applications métier, et donc de différentes natures, sont extraites, transformées et chargées dans l'entrepôt grâce au logiciel d'ETL (Extract, Transform, Load) Talend. Ce dernier permet également d'effectuer des recoupements entre les différentes sources de données, afin d'enrichir les indicateurs et générer des représentations abouties.

Dans l'entrepôt, les données ainsi transformées sont réparties sur plusieurs machines indépendantes (noeuds) grâce au système de fichier HDFS géré par le framework Hadoop Cloudera. Ce dernier fournit divers services permettant de contrôler l'état du système, visualiser les données et réaliser des analyses poussées sur ces dernières. L'architecture distribuée du système permet de traiter rapidement de grands volumes de données, ce qui permet de simplifier tout passage à l'échelle.

Enfin, l'application Prompto, développée par la startup réunionnaise Datarocks, nous permet de concevoir des tableaux de bord interactifs directement reliés aux indicateurs produits. Ces tableaux de bords ont un double usage : l'exploration des données disponibles (filtrage, recoupements), et la communication de résultats, à travers une interface esthétique et intuitive, accessible à tous (cellules d'aide au pilotage, décideurs, enseignants, scientifiques, communiquants, etc.).

Perspectives

Ce projet expérimental préfigure la mise en place de deux types d'entrepôts Big Data à La Réunion :

  • un entrepôt d'établissement pour l'Université, permettant d'absorber et d'archiver quotidiennement les données des diverses applications métier essentielles à son fonctionnement (ressources humaines, scolarité, budget, maquettes de formation, conventions, etc.). Les données anonymisées et sécurisées permettront de fournir différentes vues de la gestion et des missions de l'Université, à destination des services concernés, mais aussi de générer plus facilement des rapports et des graphes pour le pilotage et la communication de l'établissement.

  • un entrepôt régional sur les pratiques numériques, en recueillant par exemple des données issues des plateformes déployées par le Rectorat pour les établissements du secondaire, mais aussi des organismes de formation professionnelle. L'analyse de ces données permettra de contribuer à l'amélioration de la stratégie numérique pour l'île, adaptée à ses spécificités, à la mutualisation d' outils et à la mise en oeuvre éclairée de la politique de spécialisation intelligente du territoire.