L’Actualité de la donnée de Sept/Oct 2022

Salon Big Data Paris 2022

Toute cette effervescence, n’était pas sans rappeler le manque de main d’œuvre que vit le secteur. L’Humain est bien au centre de cette chaîne où la donnée est de plus en plus structurée, organisée dans un lac de données. Il faut noter que la performance, le faible coût de stockage, la maturité des solutions de type Data Lakehouse poussent nombre d’organisations à abandonner leur Data Warehouse. Cette modernisation de leur plateforme de données s’impose dans l’objectif de réduction de coûts, de simplification des architectures, d’adoption de Format Table – format ouvert, performant, productif – évitant le verrouillage commercial (vendor locking).

Si les architectures analytiques étaient bien représentées à ce salon l’intégration de données n’était pas en reste. Le Streaming ETL, l’Integration Agile prend place.







Data Contracts


Dans une architecture fédérée, dans laquelle les responsabilités sont réparties entre les domaines, il est difficile de superviser les dépendances et d’obtenir des informations sur l’utilisation des données. Les contrats de données sont comme des contrats de livraison de données ou des contrats de service. Ils sont importants car lorsque les produits de données deviennent populaires et largement utilisés, vous devez implémenter la gestion des versions et gérer la compatibilité.

Les contrats de données sont une approche relativement nouvelle de l’approche Data Mesh. Ils sont importants car ils offrent une transparence sur vos dépendances et l’utilisation des données. Commencez petit et concentrez-vous d’abord sur la stabilité technique et la standardisation. Itérer en utilisant un processus d’amélioration continue.







Garder l’Humain au centre

Sans données, l’IA n’est pas très intelligente ! Le traitement massif des données réclame beaucoup de ressources afin de nourrir cette ou ces IA. Les ressources vont se faire rares. Un bon moyen pour repenser les approches, innover en remettant l’humain au centre. Et justement, nos approches vont nécessairement devoir tenir compte de domaines bien plus larges que nos simples approches techniques. Les sciences sociales doivent prendre une place nouvelle dans l’informatique.





Pourquoi le format Table change tout

Certes, il fallait quitter Hive qui ne passait plus à l’échelle et qui n’était pas plus prévu pour le Cloud ! Il fallait aussi résoudre les problématique des “petits” fichiers ! Plusieurs initiatives sont nées chez différents acteurs : Apache Hudi, Apache Iceberg, Delta Lake !

Ces formats de données apportent des couches de stockage open source (standard) qui transforment les lacs de données en véritable data warehouse avec une réelle fiabilité. Ils proposent des transactions ACID, une gestion des métadonnées scalable et unifie le streaming et le traitement de données par lots.







L’intégration en mode batch laisse la place au temps réel

L’architecture “Kapa” devient une norme. L’intégration telle que nous la connaissons va doucement être remplacée par des approches beaucoup plus en temps réel. De plus, à la fois via SQL comme langage de transformation et des environnements de développement de constructions visuelles de pipeline l’intégration de données va connaître une nouvelle évolution.










Logiciels

Apache Kafka 3.3
Dremio 2.0

Apache Kafka sans Zookeeper est prêt pour la production. L’architecture est plus simple maintenant.


Airflow 2.4

L’introduction du concept de “dataset” qui permet d’être à l’écoute de la disponibilité d’un fichier. Très pratique et qui facilite la mise en œuvre de flux de traitement “réactif”. Une nouveauté la possibilité qu’un pipeline soit lancé suite à l’exécution de tout un groupe de tâches.