L’Actualité de la donnée de Sept/Oct 2022

Salon Big Data Paris 2022

Toute cette effervescence, n’était pas sans rappeler le manque de main d’œuvre que vit le secteur. L’Humain est bien au centre de cette chaîne où la donnée est de plus en plus structurée, organisée dans un lac de données. Il faut noter que la performance, le faible coût de stockage, la maturité des solutions de type Data Lakehouse poussent nombre d’organisations à abandonner leur Data Warehouse. Cette modernisation de leur plateforme de données s’impose dans l’objectif de réduction de coûts, de simplification des architectures, d’adoption de Format Table – format ouvert, performant, productif – évitant le verrouillage commercial (vendor locking).

Si les architectures analytiques étaient bien représentées à ce salon l’intégration de données n’était pas en reste. Le Streaming ETL, l’Integration Agile prend place.

THE ESTABLISHMENTAND UTILIZATION OF DATA LAKES

How Fivetran + dbt actually fail: Part I

How Fivetran fails

Data Contracts

Dans une architecture fédérée, dans laquelle les responsabilités sont réparties entre les domaines, il est difficile de superviser les dépendances et d’obtenir des informations sur l’utilisation des données. Les contrats de données sont comme des contrats de livraison de données ou des contrats de service. Ils sont importants car lorsque les produits de données deviennent populaires et largement utilisés, vous devez implémenter la gestion des versions et gérer la compatibilité.

Les contrats de données sont une approche relativement nouvelle de l’approche Data Mesh. Ils sont importants car ils offrent une transparence sur vos dépendances et l’utilisation des données. Commencez petit et concentrez-vous d’abord sur la stabilité technique et la standardisation. Itérer en utilisant un processus d’amélioration continue.

7 Lessons From GoCardless’ Implementation of Data Contracts

Data Contracts — ensure robustness in your data mesh architecture

Data contracts

Data contracts smell a lot like test-driven development.

Garder l’Humain au centre

Sans données, l’IA n’est pas très intelligente ! Le traitement massif des données réclame beaucoup de ressources afin de nourrir cette ou ces IA. Les ressources vont se faire rares. Un bon moyen pour repenser les approches, innover en remettant l’humain au centre. Et justement, nos approches vont nécessairement devoir tenir compte de domaines bien plus larges que nos simples approches techniques. Les sciences sociales doivent prendre une place nouvelle dans l’informatique.

Luc Julia (Renault) : « Nous sommes malades de nos datas »

The future of tech relies on humanities degrees

Pourquoi le format Table change tout

Certes, il fallait quitter Hive qui ne passait plus à l’échelle et qui n’était pas plus prévu pour le Cloud ! Il fallait aussi résoudre les problématique des “petits” fichiers ! Plusieurs initiatives sont nées chez différents acteurs : Apache Hudi, Apache Iceberg, Delta Lake !

Ces formats de données apportent des couches de stockage open source (standard) qui transforment les lacs de données en véritable data warehouse avec une réelle fiabilité. Ils proposent des transactions ACID, une gestion des métadonnées scalable et unifie le streaming et le traitement de données par lots.

Upgrading Data Warehouse Infrastructure at Airbnb

Table file formats – reading path: Apache Hudi

Apache Iceberg 101 Course

L’intégration en mode batch laisse la place au temps réel

L’architecture “Kapa” devient une norme. L’intégration telle que nous la connaissons va doucement être remplacée par des approches beaucoup plus en temps réel. De plus, à la fois via SQL comme langage de transformation et des environnements de développement de constructions visuelles de pipeline l’intégration de données va connaître une nouvelle évolution.

Moving Kafka and Debezium to Kubernetes Using Strimzi – the GitOps Way

With $17M in funding, Immerok launches cloud service for real-time streaming data

Logiciels

Apache Kafka 3.3

Dremio 2.0

Apache Kafka sans Zookeeper est prêt pour la production. L’architecture est plus simple maintenant.

https://www.confluent.io/blog/apache-kafka-3-3-0-new-features-and-updates/

Airflow 2.4

L’introduction du concept de “dataset” qui permet d’être à l’écoute de la disponibilité d’un fichier. Très pratique et qui facilite la mise en œuvre de flux de traitement “réactif”. Une nouveauté la possibilité qu’un pipeline soit lancé suite à l’exécution de tout un groupe de tâches.

https://airflow.apache.org/docs/apache-airflow/2.4.1/release_notes.html#airflow-2-4-1-2022-09-30

L’Actualité de la donnée de Sept/Oct 2022

Dernières Publications :

L’Actualité de la donnée de Mai 2025

L’Actualité de la donnée d’Avril 2025

L’Actualité de la donnée de Mars 2025

L’Actualité de la donnée de Février 2025

Interagissez avec nous !