L’actualité de la donnée de fin 2024

Nous sommes à la fin de l’année et les prévisionnistes nous annoncent ce qu’il va advenir… Nous prenons plutôt le parti de vous raconter l’année avec une certaine chronologie afin que par vous même vous mesuriez certaines tendances par vous même. Ainsi, en vous partageant ces vues sur l’évolution du marché, nous espérons rendre plus robustes vos perceptions.

Justement, Olivier Hamant, Directeur de recherche à l’INRAE, dans un nouvel essai, rappelle que la nature a choisi la robustesse et non la performance. “Ne pas mettre tous ses œufs dans un même panier” : on connaît le dicton !

Data littératie, Data Mesh, Data Ops, Data Product, Data Contract, Data as Code… Si vous avez un certain recul sur le métier, nous imaginons que vous avez bien compris que nous sommes tous des “ouvriers de l’information” et que nous avons tous un grand besoin de culture informatique et du développement logiciel. Low Code ou No Code : factoriser c’est bien un truc de développeur ! Nous rencontrons nombre d’organisations qui en 2025 changent d’ERP…

Nous les invitons à partager la culture de la donnée dans le cadre de pareils projets. De même, il nous paraît fort utile qu’elles éclairent quant au maillage existant des données en leur, avec leurs clients, avec leurs fournisseurs. Ce sera un très bon point de départ pour considérer la qualité de données, la collaboration et le décloisonnement apporté par le data lakehouse.








Stockage – Format Table Apache Iceberg : un standard ! 

Nous en avons parlé toute l’année ! Apache Iceberg est le standard et c’est AWS qui nous le confirme.

Ci-dessous, vous trouverez les dernières lectures que nous vous recommandons. Et à nouveau, nous vous invitons à la lecture de l’ebbok « Introduction à Apache Iceberg par Charly Clairmont ».



Collecter vos données en temps réel : Debezium 

Le change data capture modifie complètement la manière de collecter les données afin de les consolider. En effet, vous pouvez suivre en temps réel votre activité. Debezium est l’outil le plus embarqué pour faciliter cette collecte ! En plus, il est de plus en plus simple de l’utiliser avec Debezium Server !

Apache Flink CDC est un très bon exemple d’intégration. Notre préféré, Debezium Server Iceberg : déversez directement vos données et en temps réel dans Iceberg et ce sans tralala (sans Apache Kafka)… Et Dremio, DuckDB et en route : c’est parti ! On consolide ! On analyse !







Traiter les données en temps réel avec SQL 

Allons-y ! En termes de prédiction on peut dire que pour 2025, nous reconsidérons SQL. Nous ne le considérons pas que pour le batch… L’analyse de données en temps réel va profiter à un plus grand nombre d’organisations… Et vous aurez le choix.





La foLle envolée d’un canard SQL 

1.000 nœuds pour AWS ! 5.000 nœuds pour Azure ! Qui dit mieux ? J’ai 65.000 nœuds ici pour Google Cloud !




LOGICIELS


Apache Iceberg 2.0.0

Améliorations majeures avec la prise en charge de Spark 4.0, des mises à jour pour AWS SDK 3.0 et Apache Avro 1.14.0



Databend 2.0

Data warehouse cloud open source avec des performances optimisées, construit en Rust.


HyperDX 2.0

Aide les ingénieurs à diagnostiquer rapidement les pannes de production avec des fonctionnalités améliorées pour la centralisation des journaux et des traces.


Qlik / Talend – Mise à jour

Correctifs pour améliorer la stabilité et corriger les exceptions non gérées dans le mécanisme de surveillance des dossiers de données et le composant DataUploadService.

Qlik / Talend –  Common Vulnerabilities and Exposures
Détection des artefacts affectés par les vulnérabilités corrigées via le Studio Talend.

Debezium 4.0.0
Ajout de connecteurs pour Oracle 20c, PostgreSQL 14 et MongoDB 6.0. Mise à jour pour fonctionner avec Java 19 et Kafka 4.0.