L’Actualité de la donnée de Mars 2026

Une vive impression d’accélération nous gagne. Une impression d’être empêché de penser. Alors même que de nouvelles tensions internationales cristallisent nos rapports, les avancées de l’IA nous obligent encore et encore à repenser dès à présent notre activité.

Il est utile d’identifier et prendre des mesures face aux impacts à long terme et ce dès à présent. Par contre, il ne faut pas s’y tromper. À court terme, les organisations n’ont pas massivement adopté l’IA, ce qui donne du temps pour s’y préparer.

Dans un pareil monde, il va vite être utile de mettre à plat les fondamentaux. La donnée. La valeur ultime que vous tirerez de l’IA consistera à avoir une sorte de “cerveau” de votre organisation. Je ne parle pas des automatisations que vous pouvez d’ores et déjà exploiter. Je parle bien de consolidation de données.

Autrefois, on construisait des data warehouse, même des lakehouses, mais il va maintenant être question de construire des Knowledge Lakehouse. Allez ! Osons des néologismes : “Knowledgehouse”.

Avant que cela n’advienne, la souveraineté est toujours au cœur des préoccupations. Regardons Outre-Rhin, l’État allemand sort une stack large de logiciels open source et libres afin de garantir une souveraineté basée sur des standards. Ce qui est bien avec cette initiative, c’est qu’elle reconnaît cette nécessité de “commun” sur lesquels des entreprises peuvent contribuer et offrir leurs services.

Une telle expertise, couplée à un repositionnement de l’activité, viendra sans doute protéger de l’obsolescence dont les entreprises pourraient elles-mêmes être victimes. Bruno Patino, directeur de la chaîne de télévision ARTE, pose la question dans son dernier livre.

Je ne sais pas ce qu’en pense Yann Le Cun ! Il vient de lever près d’un milliard d’euros afin de proposer des services sur des modèles “world model” qui savent tenir compte du monde physique qui nous entoure.

Nous vous le répétons une fois encore : investissez dans les fondamentaux ! Pour comprendre vos données, vous aurez besoin de leur traçabilité. Le sujet revient dans les solutions de métadonnées dans Apache Iceberg™ avec les premières moutures de la version 3.

L’Allemagne esquisse une stack nationale « souveraine » : ce qu’il y a dedans

L’intelligence artificielle nous rend-elle obsolète ? – Bruno Patino

Data Lineage: What It Is and Why It Matters

Yann Le Cun, l’ancien ingénieur de Meta, à contre-pied de la Silicon Valley

Le streaming à portée de main

Nombre d’entités s’organisent autour d’activités dont les processus sont en quasi temps réel. C’est à cela que répond le streaming !

Les cadres qui en permettent la mise en œuvre sont heureusement de plus en plus simples. À la fois, il est question de réduire les dépendances tant en termes de librairies que de composants d’infrastructure.

Deux projets vont dans ce sens :

Hardwood : une nouvelle librairie pour manipuler Apache Parquet, sans aucune dépendance à Hadoop. C’est Gunnar Morling, longtemps PMC sur Debezium.
Tansu : Kafka léger et performant. Le backend c’est SQLite, PostgreSQL ou S3. Le tout tient en une commande autonome sans dépendance.

Et il faut saluer comment, au sein de la communauté Apache, les projets travaillent ensemble.

Apache Iceberg™ V3 a introduit le type « Variant ». Et bien sûr, il est question que cette propriété ait son implémentation au sein d’Apache Parquet™.

De même, les “Delete Vectors” d’Apache Iceberg™ en font aussi un sérieux prétendant au format de stockage pour le streaming.

Hardwood: A New Parser for Apache Parquet

Claude Code isn’t going to replace data engineers (yet)

QCon London 2026: Introducing Tansu.io — Rethinking Kafka for Lean Operations

Variant Type in Apache Parquet for Semi-Structured Data

Data Engineering, le meilleur job du 21ème siècle

Apache Iceberg™ est né de la volonté de faire bien mieux qu’Hadoop et de ne pas reproduire les mêmes travers. Il est fort appréciable qu’une technologie dès sa naissance ait prévu la manière même dont l’obsolescence de ses composants peut être gérée : le stockage des données, le stockage des métadonnées, les moteurs SQL…

Couplé à ses avantages propres et aux technologies connexes, cela en fait une plateforme durable, parée pour répondre au besoin de pérennité des organisations.

Pour gérer, gouverner, stocker les données sur le long terme, il est nécessaire d’orchestrer des flux de données. C’est le rôle d’Apache Airflow^®. N’est-ce pas ?

Quoi de mieux si l’on avait déjà des modèles, des structures, modules prêts à l’emploi et prêts à résoudre nos problèmes. Et que dire de dbt core qui s’arime à Apache Flink^® ! On avait déjà SQL pour le streaming avec dbt core pour Apache Flink, on franchit un nouveau pas.

Le métier du data engineering évolue résolument ! Volga, une plateforme dédiée au machine learning nouvelle génération, vient nous rappeler qu’il ne s’agit pas juste de construire un modèle ! Il est aussi question d’industrialisation.

Introducing the Apache Airflow Registry

Volga: A Rust Rewrite of a Real-Time AI/ML Data Engine (DataFusion, Arrow, SlateDB) with a Chronon + OpenMLDB–Style Architecture

dbt Meets Apache Flink: One Workflow for Data Engineers on Snowflake, BigQuery, Databricks, and Confluent

Knowledge Lakehouse, Context Lakehouse

Vous avez déjà entendu parler des EIP, ici ! Vous vous rappelez Enterprise Information Portal ? Ce concept a donné naissance par exemple aux intranets et extranets : les organisations ont rassemblé des informations, des documents pour les mettre à disposition d’employés, de partenaires. Cela a aussi pu prendre le format “wiki”.

Qu’en serait-il si la culture même de l’organisation se trouvait rassemblée en un seul endroit ?

Qu’en serait-il si vos processus, vos procédures, le tout couplé à vos valeurs les plus primordiales, transpirait à chaque interaction avec l’IA qui incarne votre organisation.

Il est vrai que les LLMs ne commencent que seulement à être nourris des données issues des ERP, CRM et autres solutions de gestion. Bien sûr que vos documents (Word, PDF, PPTX, vidéos, images, scans) vont constituer la source des différents flux alimentant ce “deuxième cerveau”.

Tout compte fait, ce cerveau accumule des données, de la mémoire, et il exploite ces données avec le raisonnement. Allons-nous assister à ce même mimétisme pour les organisations ?

Ontology, Taxonomy, Data Model, Context Graph & Friends

Backfills – The Necessary Evil of Data Engineering

Jason Cui & Jennifer Li: Your Data Agents Need Context

Grit beats talent (if the infrastructure lets you fail)

PPLX Embed — State-of-the-Art Embedding Models for Web-Scale Retrieval

Tout savoir sur Dremio

Focus IA : Infrastructure, sécurité et agents intelligents

PPLX Embed : modèles d’embedding avancés
Perplexity AI publie pplx-embed-v1 et pplx-embed-context-v1, deux familles de modèles d’embedding de texte à tester dans vos pipelines de recherche vectorielle.
https://research.perplexity.ai/articles/pplx-embed-state-of-the-art-embedding-models-for-web-scale-retrieval

OpenAI : rapport sur les abus de modèles IA
Ce PDF OpenAI détaille 10+ cas d’abus utilisant des modèles IA : scams, cyber ops, influence ops (IO), espionnage, fraudes emploi.
https://cdn.openai.com/pdf/df438d70-e3fe-4a6c-a403-ff632def8f79/disrupting-malicious-uses-of-ai.pdf

Self-Flow : entraînement scalable multimodal
Self-Flow est un cadre de recherche de Black Forest Labs (créateurs de FLUX) pour l’entraînement scalable de modèles génératifs multi-modaux (images, vidéos, audio). Cette approche améliore la cohérence temporelle, le rendu de texte et la compréhension sémantique.
https://bfl.ai/research/self-flow

Claude Code : Code Review automatisé
Code Review est une nouvelle fonctionnalité d’Anthropic pour Claude Code, lancée en mars 2026, qui automatise les revues de pull requests GitHub via une équipe d’agents IA. Elle cible les bugs que les revues humaines manquent. Chez Anthropic, elle a fait passer les PRs avec commentaires substantiels de 16% à 54%.
https://claude.com/blog/code-review

Context Hub : documentation API pour agents IA
Context Hub est un outil open-source CLI lancé par Andrew Ng (mars 2026) pour fournir aux agents de codage (Claude Code, Cursor…) une documentation API à jour et curatée, évitant hallucinations et “agent drift”.
https://github.com/andrewyng/context-hub

Claude Opus 4.6 + Mozilla : chasse aux zero-days
Anthropic collabore avec Mozilla pour utiliser Claude Opus 4.6 dans la découverte de vulnérabilités zero-day dans Firefox, identifiant 22 bugs en 2 semaines (dont 14 high-severity). Mozilla a intégré les patches dans Firefox 148.0.
https://www.anthropic.com/news/mozilla-firefox-security

LOGICIELS
Mise à jour de mars 2026

Apache Airflow^® 2.11.2

Saluons la sortie de la version 2.11.2 et du Helm Chart 1.20.0, apportant des améliorations de stabilité, de compatibilité, de performance et une meilleure expérience UI.

https://airflow.apache.org/announcements/

Tableau 2026.1

Tableau franchit un cap en mars 2026 avec une double mise à jour centrée sur le modèle sémantique et l’analytique assistée. Le nouveau semantic model gouverné facilite la standardisation des métriques et des dimensions à l’échelle de l’organisation, tandis que les améliorations de Q&A et des visualisations renforcent l’autonomie des utilisateurs métier. notons aussi des connecteurs modernisés et des capacités d’administration (filtrage IP, gouvernance des accès).

https://www.tableau.com/support/releases/

Power BI

Power BI bascule encore un peu plus du côté de la BI “actionnable”. Avec les Translytical task flows, les rapports ne sont plus seulement descriptifs : ils deviennent des surfaces d’action, capables de déclencher des mises à jour et des workflows directement depuis l’interface. La modernisation des visuels, le passage de Direct Lake en GA, les avancées sur la modélisation (TMDL, fonctions DAX réutilisables) et les améliorations de Copilot renforcent l’idée d’une plateforme unifiée où exploration, décision et exécution se rejoignent dans le même environnement.

https://learn.microsoft.com/power-bi/release-notes/

dbt Core

Correctif ciblé sur la fiabilité du micro‑batching : le retry utilise désormais correctement l’horodatage d’invocation initial. Mise à jour mineure des dépendances (dbt-common 1.37.3). Release de maintenance, sans changement fonctionnel majeur.

https://github.com/dbt-labs/dbt-core/releases/

Kestra v1.3.6

Release de stabilisation qui améliore la fiabilité du scheduler, corrige plusieurs problèmes d’exécution liés aux plugins et renforce la gestion des workers. Quelques ajustements UI et optimisations mineures complètent cette mise à jour orientée robustesse.

https://kestra.io/changelog

Dremio 26.1.5

Dremio 26.1.5 (mars 2026) apporte une série de correctifs critiques sur la planification des requêtes, la gestion des connexions NATS, les Reflections et les types complexes. La release renforce la stabilité du moteur SQL, améliore l’expérience dans la console et fiabilise les déploiements Kubernetes. Une mise à jour clairement orientée robustesse opérationnelle.

https://docs.dremio.com/current/release-notes/

Debezium 3.4

Debezium publie deux versions en mars 2026 (3.4.2 et 3.4.3), toutes deux centrées sur la stabilité et la qualité du CDC. Les connecteurs Oracle, MySQL, PostgreSQL, Informix et MongoDB bénéficient de nombreuses corrections, tandis que la compatibilité Kafka Connect 4.1.1 est confirmée. Aucune rupture de compatibilité, mais un renforcement notable de la robustesse opérationnelle.

https://debezium.io/releases/

Dernières Publications :

L’Actualité de la donnée de Mars 2026

L’Actualité de la donnée de Février 2026

L’Actualité de la donnée de Janvier 2026

L’Actualité de la donnée de Décembre 2025

Interagissez avec nous !