L’Actualité de la donnée d’avril/mai 2026

Une étude de Dataiku est apparue à la fin du mois d’avril. J’ai tellement aimé le titre. “La facture est arrivée ! Qui la paye ?” Encore cette souveraineté ! Décidément, elle ne nous lâche plus !

Qui paiera la facture de l’IA quand elle arrivera ? Nous savons bien que lorsque ces sociétés rentreront en bourse, nous devrons payer les actionnaires. C’est pour ça que nous devons dès à présent apprendre à marcher, pour savoir courir demain.

Et oui, Nombre d’équipes font tout pour que nous sachions faire tourner nos modèles. Nous même. Certes, il y a 50 nuances de souveraineté. Certes nous ne produisons pas tous nous-mêmes notre électricité. Mais nous avons l’impression que l’on ne dit plus informatique. On ne voit plus que l’IA. Si elle est si centrale, peut-être bien que l’on devrait fortement s’y intéresser.

Tenez ! Vous rappelez vous de Milla Jovovich, héroïne dans le Cinquième Elément de Luc Besson ? Et bien, elle s’attaque à un gros morceau des agents : leur mémoire ! Allez voir son projet, il vaut le détour.

source: medium.com
Data Engineering à l’ère de l’IA

Ces derniers temps les conversations avec nos clients changent de ton ! Nos clients manifestent une certaine ambition à avec une idée en tête : accélérer les projets. Il y a comme une envie de magie. Avec le sourire, il nous font comprendre que nous devrions aller plus vite.

OK, les LLM ont bien progressé et oui ils savent coder. Et oui, il connaissent le métier de Data Engineering. Nous vous le prouvons aussi avec Dremio.

Notre retour à ce stade : il faut un pilote ! Nous pouvons accélérer les projets, réduire les cycles, partager davantage de valeur. Mais pour que cette accélération soit durable, vous devez continuer à nous garder à vos côtés — pour guider, structurer, sécuriser et faire progresser vos équipes.

Parce que non, l’IA ne fait pas le café toute seule. Elle ne devine pas vos besoins. Elle ne choisit pas spontanément le meilleur chemin. Ce que nous observons, c’est que bien guider l’IA vaut de l’or. C’est là que se joue la différence entre une accélération maîtrisée… et une illusion de vitesse.

Modéliser vos données, c’est encore et toujours important

On en est là : savoir si l’IA répond plus vite avec une donnée bien modélisée vs une qui ne l’est pas ? Quelle est la réponse à votre avis ?

Bien sûr que les réponses de l’IA tardent moins à arriver lorsque celle-ci est bien structurée. C’est ce que DBT Labs a démontré !

Un clin d’œil à ma connaissance Julyan Hide, dont la proposition d’ajout des “indicateurs” (“metrics” en anglais) directement en SQL font leur chemin… Et c’est RillData qui ouvre le bal !

Nous avons adopté dbt-core chez Synaltic, mais, une question m’a toujours occupé l’esprit : est-ce que SQL ne suffit pas ? D’autant plus que piloter les logiciels en ligne de commandes ont un regain fou pour accompagner les Skills des LLM !

La modélisation des données ou les spécifications ? A l’heure de l’IA qu’est-ce qui va être le plus important ? Là je vous invite à lire et découvrir ce qu’est le SPDD !

Structurer vos visualisations, c’est encore et toujours important

Une question va vous être bientôt posée ! A-t-on encore besoin de visualisation si quand vous travaillez avec votre agent conversationnel, il sait directement interroger vos bases de données, vos lakehouses, et vous bâtir des visualisation à la demande ?

Mince ! Ça dépend ! Bien entendu nous n’allons pas abattre 40 ans d’habitude en un claquement de doigts. Et pour des questions récurrentes, les rapports et tableaux de bord ont leur importance. La permanence garde sont importance.

Si la fenêtre conversationnelle va bousculer nos habitudes, qu’en sera-t-il des agents ? Pensez-y : au lieu de déployer un rapport et l’ouvrir tous les jours, on déploie un agent qui détecte les anomalies pour vous et vos équipes. Pardon, je veux dire qu’il lit le rapport et vous informe par email ou par Teams s’il note une perturbation dans vos données.

Dremio en Europe : la souveraineté des données devient enfin concrète

En 2017, quand j’ai installé Dremio pour la première fois, j’ai compris que cette technologie allait changer durablement la manière dont les organisations travaillent leurs données. Depuis, chez Synaltic, nous voyons chaque jour des équipes regagner confiance grâce à une donnée enfin accessible, intelligible, gouvernée.

Aujourd’hui, un enjeu domine tous les autres : la souveraineté des données. Et c’est précisément là qu’un Dremio opéré sur une infrastructure européenne devient stratégique. En Europe, la souveraineté n’est pas un slogan : c’est une exigence juridique, culturelle, industrielle. Le cadre allemand de SAP rassure, et l’arrivée d’un Dremio Cloud sous bannière européenne apporte enfin une alternative crédible face aux géants américains.

Ce rapprochement ouvre des perspectives concrètes : rendre les données de l’ERP directement accessibles via Apache Iceberg™, unifier les usages BI et IA sans déplacer les données, exploiter les modèles prédictifs de Prior Labs dans une architecture réellement temps réel, et tout cela en restant sous juridiction européenne. C’est exactement ce que les organisations attendaient.

L’open source est au cœur de cette dynamique. SAP investit dans Eclipse, Dremio contribue à Apache Iceberg™, et l’ensemble dessine un Lakehouse moderne, performant, interopérable, souverain. Une plateforme où BusinessObjects retrouve une nouvelle jeunesse grâce à la connectivité et aux performances de Dremio, tandis que l’IA industrielle devient opérationnelle.

Quel catalogue choisir pour Iceberg ?

Le Lakehouse moderne repose sur Apache Iceberg™, mais c’est le catalogue qui en détermine vraiment la puissance, l’ouverture… et le degré de dépendance à un fournisseur.

Dans ce livre blanc, nous expliquons pourquoi, « le Catalogue Iceberg est le GPS du Lakehouse. Sans lui, vous avez les données, mais vous ne savez pas où elles sont, dans quel état elles se trouvent, ni qui peut y accéder. »

Découvrez pourquoi le catalogue n’est plus un simple registre technique, mais une brique stratégique : c’est lui qui maintient le pointeur vers le bon metadata.json, garantit un état cohérent entre tous les moteurs, et permet de tirer pleinement parti des piliers d’Iceberg : transactions ACID, time travel, évolution de schéma et partition evolution.

« Le catalogue que vous choisissez détermine votre degré de dépendance, votre capacité à changer de moteur, et votre aptitude à construire une architecture réellement multi‑cloud et gouvernée. »

Unity Catalog, Glue, Dataplex, Polaris, Nessie, Arctic, Hive… le livre blanc propose un comparatif des principaux catalogues, en distinguant catalogues cloud natifs, open source et embarqués, et en montrant leurs impacts concrets sur la gouvernance, la portabilité et le multi‑engine. On y détaille notamment pourquoi des projets comme Project Nessie (le “Git des données”) ou Apache Polaris™ (REST Catalog open source multi‑cloud) redéfinissent la manière de gouverner les tables Iceberg à grande échelle.

LOGICIELS
Mise à jour d’avril et de mai 2026 

 Apache Iceberg™ 1.11.0 

La version 1.11.0 d’Apache Iceberg™ n’est pas une simple mise à jour de maintenance : elle marque une évolution majeure du format de table open source qui structure aujourd’hui les architectures Lakehouse.

 Talend ESB Runtime R2026‑04‑RT 

Patch cumulatif pour ESB Runtime 8.0.1 incluant correctifs de stabilité et alignement Camel 4.

 Apache Superset™ 6.1.0 

Cette release apporte des améliorations de performance, une expérience utilisateur plus fluide, une meilleure stabilité générale et des mises à jour du moteur de visualisation. Elle s’appuie sur l’écosystème riche de Superset — SQL Lab, large catalogue de visualisations, couche sémantique légère, intégration avec la plupart des moteurs SQL — tout en consolidant les fondations introduites dans les versions 6.x, notamment la modernisation de l’interface et l’amélioration du framework de sécurité.

 Apache Airflow® 3.2.0 

Une mise à jour majeure qui améliore la stabilité du scheduler, modernise plusieurs providers et introduit une nouvelle image Docker unifiée. Cette version renforce la fiabilité des workflows, optimise les performances et prépare la plateforme aux futures évolutions de l’écosystème Airflow.

 Debezium 3.6.0‑Alpha 1 & 2 

Premières versions alpha de la 3.6 avec compatibilité Kafka Connect 4.2.0 et améliorations du pipeline CDC.

 Power BI – Avril 2026 

Améliorations Copilot mobile, nouveaux contrôles de mise en page et évolutions Direct Lake.

 MageAI – Super Mario Galaxy 

Nouvelle version avec intégrations marketing avancées et accélération du développement local.

 Apache Flink® 2.2.1 

Cette mise à jour améliore la fiabilité du runtime, stabilise certains connecteurs et affine le comportement du scheduler, tout en restant entièrement compatible avec les applications existantes de la série 2.2.

 Apache Polaris™ 1.5.0 

Apache Polaris™ 1.5.0 poursuit l’évolution du catalogue open source en renforçant la fiabilité du protocole REST et en améliorant la gestion des métadonnées pour les tables Iceberg. Cette version apporte des optimisations de performance, une meilleure robustesse des opérations de commit et plusieurs correctifs visant à stabiliser l’intégration avec les moteurs compatibles, tout en restant pleinement alignée avec les spécifications du Polaris Catalog.