L’Actualité de la donnée d’Octobre 2025

Pourquoi écrire une lettre chaque mois ? Pourquoi chercher à résumer des tendances ou mettre des mots sur l’évolution d’un marché qui fourmille de solutions pour passer d’une fragmentation importante à une contraction qui surprend toujours.

Êtes-vous déjà utilisateur de DBT ? Tout le monde s’est accordé. Tout le monde a reconnu le cadre apporté par DBT ! Comme le rappelait, Jean-Baptiste Onofre lors de la table ronde de Subsurface Word Tour, il ne suffit pas de mettre une licence Apache 2.0 pour garantir la durabilité d’un projet ! Et voilà que tout le monde se demande ce que va devenir dbt-core ou SQLMesh maintenant qu’ils passent sous le pavillon de Fivetran. Il faut reconnaître qu’ainsi agglomérée la solution donne naissance à une plateforme pour gérer la donnée sur tout la chaîne de l’ETL !

Pour tous ceux qui ont investi dans dbt-core qu’en sera-t-il ? Nous devons attendre. Je vois deux scénarios : Fivetran socle dbt-core dans une fondation open source (Apache, Linux, une fondation ad hoc), ou bien le fork !

Synaltic  avait son stand à Subsurface World Tour ! Cette année la conférence a fait une halte à Paris. L’occasion pour Dremio et sa communauté de se retrouver physiquement. Il aura beaucoup été question d’IA ! Et Dremio se place directement comme l’interface pour les IA ! Bien sûr, il continue d’être le portail d’accès unique à toutes vos données y compris celles diffusées via un catalogue Apache Iceberg™ .

De l’IA à la donnée, il n’y a qu’un pas. De l’IA aux retraites, il faut un peu plus de recul… Et c’est Le Point qui nous invite à cette mise en abyme. Et il faut aussi avoir pris du recul face à l’IA avec Andrej Karpathy d’une part ou d’autre part Jim Covello de Goldman Sachs qui pose une question : quel est le cas d’usage à 1 000 milliards que résout l’IA ? Ce montant correspond à tout ce qui a déjà été investi.








dbt-core ! Et après ? un ETL ? Quel futur ETL ?

L’achat de DBT par Fivetran a tellement posé de questions qu’il convient de rappeler que DBT est une solution parmi d’autres. D’abord nos vieilles plateformes font toujours une bonne soupe ! Je veux parler ici de Qlik Talend ou les Informatica et consorts.

Et de rappeler encore que si le marché se consolide, que nous voilà arrivés à l’apogée de la Modern Data Stack , que nombre de propositions nouvelles existent. Par exemple, Apache Flink™ connaît une vraie remise en valeur, vous pouvez par exemple l’employer avec un Apache Hop™ : ça le fait !

En France nous avons Kestra  qui à sorti et sa version 1.0 et son LTS !  Certes, c’est un orchestrateur ! Il présente toutes les caractéristiques utiles à l’élaboration de vos flux ETL et de leur suivi. Qui on oubli ? Et bien, et bien nous pouvons parler de Starlake.ai , un français encore : une approche déclarative tout comme Kestra. C’est plus facile pour les LLM ! Ces derniers peuvent mieux vous aider que s’il s’agissait de glisser-déposer. Là aussi qu’à celà ne tienne : ça changera !

Et le changement c’est maintenant (elle est facile n’est-ce pas ?) ! On embauche moins de jeunes… Sous prétexte que l’IA va les remplacer… Et nous sommes dans un moment avec beaucoup d’attentisme… Qui a aidé les organisations à embrasser le web, l’ecommerce, le mobile, les réseaux sociaux ? Qui ? Ceux qui savaient l’utiliser ? Ceux qui s’y sont mis avant les autres ! Avant que l’IA ne porte ces fruits, il va falloir que l’organisation tout entière l’embrasse , comme le mail… Et s’il l’on doit gérer et parler aux données, les mettre en qualité ! Qui va faire ça l’IA, toute seule… Il faut lui donner les instructions, lui dire, lui redire, reformuler… Améliorer la réponse plus d’une fois pour être satisfait avec un résultat qui nous convient…

Tout ceci pour parler de cadre de traitement de données comme Daft , Pola-RS ou de Coco-Index ! Coco-Index est nouveau, ce qui est intéressant c’est qu’il sait traiter toutes sortes de documents ! Regarder dans les liens cet exemple pour directement aller tirer les données depuis des PDF et ranger les données dans Snowflake. Je crois bien que dbt-core n’y ait pas.








Les premières applications du quantique

Dans la première section, il a été indiqué que Goldman Sachs indiquait à quel point l’IA n’est pas encore tout à fait ce que l’on croit qu’il est ou qu’il sera ! Dans le même temps, le Quantique fait parler de lui. Sommes-nous à la croisée des chemins ?

OVHCloud  en tête, nous indique qu’en matière de sécurité on ne va jamais assez loin : générer des certificats SSL avec le quantique afin de parer aux attaques cyber ! Est-ce que ça signifie que les attaquants vont eux aussi avoir accès à du quantique ? Github  utilise aussi ce quantique ! Là encore pour la sécurité .

Pour répondre à la question posée : est-ce que les pirates vont disposer de machines quantiques ? Il y a des chances. En effet, tout comme le cloud, et plus récemment le GPU, des machines quantiques seront accessibles pour les cas d’usage spécifiques… Y compris la piraterie.

Google  tire sur tous les fronts. Ils viennent de prouver la reproductibilité d’un algorithme sur un cas d’usage réel. On a jamais été aussi proche de l’arrivée…







une architecture qui garantit LA souveraineté

Le débat fait rage : pourquoi aller à contre-courant du SaaS ? Pourquoi l’auto-déploiement, le OnPremise… ? 


Chez nous, la réponse est claire et elle se résume en un mot : SOUVERAINETÉ .

Nous construisons des solutions pour les entreprises. Les organisations ont des exigences cruciales en matière de contrôle et de confidentialité des données.

La réalité du marché est qu’une grande partie des données est traitée en dehors des clouds publics : environ 75 % de toutes les données sont encore traitées en On-Premise ou dans des clouds privés.

C’est pourquoi nous mettons l’accent sur une architecture qui garantit cette souveraineté .

Nous combinons la puissance de Dremio et d’Apache Iceberg™ pour offrir un OpenDataLakehouse qui fonctionne n’importe où — Cloud, OnPremise ou Hybride ou MultiCloud

Dremio  apporte la couche d’analyse ultra-rapide et l’abstraction nécessaire.

Apache Iceberg™ garantit un format de table ouvert, sans verrouillage fournisseur, et la fiabilité des transactions (ACID).

Notre mission : résoudre les problèmes réels des entreprises. Ne pas créer le nouvel outil brillant qui profite à tout le monde… sauf au client.


Le contrôle de vos données doit rester entre vos mains.  Merci à Herbert NYEMBO, de l’Urssaf Caisse nationale de nous rappeler cette nécessité de souveraineté lors du Dremio World Tour … en photo en tête de cet article.





Le lakehouse entraîne toute la plateforme de données

Revenons à nouveau sur ce sujet ! Le lakehouse centralise stockage, gouvernance et accès en un socle unique pour analytics, ML, ingestion temps réel et reporting, réduisant les silos et facilitant la réutilisation des mêmes données et métadonnées.

Bénéfices opérationnels :  Il combine coût de stockage faible, cohérence transactionnelle et performances analytiques, rendant les transformations traçables, standardisant les tests et accélérant les cycles d’expérimentation.

Choix d’infrastructure :
SaaS ou On‑premise n’est pas la vraie question : choisir doit dépendre des contraintes métier, de souveraineté, latence et intégration, et surtout de la capacité à industrialiser le déploiement et l’exploitation.

Organisation et gouvernance :
Réussir exige rôles clairs, automatisation, SLAs, APIs robustes et formation continue. Les outils déclaratifs et l’IA accélèrent, mais nécessitent gouvernance et compétences humaines pour produire des résultats fiables.








LOGICIELS

   D ebezium 3.3.0.Final

Debezium 3.3.0.Final apporte le support de Kafka 4.1, une extension Quarkus améliorée, exactly‑once pour les connecteurs, intégrations OpenLineage et divers correctifs de stabilité pour de nombreux connecteurs.



    Dremio 26.0.7  

Dremio 26.0.7 inclut corrections de performances, fiabilisation des opérations de métadonnées Iceberg, améliorations WLM et correctifs pour les sauvegardes et le rafraîchissement des métadonnées.



    Qlik Cloud / qlik-cli  

Qlik Cloud / qlik-cli (octobre 2025) propose le récap produit d’octobre et la mise à jour qlik-cli 2.28.0 avec nouvelles commandes API, améliorations reporting et optimisations d’administration Cloud.



    Tableau October 2025 Release

La release d’octobre 2025 de Tableau active Inspector pour des insights proactifs, étend les intégrations (Slack / Tableau Next) et apporte des nouveautés en visualisation et forecasting temps‑série.



    dbt (dbt Labs / dbt‑core)

En octobre 2025 dbt annonce dbt Fusion, dbt Agents et des pré‑releases dbt‑core 1.11.x avec avancées sur la gouvernance métrique et assistants AI pour accompagner les workflows.



    Fivetran Product Update  

Les updates d’octobre 2025 de Fivetran introduisent de nouveaux lite connectors, le Proxy Agent GA pour sécuriser les connexions réseau et plusieurs mises à jour de schémas et connectors.



    Databricks DLT / Lakeflow

Release notes d’octobre 2025 pour DLT / Lakeflow : mises à jour des canaux runtime, meilleure intégration Unity Catalog et optimisations runtime pour pipelines déclaratifs.



    Apache Flink™

Octobre 2025 voit des annonces majeures pour Apache Flink, dont la sortie Apache Flink Agents 0.1.0 et des activités autour de la série 2.x avec un feature freeze planifié fin octobre.



    CocoIndex

Le changelog du 19 octobre 2025 pour CocoIndex détaille améliorations sur l’exécution durable, la reprise automatique des lignes échouées, la résilience et les capacités d’ingestion et doc‑parsing pour pipelines AI‑native.



    Polars PyPI 1.34.0  

Polars 1.34.0 sur PyPI publié le 2 octobre 2025 apporte améliorations de performances (streaming, group_by, parsing) et optimisations ciblées pour charges analytiques.



    Apache Superset™

En octobre 2025 Superset publie correctifs et patchs de sécurité (résolution de CVEs pour la série 5.x) et avance le processus de release/RC pour stabiliser l’UX et la sécurité.