L’Actualité de la donnée de Décembre 2025

Alors que 2026 démarre à peine et que chacun reprend son souffle après les fêtes, l’actualité de la donnée nous rappelle déjà qu’elle ne connaît aucun répit.

On a le budget ! Ouff ! Yann LeCun est de retour au pays ! Mistral ouvre un bureau en Suisse !

La course continue autour de l’IA ! Naveen Rao, lance Unconventional AI, et lève 475 millions de dollars afin de construire un ordinateur avec une nouvelle architecture de calcul dédiée à l’IA, pensée pour être « aussi efficace que la biologie » sur le plan énergétique. Ça bouge très vite.

Linus Torvalds, père de Linux, pense que l’IA, au-delà du buzz ambiant, va être très utile pour maintenir du code, y compris celui du système d’exploitation ouvert. Nvidia est sur tous les fronts : inventer un nouveau disque SSD pour tenir la cadence vis à vis des débits nécessaires pour répondre aux charges de travail de l’IA. Mais ce n’est pas tout ! Nvidia s’attaque aux modèles LLM open source ! En effet, Meta s’est retiré de cette bataille sur l’open source.

Cocorico ! BlaBlaCar nous laisse entrevoir à quel point le métier de gestion de données est sur de nouveaux rails ! Est-ce que le métier du Data Engineering va connaître un reset en 2026 ?









IA & Data Engineering

L’année 2025 aura offert un certain attentisme de la plupart des acteurs. Qu’attend-on ? À l’approche de 2026, on observe en France le mouvement vu outre atlantique : il devient temps de remercier des salariés… Ici, ce n’est pas encore la faute de l’IA… En tout cas on n’en parle pas en ces termes. A la radio, si si ! C’est le cas pour par exemple des traducteurs ! Pouvez-vous relire la traduction de “Claudine” avant l’envoi pour impression du livre ?

Le monde du data engineering ne sera pas épargné ! Et ça va vite ! Airbyte a sorti la collaboration avec l’IA pour réaliser des connecteurs custom ! Google a sorti une solution qui intègre tous ses outils pour data engineers et on le pilote avec l’IA ! Il génère vos pipelines ! Heureusement, le data ingénieur doit encore être là pour valider.

Toutes les choses déjà en place doivent être maintenues ! Certes ! Mais celui qui a compris qu’il y a une forme de “reset” du métier va pouvoir aller plus vite dans les projets. Et être plus productif, plus efficient. Ce “reset” signifie aussi un changement radical de la pratique. Est-ce qu’à l’âge de l’IA la modélisation dimensionnelle reste toujours d’actualité ? Est-il finalement l’heure d’embrasser les bases graphes ? Comment me former ou me reformer ! A quelle vitesse les organisations vont adopter ce type de pratique ? Apache Iceberg toujours utile ?








MES REFLEXIONS AUTOUR DE KUBERNETES

Kubernetes, tout le monde en parle… mais combien savent vraiment l’utiliser pour transformer leur plateforme data ?

Dans cette série de 5 articles, je vous propose un voyage clair et pragmatique :

#1 Le paradoxe français face à Kubernetes – pourquoi l’adoption reste encore timide.

#2 L’architecture Kubernetes – comment elle bouleverse radicalement nos plateformes data.

#3 Le ROI avec des chiffres réels – comparaisons objectives pour mesurer la valeur.

#4 Une implémentation concrète – une stack lakehouse complète déployée pas à pas.

#5 Une roadmap pragmatique – adaptée au contexte français pour avancer sans se perdre.

Mon objectif est simple : démystifier Kubernetes et montrer qu’il n’est pas réservé aux géants du cloud. Avec les bons repères, même une équipe data de taille moyenne peut en tirer parti.




EN 2026, La route est grande ouverte pour PostgreSQL

Quand j’ai démarré, j’ai acheté un livre sur PostgreSQL. Et déjà à l’époque il était question de quitter Oracle pour PostgreSQL !

PostgreSQL connaît un élan qui ne faiblit pas ! Le protocole est aussi largement adopté par les nouvelles offres de bases de données ! La quantité d’extensions est tout aussi impressionnante ! Vous pouvez TOUT faire avec PostgreSQL !

Si la stack LAMP a propulsé MySQL ! Finalement son acquisition par Oracle pousse aujourd’hui nombre d’acteurs vers PostgreSQL. En tout cas, PostgreSQL s’inscrit dans les outils utiles à la construction d’une souveraineté. Comme nous en avons déjà parlé, il est désormais prêt pour votre data lakehouse.









Local first / scale in

Si l’IA tient le haut de l’actualité, DuckDB nous secoue tout autant !

Il est clair que nous ne sommes pas tous ces grandes boîtes américaines … et c’est la brèche dans laquelle DuckDB s’est lancé ! Et il faut reconnaître que c’est tellement vrai. DuckDB sait se connecter à toutes vos bases, tous vos types de fichiers, y compris Apache Iceberg… Il sait consolider des grands volumes de données ! Il est meilleur que Spark sur un seul nœud ! Et c’est normal : ce sont deux architectures différentes.

Les performances de l’outil séduisent ! La communauté Talend se mobilise et sort une série d’une dizaine de composants.











Fin 2025 : ENCORE DES ANNONCES DANS LE DOMAINE DE L’IA !

Décembre a été marqué par plusieurs annonces dans le domaine de l’IA. OpenAI a lancé GPT‑5.2, une version orientée vers les tâches professionnelles, les agents longue durée et les workflows complexes, avec des améliorations notables en raisonnement et en vision. Google a poursuivi la montée en puissance de son écosystème avec Gemini 3 Flash, mis en avant dans plusieurs récapitulatifs de fin d’année comme un modèle optimisé pour la vitesse et les usages interactifs.

Du côté de l’open source, Alibaba a publié Qwen‑Image‑2512, un modèle dédié à la génération d’images contenant du texte, pensé pour les usages d’entreprise et les mises en page complexes. Anthropic a également retenu l’attention avec Claude Opus 4.5, un modèle qui a surpassé tous les candidats humains lors de tests internes d’ingénierie, établissant un nouveau niveau de performance pour les modèles généralistes.

Enfin, plusieurs analyses de fin d’année soulignent une tendance forte : l’IA continue de s’intégrer dans les outils métiers, les agents deviennent plus fiables, et les plateformes cloud ajustent leurs offres pour réduire les coûts d’inférence, signe que la bataille de l’optimisation est désormais pleinement engagée.









LOGICIELS

 Talend Studio 8.0.1 R2025-12 

Mise à jour cumulative mensuelle incluant tous les correctifs précédents, support Java 17 obligatoire, améliorations de stabilité et compatibilité avec Talend Runtime 8.0.1-R2025-02-RT.


 Apache Superset 6.0.0 

Version majeure avec améliorations de visualisation, mises à jour de sécurité et évolutions de l’architecture interne.


 Apache Airflow 3.1.5 

Correctifs importants : gestion des tokens invalides, stabilité des DAGs, améliorations du LocalExecutor et corrections sur les hash DAG.


 Debezium 3.4.0.Final 

Version mineure majeure : plus de 125 améliorations, support Kafka 4.1.1, renforcement OpenLineage, migration JUnit 5, optimisations SQL Server multi‑tâches.


 Power BI 

Suppression de la limitation du drillthrough dans Excel pour les modèles Direct Lake et DirectQuery, améliorations Fabric-first.


 Apache Flink 2.2.0 

Nouvelle version majeure intégrant ML_PREDICT pour l’inférence LLM, VECTOR_SEARCH pour la similarité vectorielle, améliorations batch et PyFlink.


 dbt 

Mise à jour majeure : améliorations Fusion Engine, dbt Catalog, dbt MCP Server, sortie de dbt Core 1.11 et compatibilité renforcée.


 Fivetran

Mises à jour du SDK (2.4.0 2.4.2), augmentation de la taille gRPC, améliorations du debugger, mises à jour API Playground.


 Polaris

Support des commentaires automatiques sur pull requests GitHub, import enrichi des métadonnées de triage, améliorations SAST/SCA.


 Dremio 25.2.21 

Correctifs importants : erreurs Elasticsearch, support Snowflake key‑pair avec propriétés custom, corrections DECIMAL/VARBINARY, stabilité hash join.