L’Actualité de la donnée de Novembre 2025

Ce mois ci plusieurs sollicitations m’ont  rappelé que la Commission Européenne avait sorti IA Act ! Vous connaissez la RGPD ! N’est-ce pas ? Et bien maintenant il va falloir justifier avec les données.

Au cahier des traitements, il faut maintenant présenter les données associées. C’est l’IA Act. Je vous l’ai fait très courte… Bon ! Ce n’est pas tout à fait en place. La guerre commerciale avec les États-Unis pousse l’Europe à assouplir et repousser un peu l’échéance.

Ce mois-ci beaucoup d’éditeurs ont intégré les IA (LLM) directement dans leurs logiciels. C’est  le cas de Google, qui avec les performances de Gemini 3, fait trembler OpenAI, alors même que l’entreprise de Mountain View sort un IDE, Antigravity, comme Zed, justement avec un module pour dialoguer avec IA afin de générer vos applications.

Ce que je retiens de ce mois-ci, c’est l’emballement ! Alors même que l’éclatement de la bulle est crainte, que l’on dit que Nvidia est menacé, celui-ci sort des meilleurs résultats que prévus ! Et que dire de Databricks et ses tours de table…

Ce mois-ci, je voudrais que vous reteniez que, vous pouvez vous faire assister par l’IA à toutes les étapes de vos projets de données ! La première question qui vous vient : à quoi sert alors une ESN comme Synaltic ? À vous aider à prendre de la hauteur par la souveraineté des données ! Anticiper la feuille de route des éditeurs, vous rapprocher des communautés open source.

Il y a toujours de bonnes nouvelles ! Dans cette réinvention de l’ESN, tel l’artisanat, ou le DJ, qui produit avec toutes ces influences, avec une connaissance pointue et affûté par sa passion, notons la sortie d’un Modèle de LLM, SAP-RPT-1 de SAP avec une valeur ajoutée très singulière. Ce modèle est très bon pour réaliser des prédictions ! Et l’avantage c’est que vous n’avez pas à programmer de chaîne de machine learning !








La souveraineté est une nécessité !

En tant qu’ESN, nous avons bien noté que vous avez repris la main. La France est cet endroit où l’on passe par une prestation pour faire avancer les projets informatiques ! Ailleurs, on embauche et on se dit merci quand ça prend fin.

Notre position où nous vous accompagnons, vous connaissons, partageons vos contraintes, et en même temps coincé par les modèles économiques de nos partenaires éditeurs que nous ne maîtrisons pas, ébranlés par ces mêmes partenaires éditeurs qui s’accaparent de plus en plus le services, autant d’éléments qui nous poussent, nous aussi, ESN, à prendre notre part dans cette souveraineté.

Clients, vous aussi, vous faites partie de la solution. Reprenez la main sur votre système d’information ! Rappelez-vous que la complexité doit toujours être absorbée où qu’elle soit ! Mes derniers posts ont évoqués à quel point la donnée avait sa complexité.

Sur mon fil LinkedIn je n’arrête plus de voir cette publicité de Fivetran / Databricks au slogan éloquent : “The dirty secret of AI is that the hardest part is the data”. Tellement ravi que d’autres que nous l’affirment !

Alors où stocker les données ? Où stocker les données de santé. Doctolib, Allan, EDF, SNCF, La Poste, la RATP, Airbus ! Se défaire de nos mauvaises habitudes n’a rien d’évident.

Heureusement, on a l’interopérabilité sur l’infrastructure avec Kubernetes et Apache Iceberg™ pour la donnée ! Et dans les deux cas la gestion même de la dette technique est au cœur de leurs propositions de valeur.









MES REFLEXIONS AUTOUR DE KUBERNETES

Kubernetes, tout le monde en parle… mais combien savent vraiment l’utiliser pour transformer leur plateforme data ?

Dans cette série de 5 articles, je vous propose un voyage clair et pragmatique :

#1 Le paradoxe français face à Kubernetes – pourquoi l’adoption reste encore timide.

#2 L’architecture Kubernetes – comment elle bouleverse radicalement nos plateformes data.

#3 Le ROI avec des chiffres réels – comparaisons objectives pour mesurer la valeur.

#4 Une implémentation concrète – une stack lakehouse complète déployée pas à pas.

#5 Une roadmap pragmatique – adaptée au contexte français pour avancer sans se perdre.

Mon objectif est simple : démystifier Kubernetes et montrer qu’il n’est pas réservé aux géants du cloud. Avec les bons repères, même une équipe data de taille moyenne peut en tirer parti.




Analyse dès la conception : la base de données en pleine mutatioN !

2026 ! Les budgets ont été gelés en 2025. Vous avez pris du retard dans votre re-plaformisation. Finalement le cloud. Finalement Databricks. Finalement Snowflake. Finalement Microsoft Fabric ! Le sujet de la souveraineté fait rage, les premiers retours sans les mastodontes apparaissent.

Les solutions pratiques et pragmatiques, prêtes pour l’IA Act sont là… La modernisation de vos applications vous y pensez et c’est maintenant. Commencez par choisir la base de données, selon neuf critères ? En 2026, une base HATP ? Une base européenne : CedarDB ? Vos tables transactionnelles ont leur miroir analytique, aucune crainte d’asseoir l’instance de la base de production ! La base est prévue pour ! Et votre ORM ? A-t-il intégré l’analytique dès la conception des entités transactionnelles ?

De l’analytique aux données non structurées, il n’y a qu’un pas. Dremio vous propose d’interroger vos documents PDF, vos images, vos audios, fédérées aux données opérationnelles. Extraire des données des compte-rendu d’activité PDF et les croiser avec votre facturation issue de votre solution de gestion. On s’en reparle…

Retenez que vous pouvez prévoir l’analytique dès la conception.










Automatiser, c’est de l’investissement !

Depuis combien d’années Talend dispose-t-il d’outils pour la génération de tests ? Depuis combien d’années Talend dispose-t-il de solutions CI / CD ? Nombre de clients ne s’y sont pas mis ! Aujourd’hui, la question qui est posée : comment moderniser ces flux ETL ? Une solution qui intègre un agent intelligent ? Vous voulez votre flux “as code” et votre plateforme aussi ! L’ingénieur de données doit fortement s’inspirer de l’ingénieur logiciel.

La couche sémantique est en cours de standardisation. Le projet Open Semantic Interchange, guidé par Snowflake, DBT / Fivetran, Tableau et plein d’autres, vise à standardiser la couche sémantique. Une fois encore ce sont les agents IA qui sont mis en avant ! Mais l’idée est séduisante : décrire une fois la restructuration des données pour la rendre intelligible à différents outils analytiques…

Avec la standardisation des data contrats un nouveau pas est franchi pour adopter les pratiques du développement logiciel au sein des pratiques de l’ingénierie des données. Nous avons déjà évoqué l’utilité d’une gestion à la git pour les données à la fois vis de l’IA Act mais aussi pour une meilleure explicabilité, une meilleure fiabilité de vos processus de traitements de données.









Fin 2025 : les LLM partout, de la recherche au marché

En cette belle fin d’année https://livebench.ai/#/ nous propose un super tableau qui permet de choisir le meilleur LLM en fonction de son besoin !

Les LLM sont partout, jusqu’à l’évaluation des papiers universitaires. Andrew Ng vient de sortir une nouvelle plateforme assez bluffante https://paperreview.ai/ qui permet d’avoir une évaluation de son papier comme le ferait un peer review d’une des plus grandes conférences. Le modèle propose de véritables axes d’amélioration intéressants (même s’il faut tout de même faire un peu de tri), qui varient en fonction de la conférence. C’est vraiment un excellent outil pour détecter les failles ou erreurs dans ses papiers.

Gemini 3 (de Google) est sorti il y a peu et est facilement accessible sur Google AI Studio, mais comment en tirer le meilleur ? C’est à cette question que cet article sur le prompting dédié à ce modèle cherche à répondre :
https://www.philschmid.de/gemini-3-prompt-practices

Anthropic nous propose également un article intéressant expliquant comment diminuer le nombre de tokens consommés par les agents IA lors de l’interaction avec les serveurs MCP
https://www.anthropic.com/engineering/code-execution-with-mcp.anthropic

En cette période où le mot récession commence à brûler de nombreux esprits et où les yeux sont rivés sur les résultats de Nvidia, cet article creuse selon un nouvel axe l’influence de l’IA sur la future croissance du PIB :
https://windowsontheory.org/2025/11/04/thoughts-by-a-non-economist-on-ai-and-economics/

Enfin, sur un ton plus léger, les modèles de langage sont peut-être d’excellents compagnons pour programmer, mais ils ne sont pas tout-puissants, comme le prouvent leurs résultats après 1 mois de trading autonome https://nof1.ai/ Cet exemple nous rappelle qu’il faut toujours rester critique quant au bon usage de l’IA.




LOGICIELS

  Dremio 26.1.0

Dremio 26.1.0 ajoute un agent IA pour SQL, facturation à l’usage et support des comptes de service (13 novembre 2025).



Talend Studio 8.0.1 R2025-11

Mise à jour cumulative mensuelle incluant correctifs de sécurité, compatibilité Java 17 et optimisation du moteur Maven.



Tableau 2025.2

Nouvelles fonctionnalités avec serveur MCP, intégration agentique et modèles sémantiques publiés.



Power BI

Mise à jour avec Copilot mobile autonome, nouvelles options de visualisation et connecteurs Spark/Impala (18 novembre 2025).



Apache Superset 6.0.0rc4

Pré-release candidate avec améliorations de l’interface SQL Lab et nouvelles options de connectivité.



Apache Airflow 3.1.2 et 3.1.3

Correctifs de stabilité et améliorations de la gestion des DAGs (5 et 13 novembre 2025).



Apache Polaris

Contributions communautaires sur la gouvernance et intégration avec Arrow (début novembre 2025).



Apache Flink 2.1.1

Correctifs de sécurité et stabilité pour la branche 2.1 (10 novembre 2025).



Debezium 3.4.0.Beta1

Pré-version avec support des modes d’authentification étendus et conversion de fuseaux horaires (1er décembre 2025).



Mage AI 0.9.78 “Frankenstein release”

Améliorations des workspaces Docker, pipelines PostgreSQL en streaming et support Iceberg + Glue (13 novembre 2025).



Kestra 1.1

Feature release avec nouvelles fonctionnalités de gestion des workflows (4 novembre 2025).



dbt Core 1.10.15

Version stable avec correctifs de parsing et compatibilité améliorée (12 novembre 2025).



Fivetran

Ajout du support de Google Cloud Storage comme destination data lake et SDK v2.3.5 (3 novembre 2025).