L’Actualité de la donnée de Février 2026

La souveraineté par les données est désormais une réalité. Depuis que nous nous sommes lancés en 2004, nous nous sommes accrochés au fait que les organisations, avec les femmes et les hommes qui la composaient, devaient maîtriser la donnée. Plus tard, il est apparu que c’était le nouvel or noir ! Et, dans le même temps, le discours ambiant poussait à abandonner son infrastructure en propre pour le cloud. En plus de perdre une indépendance, il avait été dit que chez les plus grands, de l’autre côté de l’Atlantique, c’était mieux ! Nous attirions toujours l’attention de nos clients pour leur dire de maîtriser leurs données où qu’elles soient, quel qu’en soit leurs choix.

L’IA nous a subitement rappelé que c’est bien la donnée qui est au centre. Sa maîtrise par toute l’organisation s’inscrit aujourd’hui dans une toute nouvelle dimension, car en finalité, ce dont il est question ici : c’est définitivement la structuration des connaissances. Nous y sommes donc, dans cette société de la connaissance. Ce mois-ci, c’est l’État qui nous rappelle cette souveraineté par les données en quittant Microsoft pour sa plateforme de données de santé. Et plusieurs interviews de grands dirigeants français montrent que nous sommes en train de tourner le dos à des années de naïveté.

Toutes nos données, nous avons eu besoin de les stocker. HDFS nous avait montré comment stocker, mais la vraie révolution vient, il faut le reconnaître, d’AWS et de son fameux S3. Il est devenu un standard de fait. Comment a-t-il été bâti ? Nombre d’acteurs ont embrassé le protocole. Mais allons voir comment cela s’est passé chez son créateur.

La donnée toujours au centre avec les renouvellements d’ERP : Exxon Mobil abandonne ses “développements spécifiques SAP”, soit 65 millions de lignes de code, avec en plus l’ambition d’unifier les processus et pratiques afin qu’un seul ERP couvre toute l’organisation, et ce mondialement. À la clé : 15 milliards d’économies ! Là, je me dis que Data Mesh en prend un coup !

Ouf ! On n’a pas parlé de LLM, IA… Oh, juste un peu. Mais ne passer pas à côté de ce que font ces agents intelligents : Claude crée un compilateur C, identifie des failles critiques… Avez-vous bien mesuré ce que ces outils vont vous aider à faire ?

deS plateformeS de données qui Nous ressemble ENFIN !

Je voudrais vous donner plus ! Plus d’articles de blog. Plus de retours d’expérience face à nos projets en cours. Nous ne prenons pas le temps de vous raconter toutes nos aventures.

Vous vous doutez bien que nous aussi chez Synaltic nous utilisons de plus en plus cette “foutue” IA. Beaucoup de discours tentent de la discréditer. Néanmoins, de plus en plus de personnes osent dire ce qu’elles en font. Et il n’y a pas que Anthropic qui montre les capacités de ses derniers modèles en codant un compilateur C et en faisant la démonstration afin de compiler le kernel Linux pleinement fonctionnel. Effectivement, une telle dextérité des modèles pose nombre de questions.

Chez Synaltic, nous l’exploitons afin d’améliorer des logiciels. Nous l’utilisons pour construire les plateformes de données. Nous gagnons du temps dans l’étape d’intégration. Nous exploitons toute notre expertise dans les différentes solutions afin de construire des plateformes complètement personnalisées pour nos clients. Ce qui est remarquable, c’est l’omnipotence des modèles. Ils connaissent tellement de choses. Il est aussi vrai qu’il faille être derrière eux. Nous ne leur donnons pas les clés… Qu’en pensez-vous ? Nous construisons des plateformes de données, on prem, dans le cloud, en hybrid… Et on peut le faire plus vite avec une vision toujours plus large.

Voyez ce que d’autres en font !

La bourse nous questionne déjà quant à repenser la manière dont nous envisageons l’IA.

La French Data Stack

YCombinator est un grand pourvoyeur de nouvelles solutions. Saluons qu’en France, nous avons nous aussi des challengers ! Quelle meilleure réponse pour la souveraineté par les données que de  renouveler l’offre de solutions.

Business Objects, Talend, Semarchy sont bien nés ici ! Vous pourriez objecter qu’il y a déjà tant de solutions : la fameuse Modern Data Stack vous interroge assez.

Pourquoi de nouvelles technologies ? Parce qu’elles sont créées en 2025/26 avec une vision renouvelée et en prise avec les enjeux du moment ! Sans doute que vous connaissez vous-mêmes de nouvelles solutions. Venez nous les partager.

En voilà quelques-unes :

  • Fluhoms, une solution ETL qui promet un accès simplifié à vos flux de transformation de données. Le cœur de ce type de solution est le mapping et la performance. Fluhoms et ses concepteurs cherchent à combler une expérience utilisateur simplifiée avec une tarification claire.

  • Starlake : est une réponse très originale à l’explosion des données et des trop nombreuses solutions qui existent. Par ailleurs, nombre de ces solutions vous sont imposées par vos propres fournisseurs ! Eh bien, Starlake sait s’inscrire au milieu de tout votre système et vous guider dans votre consolidation de données et le tout en low code tout en répondant à vos enjeux d’IA. Et j’apprécie son ouverture. Il est open source.

  • Nao : L’IA comme point de départ d’une nouvelle expérience dans le data engineering ! Et si l’IA vous aidait dans la conception de vos modèles de données. Le socle standard ici c’est dbt.

  • Tangram OS : ici aussi une réponse originale ! Le catalogue de données au centre ! Et Apache Iceberg la fondation. Toute la solution cadre la construction tant de vos flux de données que d’applications. C’est un “control plane” pour la data prêt à l’emploi pour l’IA.

Réjouissons-nous de toutes ces initiatives. Venez nous faire connaître ces solutions  nouvelle génération qui auront un impact sur les systèmes d’information.

La donnée tabulaire n’est plus le seul terrain de jeu des Data Engineers

Nous sommes loin d’avoir fini de découvrir comment l’IA transforme déjà chaque recoin du data engineering.

Néanmoins, il faut que les DSI, les équipes data prennent conscience que ce métier évolue : la profondeur, la largeur, les types de données que l’on considère dans le data engineering n’a plus de frontières !

Les données métiers sont partout ! Dans les vidéos ! Dans les enregistrements sonores. Le XML, le JSON, le CSV, les bases de données, le NoSQL ne sont plus les seules sources où vous tirerez vos données tant vis-à -vis de vos flux d’intégration de données ou de consolidation.

Un exemple simple : tous les bons de livraison papiers que vous ne savez pas exploiter aujourd’hui ! Il est sans doute temps de rapprocher ce que vous avez effectivement reçu et ce que votre fournisseur vous facture, n’est-ce pas ?

POLARIS CATALOG DEVIENT TLP !

Il y a des jalons techniques qui passent inaperçus, et puis il y en a d’autres qui méritent qu’on s’arrête. La graduation d’Apache Polaris™ en Top-Level Project (TLP) à la Apache Software Foundation est de ceux-là. Pas parce que c’est une formalité administrative, mais parce que ce que Polaris représente touche à quelque chose de fondamental : la capacité des organisations à garder la maîtrise de leurs données, de leur architecture, et de leur avenir technologique.

Apache Polaris™ est né d’un geste rare : en 2024, Dremio et Snowflake ont offert leur code à la Fondation Apache pour créer un catalogue Iceberg réellement ouvert. En dix-huit mois, la communauté a livré six versions, fédéré plus d’une centaine de contributeurs et bâti une gouvernance indépendante réunissant Dremio, Snowflake, Google, Microsoft, Confluent, Bloomberg et d’autres.

Polaris apporte une réponse directe au vendor lock‑in : un catalogue open source, déployable partout, qui centralise les métadonnées Iceberg sans dépendre d’un cloud ou d’un moteur. Il unifie les permissions, élimine les dérives de schémas et permet de changer de moteur ou de stockage sans migration complexe.

Avec son credential vending, son support on‑prem, son RBAC avancé et sa neutralité vis‑à‑vis du stockage, Polaris devient une véritable architecture de souveraineté. La graduation Apache confirme sa maturité : le projet vivra indépendamment de ses fondateurs.

Pour les architectes data, c’est désormais un standard fiable pour construire des plateformes durables, ouvertes et souveraines.

Découvrez l’agent IA de Dremio

L’agent de Dremio est un assistant natif alimenté par l’IA. Il fournit une interface conversationnelle pour explorer, transformer et visualiser des données.

Entièrement intégré à votre catalogue de données, il vous permet de découvrir des données, de poser des questions, de créer des visualisations et d’analyser des performances en langage naturel, tout en respectant toutes les politiques de gouvernance.

Certains vous diront que vous n’avez plus besoin de dashboards : les agents généreront vos graphiques à la demande et répondront à toutes vos questions. Et il est vrai que certains usages vont être bousculés.

Cependant une question mérite d’être posée : prendriez‑vous vraiment la route sans tableau de bord ? Comment être sûr d’avoir posé toutes les bonnes questions ? Comment se rassurer en un coup d’œil ? Va‑t‑on réellement se contenter d’interroger un agent : “Dis‑moi si tout va bien” et considérer cela comme un contrôle suffisant ?

 Focus IA : Agents, modèles géants et impacts économique

Infrastructure pour Agents IA
AgentField est une infrastructure open source inspirée de Kubernetes, conçue pour déployer des agents IA comme des microservices scalables. Elle offre routage intelligent, exécution asynchrone, mémoire persistante avec recherche vectorielle, observabilité native et identité cryptographique pour une traçabilité prouvable.
https://github.com/Agent-Field/agentfield

Modèle OCR Avancé GLM-OCR
GLM-OCR (zai-org sur Hugging Face) excelle dans l’extraction de texte à partir de documents complexes, idéal pour les pipelines data automatisés.
https://huggingface.co/zai-org/GLM-OCR

Automatisation des Illustrations Académiques
PaperBanana est un framework agentique qui automatise la génération d’illustrations publication-ready pour articles scientifiques en IA. Il excelle pour les graphiques statistiques, accélérant les workflows de recherche.
https://arxiv.org/abs/2601.23265

L’enthousiasme pour les modèles chinois
Z.ai lance GLM-5, un modèle MoE de 744 milliards de paramètres, optimisé pour tâches agentiques longues et complexes. Il rivalise avec les meilleurs modèles sur la plupart des benchmark.

Après l’annonce de GLM-5, l’action Zhipu AI bondit de 30% le 11 février, clôturant à 402 HKD le 12/02, portant la hausse à environ +94% sur 5 jours. Ce raz-de-marée reflète l’enthousiasme pour les modèles chinois.
https://z.ai/blog/glm-5

LOGICIELS

   Apache Airflow® 3.0.2   

Stabilisation du scheduler nouvelle génération, support officiel de Python 3.13, améliorations sur les deferrable operators et montée en performance du Triggerer.

   Apache Flink™ 2.0.3   

Optimisations du runtime streaming, amélioration du checkpointing incrémental et stabilisation du support Iceberg.

   Apache Superset™ 4.1.0   

Refonte du cache, amélioration du mode Dashboard Draft, support étendu des datasets Iceberg et optimisation du moteur de charting ECharts.

   Apache Iceberg™ 2.1.1   

Correctifs sur les row-level deletes, optimisation des manifests et amélioration du format de métadonnées pour les tables larges.

   Polaris Catalog™ 1.3.0   

Support complet des transactions multi‑tables, amélioration du time‑travel et compatibilité renforcée avec Iceberg 2.1.

   Talend Studio 8.1.0 R2026‑02   

Moteur de build plus rapide, compatibilité Java 21, connecteurs Snowflake & BigQuery renforcés.

   Talaxie 0.9.4   

Amélioration du moteur de lineage, intégration native avec dbt Core 2.x et optimisation du graphe de dépendances.

   Tableau 2026.1   

Amélioration du moteur VizQL, nouveaux connecteurs Iceberg & Delta, renforcement des capacités Explain Data.

   Power BI   

Nouveau semantic model unifié, optimisation du DirectLake, améliorations Dataflows Gen2.

   dbt Core 2.1.0   

Nouveau parser SQL plus rapide, support complet Iceberg v2, tests unitaires améliorés.

   Fivetran   

Nouveaux connecteurs SAP améliorés, optimisation BigQuery & Snowflake, Metadata API v2.

   Kestra 0.22.0   

Amélioration du moteur d’orchestration, nouveaux plugins Iceberg & DuckDB, scheduler distribué renforcé.

   Dremio 27.0.0 

Nouveau moteur Reflections v3, accélération Iceberg, support Apache Paimon, sécurité OAuth2 renforcée.

   MageAI 1.12.0   

Refonte du moteur d’exécution, support natif Iceberg, monitoring amélioré, nouveaux blocs IA.

   Debezium 4.0.1.Final 

Correctifs PostgreSQL & SQL Server, meilleure gestion des schémas évolutifs, optimisation du buffering haute fréquence.