L’Actualité de la donnée de Mai 2025

Voilà bientôt 20 ans que le mathématicien britannique, M. Clive Humby, citait pour la première fois « Data is the new oil » ! Avec toutes ces années de recul, avec l’avènement des LLMs, il est clair pour tout le monde que les données sont le moteur de notre économie moderne. Ce qui nous ramène à un élément vital et essentiel d’un tel système : l’échange des données. Toute cette machinerie est soutenue par ces échanges de données. Tout ! Oui ! Nous avons les API, c’est vrai, cependant nous nous avons surtout des échanges plus massifs (pensez par exemple au monde de l’assurance, au monde des transports, à l’e-commerce…).

Dans le métier qui est le nôtre, secteur de l’ESN, nous exploitons beaucoup la notion de « projets », les dates, les jalons, l’échéance… Pourtant, nous sommes bien des cordonniers mal chaussés ! Nous n’avons pas de standard qui facilite les échanges de données de gestion de projets ! La belle affaire ! Alors ces jours-ci, j’ai salué l’initiative de Plane un nouvel éditeur dans la gestion de projet ! Il propose OWL, un cadre qui facilitera l’échange de données entre les plateformes de gestion de projet. Fini le verrouillage fournisseur ?

Saluons aussi l’interview du Président de Databricks, Ali Ghodsi, qui plaide et indique que l’industrie aurait trouvé son format universel pour les données ! Et vous savez lequel est-ce ? Apache Iceberg !

Des annonces nous en avons eu plein ! Aussi bien chez Snowflake que chez Databricks. Comme ils font, en ce moment, la pluie et le beau temps sur ce marché, on prête l’oreille… On me dit que ce ne sont que des annonces… et qu’il va falloir attendre un peu pour que les choses prennent forme plus concrètement.

Dremio n’est pas en reste car il fait savoir que sa plateforme pour la gestion de Lakehouse sait faire aussi bien que les autres, voire fait mieux… beaucoup mieux même.








La donnée est un métier

Chez Synaltic, nous avons commencé il y a plus de 20 ans ! Nous avons démarré sur les « couches hautes du système d’information » ERP, CRM, GED… Et ça en open source… Et comme beaucoup de boîte, on a pivoté ! La donnée nous a choisi 🙂 Aijourd’hui, tout le monde fait de la donnée, la donnée est le nouveau pétrole : normal, direz-vous !

En tout cas, M. Bill Inmon nous dit que nous ne l’avons pas assez lu ! Allez voir qui est ce monsieur et tout ce qu’il nous laissera. En effet, il n’y a pas de magie, vous devrez passer par une modélisation qui rend vos données intelligibles aux personnes qui en ont accès et bientôt aux machines qui vous avancent le travail et raccourcissent les cycles de décision.

Bien entendu, si ce métier à ses méthodes il a aussi ses technologies et elles évoluent… Faut suivre ! Il faut aussi gérer la dette technique… Il faut finalement revoir les pratiques et les méthodes.










Apache Iceberg : mieux prendre en compte la dette technique



Les technologies évoluent ! Vous aurez sans doute envie d’utiliser le dernier moteur de calcul ultra rapide en lieu et place de votre ancien moteur en fin de vie… C’est ce que nous disait Julien Le Dem au dernier Apache Iceberg France Community Meetup le 19 juin dernier à Paris 🙂

Oui, il y a de l’éducation, de l’évangélisation à faire pour expliquer comment Apache Iceberg va aider dans une meilleure gestion de votre dette technique ! Placez Iceberg au centre et faites graviter tout autour vos moteurs de calcul, votre stockage, les outils d’analyse, voire les formats de fichiers… Vous voilà dans une plateforme de données gérée durablement.

Tous les éditeurs ont une offre qui s’inscrit dans cette “gravitation” !

Snowflake célèbre l’open source et la version 3.0 de la spécification d’Iceberg ! Databricks se félicite du rapprochement entre Delta Lake et Apache Iceberg. DuckDB sort  Ducklake un nouveau format Table pour le data lakehouse. Certes, il répond aux développeurs, mais répond-il aux entreprises : à cette heure non ! Toutes les plateformes de streaming choisissent Apache Iceberg comme format de stockage tiers, y compris Redpanda !








Et si la base de données vivait son moment singulier ?

Nous disions plus haut que trop peu de gens avaient lu ce que Bill Inmon avait récemment partagé. Ce qu’il faut bien noter c’est que modéliser les données pour une application transactionnelle est à 100 lieues de la modélisation des mêmes données pour des analyses avec en plus comme vissée une grande intelligibilité par le métier.

Apache Iceberg, encore celui-là. Avec la version V3 et surtout les “Delete Vectors”, cela va faciliter encore plus le streaming, et il faut se rappeler qu’Iceberg offre déjà l’aspect ACID qui garantit les transactions. D’ici, il n’y a qu’un pas pour comprendre que le rapprochement entre batch et streaming est en route…  que les bases de données de type Hybride Transactional / Analytical Processing pourraient devenir la norme. Ce que Gartner a posé en 2014, que Singlestore a déjà fait, pourrait bien advenir au-dessus du lac ! À L’heure du LLM, de l’IA à toutes les sauces, les organisations vont avoir grand besoin de rationaliser leur architecture afin d’éviter la multiplication des briques.

A ce titre Debezium, la solution de Change Data Capture, s’invite dans la chaîne de l’IA, permettant son usage dès la captation des données.

Dans les produits de streaming, y compris via SQL (Apache Flink) on peut directement interroger un LLM sur les enregistrements que manipule la requête ! Gunnar Morling nous explique comment Apache Flink évolue pour répondre à ces enjeux là.

Une vision renouvelée du streaming progresse assurément. Il s’agit d’accumuler les mises à jour au lieu de simplement de juste « livrer les évènements ». Il faut maintenant faire connaissance avec ce type de solutions et s’assurer qu’elles répondent à vos cas d’usages.












évaluez la maturité de votre entreprise face à un projet de Data Lakehouse

Aujourd’hui, la transformation vers un Data Lakehouse devient incontournable pour les organisations qui souhaitent maximiser leurs capacités analytiques et moderniser leur infrastructure. Mais où en êtes-vous réellement ?


Pour répondre à cette question, Synaltic a conçu un questionnaire stratégique qui vous aidera à :
Structurer votre réflexion sur les enjeux d’un Data Lakehouse
Identifier les bons interlocuteurs pour mener votre projet à bien
Faire un état des lieux précis de votre maturité

Synaltic a créé ce document pour accompagner ces clients Dremio, cependant le questionnaire peut aussi s’adresser à d’autres solutions car les questions abordent les problématiques et enjeux communs et non les technologies. 

Ce questionnaire est pensé pour être complété en collaboration avec les équipes projet afin de garantir une vision commune et une approche méthodique. Certaines questions pourraient vous surprendre, mais elles sont essentielles pour éviter les angles morts et assurer une prise de décision éclairée.

Chercher à répondre à ces questions permet de mieux comprendre votre maturité et les compétences à renforcer dans votre équipe. Ce diagnostic pourra vous orienter vers des formations, des recrutements ou des partenaires adaptés.








À DÉCOUVRIR


IA, Apache Iceberg et Dremio

Partez à l’aventure et explorez tout ce qu’apporte le combo Dremio et Apache Iceberg à vos projets d’IA.



Apache Iceberg et pipeline IA

Découvrez comment, en quelques lignes de code, vous pouvez intégrer Apache Iceberg à vos pipelines d’IA et de ML.



Les limites cachées de l’intelligence artificielle

Apple démonte le mythe : les grands modèles ne « pensent » pas vraiment. Ils surjouent le raisonnement simple, s’effondrent sur le complexe, et brillent… entre les deux. Une plongée fascinante dans les limites cachées de l’intelligence artificielle.






LOGICIELS


Superset 5.0.0

Refonte majeure de l’interface, amélioration des performances, nouveaux composants UI, et meilleure accessibilité des filtres.



Apache Airflow 3.0.2

Correctifs critiques sur la gestion mémoire, compatibilité améliorée avec les DAGs complexes, et meilleure prise en charge des tâches différées.



Debezium 3.2.0.Beta2

Intégration OpenLineage, amélioration du LogMiner Oracle, support Kafka 4.x et nouvelles options de validation de connecteurs.



Elasticsearch 9.0.3

Optimisation du threadpool, support des vecteurs clairsemés, et correctifs sur les agrégations, la sécurité et les snapshots.



Tableau 2025.2

Nouveaux types de graphiques avec Show Me 2.0, filtres dynamiques sur cartes, intégration Google Workspace et fonctionnalités agentiques.



MariaDB 10.11.13

Corrections de vulnérabilités, amélioration de la gestion des variables système et compatibilité renforcée avec Galera 26.4.22.