L’Actualité de la donnée de Mars 2025

Wouaaah… Est-ce que l’on arrive à réfléchir avec un tel brouhaha ? Tous les jours des annonces qui sortent tellement du cadre ! On a cette impression bizarre de toujours et avant tout penser par l’absurde. Dans cette énième et nouvelle réalité, ne pourrait-on pas être “débranchés numériquement” ? Vers quelles solutions se retournerait-on alors ? Bon pas de panique on a le Secnum Cloud qui nous donne un peu d’espoir. Cependant la question demeure : vers quelles solutions se tourner ?


Le monde est complexe. La nuance est partout. Le ratio « bénéfice/risque » existe. Autant de notions qui réclament l’entraînement de l’intellect. Nous allons avoir besoin de muscler le cerveau face à l’IA. Nos enfants aussi vont avoir besoin de muscler ce cerveau. Peut-être pour devenir data ingénieur ?










évolution des bases de données sur les 10 à 15 dernières années

Nous sommes 15 ans après la sortie du papier qui détaille Dremel, un système de gestionnaire de données reposant sur la désagrégation du calcul et de stockage. Dremel venait montrer en pleine vague NoSQL que SQL pouvait être le langage pour gérer une base de données distribuée et qui sait passer à l’échelle. C’est ainsi que naît Google Bigquery.

Déjà 5 ans que les chercheurs de Google ont rejoué le film des 10 premières années de Dremel ou plutôt de Bigquery. Cette année c’est l’équipe de  Michael Stonebraker qui analyse ce que deviennent les bases de données ! Savez-vous qui est ce monsieur ? C’est ni plus ni moins le fondateur de plusieurs projets de bases de données, dont Ingres, Vertica, VoltDB, (et bien d’autres) mais est surtout connu pour être le créateur du système de bases de données PostgreSQL qu’il a développé à partir de 1986. Il a aujourd’hui 82 ans… Et il continue avec DBOS

Dans ce nouveau papier, alors que l’on avait en tête la mémoire, le disque comme facteur limitant, on apprend que le frein actuel des bases de données est le réseau. Pourtant, voilà que les parents de Deepseek agence une version distribuée – à travers le réseau – de DuckDB ! Beaucoup ont salué cette manière pour DuckDB de traiter plus de données en mode “scale out” et savoir passer à l’échelle. Ce qui est plus notable, c’est surtout le système de fichiers inhérent à cette nouvelle plateforme. En effet, le 3FS, comme il a été nommé, présente de telle performance pour ce qui est des débits en lecture / écriture qu’il est certain que ce système de fichiers pourrait devenir une nouvelle norme.

De là, il n’y a qu’un pas pour imaginer que les lakehouses puissent bénéficier de tel débit !  6To / seconde en lecture !











Secnum Cloud, un espoir…

Qu’est-ce qu’une donnée souveraine ? Qu’est-ce qu’une infrastructure souveraine ?
Et bien, il y a un label : Secnum Cloud ! Mon système n’est pas connecté à Internet : est-il sécurisé et souverain ?

Plus sérieusement, avec le changement de ton outre atlantique de nombreuses voix s’élèvent afin de rappeler que le cloud souverain c’est l’affaire de toutes et tous ! Car il est important que tout un chacun intègre les impacts de choix plus influencés par le copinage que par le recul réfléchi face à un contexte.


Justement, tout le monde n’a sans doute pas besoin de Kubernetes ! Certes ! Mais tout le monde doit gérer sa dette technologique. Si tout le monde n’a pas besoin de microservices, il faut tout de même noter que les solutions modernes se déploient d’abord sous Kubernetes. Cet orchestrateur de containers constitue aussi l’interopérabilité de l’infrastructure ! Outscale en sait quelque chose.


En tout cas le data lakehouse au sein des organes publiques a de beaux jours devant lui sur les infrastructures Secnum Cloud.










Microsoft Fabric n’est malheureusement pas magique 

OpenAI nous a propulsé dans l’IA dite générative et tente d’approcher l’IA dite généralisée ! Beaucoup d’entre nous emploi désormais ces agents conventionnels, ces assistants pour reformuler ce qu’ils ont coûteusement ingurgité.

Si bien que l’on peut souvent avoir cette question quant à l’utilité de ces outils… Bien sûr qu’il est des domaines où ils démontrent définitivement leur apport au “bon” fonctionnement de la société. C’est ce que Terra Nova a compilé. Mais il faut bien se rendre compte qu’à la manière de GNU Linux ou du Web, l’IA va être présente dans nombre de processus et ce sans jamais se présenter.

Dremio a introduit des “Autonomous Reflection”, une gestion intelligente, sans intervention humaine, d’un mécanisme de mise en cache des données pour les délivrer plus rapidement. Oracle a déjà “Autonomous Database” !

Et que dire de la construction de planning avec des contraintes très fortes de disponibilité ou des prises de congés… Ne faut-il pas un peu d’IA pour gagner du temps dans leur élaboration ? Timefold c’est un fork d’OptaPlanner ! Oui pour gérer des plannings ou de l’aiguillage complexe ! Et bien oui avec l’IA, Timefold va bien plus loin.











À DÉCOUVRIR


Ecriture ou lecture ? Choisir la bonne « vitesse » avec Apache Iceberg !

Découvrez les différences entre Copy-on-Write (COW) et Merge-on-Read (MOR) dans Apache Iceberg : vitesse d’écriture ou de lecture, quel est le meilleur choix pour vos données ?




Accélérer l’analyse batch avec Feldera

Feldera remplace les tâches traditionnelles par des pipelines incrémentaux et actifs, capables de mettre à jour les résultats en temps réel dès l’arrivée de nouvelles données. Ce processus repose sur deux étapes principales :


Traitement initial : Feldera ingère les données historiques depuis une base de données ou un lac de données pour calculer une vue de sortie initiale, similaire aux tâches « batch » classiques.


Mises à jour incrémentales : Par la suite, Feldera consomme en continu les nouvelles données provenant de sources en temps réel (comme Kafka) et met à jour les vues de sortie sans avoir à re-traiter l’ensemble des données.

Le tutoriel que nous vous conseillons décrit plusieurs étapes permettant de transformer vos pipelines en pipelines incrémentaux avec Feldera, notamment :

– La création d’une tâche Spark SQL classique.
– La conversion de cette tâche en un pipeline Feldera.
– L’orchestration des connecteurs pour l’ingestion de données historiques et en temps réel.
– La distribution des résultats vers plusieurs destinations.


Ensemble, ces étapes permettent de concevoir une architecture de flux de données performante et en temps réel !




Exploiter vos pdfs avec olmOCR

Découvrez olmOCR, un outil open-source innovant qui extrait du texte de PDF tout en préservant leur mise en page.






LOGICIELS


Apache Flink 2.0.0

La nouvelle version d’Apache Flink arrive avec 25 améliorations majeures. Une meilleure gestion des états des traitements (dans un stockage distribué en lieu et place du local), auto-adaptation des traitements batch (révision des plan d’exécution à la volée)…

Avec Apache Flink 2 on se rapproche bien plus d’une plateforme du type Streaming Lakehouse…



Apache Kafka 4.0.0
Cette version pousse 3 grandes avancées majeures : le retrait définitif de Zookepper pour plus de simplicité de maintenance. Dans le même sens, on retrouve une gestion de la redistribution des données plus efficiente.

Enfin, cette version intègre une gestion de queue, fonctionnalité attendue de longue date.



JDK 24.0
Java a 30 ans et reste un langage sûr, performant et productif. Ces dernières années, la communauté a notamment introduit la compilation en code natif. Ce qui rend les applications prêt pour un déploiement sous forme de container sans avoir besoin de la JVM.

La version 24 introduit de nouvelles fonctionnalités et renforce la performance : nouveau ramasse miette avec plus de concurrence, nouvelle entête pour les objets les rendant plus compacts. Amazon annonce par exemple 30% de CPU en moins…