L’actualité de la donnée de Juin/Juillet 2025

On parle budget ce mois-ci. L’Etat doit trouver 44 milliards d’économie sur un total de 1722. Soit 2.55 % d’économie. Est-ce une épingle dans une botte de foin ? Et 264 milliards alors ? C’est plutôt un poteau dans la botte de foin. Ces 264 milliards, nous les avons beaucoup cités ces derniers jours ! C’est le montant que toutes les entreprises européennes dépensent auprès des fournisseurs de cloud américain. Souveraineté me direz-vous ? Nous avons tous notre part à prendre.

Tout compte fait, à cette période où l’on doit réaliser des économies, et à l’heure de l’envolée des IA, comment fait-on appel aux organisations de conseils ? Les fondamentaux ne sont plus vraiment là ! C’est Accenture qui est pointé du doigt ! Si la tendance se confirme, les “faiseurs” devraient mieux prendre la place. Sauf erreur de notre part, construire votre data lakehouse ne va pas se faire avec des slides. C’est pourquoi étudier les sujets précisément, les partager, les construire ensemble, faire à quatre mains, faire à quatre mains techniquement, prend de plus en plus de sens pour nos clients.

Il faut aussi noter que la meilleure façon d’interagir avec une machine est sans doute le langage. Et pour sûr, dans cette vision là, le temps réel n’est plus un luxe ! Mais bien une nécessité 🙂









La meilleure manière de communiquer avec vos données, c’est le langage

J’espère que comme certains vous n’êtes pas juste en train d’attendre que les choses se passent… Pardon ! Pardon ! Vous lisez ces lignes. Même, si l’on peut être sceptique quant à l’IA et au buzz que cela génère… Il faut entendre que la meilleure manière de communiquer avec les machines est le langage… Et nous avons même oublié que toutes les données dans leur majorité n’ont pas été structurées dans une base de données ! Elles existent par ailleurs dans les documents texte, dans les vidéos, les photos.

Quoi qu’il en soit nous pouvons dors et déjà parler aux données. Et concrètement vous pouvez l’avoir chez vous sur site ou en cloud.

Tout de même, commencez avec un périmètre circonscrit. Il faut garder la maîtrise afin d’anticiper le comportement des agents IA et de vos utilisateurs.












Le temps réel n’est plus un atout, mais une nécessité

Pourquoi l’analytique temps réel va devenir la nouvelle norme ? Pourquoi la modernisation de votre infrastructure de données passera par le temps réel ?

Parce que votre client ne veut plus attendre le batch quotidien pour avoir le retour de son information !

Certes, il faut toujours tenir compte de la Physique ! Mais votre client veut toujours plus… La concurrence fait certainement mieux. Il s’avère que les solutions, les méthodologies sont là afin de vous aider à bâtir des traitements uniques de données. Bien se rappeler que le batch est un cas d’usage du streaming. Mêmes les solutions Qlik Talend prennent un coup de jeune suite à l’acquisition d’Upsolver.










Des dataviz plus fluides, plus smart !

Les interfaces deviennent vos meilleurs alliés : Apache Superset™ affine son UX par petites touches, tandis que Tableau améliore la performance de ces dashboards et transforme chaque requête en conversation naturelle. Cet été, vos dashboards adoptent la fluidité du dialogue et la précision linguistique dont vos utilisateurs rêvent.


Apache Superset™ continue son chemin avec des releases plus fréquentes, mais la communauté attend toujours une refonte UX. Pas de révolution, mais des petits pas vers une meilleure expérience dev. Apache Superset™ 3.0 Beta sort en version publique avec de meilleures performances et de nouveaux plugins.

Synaltic présente son intégration de la DSFR avec Apache Superset™ afin de vous permettre de diffsuser des applications compatibles RGAA.

Découvrez les nouveautés de Tableau Software 2025 grâce à une vidéo de 6mn. Entre agents intelligents, intégration fluide avec Google Workspace, et amélioration des performances des tableaux de bord, cette vidéo offre un aperçu des fonctionnalités qui redéfinissent l’expérience utilisateur et la gouvernance des données.

Tableau Pulse s’enrichit de filtres conversationnels, de comparaisons multilingues et d’un calendrier personnalisé. L’analytique devient plus contextuelle, plus humaine.











À DÉCOUVRIR


Building a local datalake from scratch

Découvrez comment créer un data lake local complet en utilisant MinIO pour le stockage, Iceberg pour la gestion des tables, Spark pour le traitement des données et StarRocks pour les requêtes SQL, le tout orchestré avec Mage et déployé via Docker.



Smarter prompts for better responses

Mozilla explore deux approches pour améliorer les réponses des LLM : l’optimisation automatique des prompts via DSPy et l’analyse de leur interprétabilité.



LLM Routing

Face à la diversité croissante des modèles de langage, Mozilla.ai introduit le concept de LLM Routing pour sélectionner dynamiquement le modèle le plus adapté à chaque requête, en équilibrant coût, performance et qualité.








LOGICIELS


  Talend Studio 8.0.2 R2025-07 

Mise à jour mensuelle avec optimisation du processus de patch, nettoyage automatique des bibliothèques obsolètes et renforcement de la sécurité Maven



  Dremio 26.0.1 

Tri et partition par colonnes dans les Reflections, backport de CVE-2025-46762, métadonnées Iceberg plus stables et meilleure gestion des manifests



  Apache Airflow 3.0.2 

Correction d’une fuite mémoire dans le DAG Processor, zoom accru sur la vue graphe et parité complète de l’API REST v2 pour la nouvelle UI React



  Apache Superset 5.0.0 

Intégration officielle d’Apache Doris, refonte des thèmes, nouveaux graphiques, accessibilité UI et expérience d’exploration améliorée



  Tableau 2025.2 

Lancement de Concierge (analytique conversationnelle), apprentissage sémantique, app Tableau pour Google Workspace et paramètres spatiaux dynamiques



  Debezium 3.2.0.Final 

Intégration native OpenLineage, extension Quarkus DevService/GraalVM, sink vectoriel Qdrant et support d’Apache Kafka 4.0



  MageAI « Squid Game » Release 

AI Sidekick contextuel, intégration PySpark & Apache Iceberg, connecteur DuckDB et source YouTube Analytics