L’Actualité de la donnée d’Avril 2024

Vous êtes vous déjà demandé pourquoi est-ce que nous publions cette lettre ? Cette question car des lecteurs bienveillants m’interrogent : Est-ce que les liens de cette lettre ne sont pas trop « haut niveau » ou « trop futuriste » ?

Effectivement je partage des liens que je glane au fil du mois, au fil de l’actualité et des discussions. Avec passion et humilité, je tente d’éclairer sur ce que l’on vois se dessiner. Je mélange ainsi techno, business et actualité !

Le pic de froid que nous avons connu fin Avril n’a pas perturbé la baisse des prix de l’électricité sur le marché de gros. Le prix de l’électricité a même été négatif ! Comment est-ce possible ? Les data center sur le sol français ont dû apprécier. Et vous ? Le coût de l’électricité impacte-il le coût de votre infrastructure ? Si la réponse est oui – conservez précieusement les talents qui connaissent encore une machine physique… Vous pourriez en avoir besoin. 😊

He oui, cette lettre c’est pour aider à écrire le futur !

Meta montre la voie avec Horizon OS, LLAMA 3 afin que l’on puisse ré-inventer le futur ! Son futur. Car dès à présent il convient de s’acculturer à l’IA générative . Au Fait, où en êtes-vous sur la Data Littératie ?

Ouf, Salesforce ne rachète pas Informatica ! Sans doute un coup pour rien ! Le climat est à la consolidation.

Et Just Walk Out d’Amazon , qui est abandonné, pour tout ou partie ! Cela nous rappelle que l’automatisation ou l’innovation ne peuvent se faire sans l’Humain quand le principal intéressé est l’humain .

Salesforce In Talks To Buy Informatica: Report

Le rachat d’Informatica par Salesforce capote

Prix négatifs de l’électricité : la France contrainte d’arrêter cinq réacteurs nucléaires

Meta Horizon OS veut devenir l’Android de la réalité mixte

Amazon fait volte-face pour ses magasins sans caisse

IA : les Français sont les plus inquiets du monde

A QUOI ÇA SERT LES DONNÉES EN 2024 ?

Les données jouent un rôle essentiel dans le fonctionnement et la croissance des entreprises … cependant cela reste encore abstrait pour certains. Voici quelques cas d’usage extrait de la presse du mois d’avril dernier :

La Direction interministérielle du numérique (Dinum) s’engage dans une expérimentation d’intelligence artificielle générative (IAG) au sein des services publics. L’objectif est de développer un modèle souverain et open-source basé sur une infrastructure française. Ce modèle permettra d’optimiser les processus internes et d’améliorer les interactions avec les citoyens.
Leroy Merlin , leader du bricolage, a utilisé l’intelligence artificielle pour optimiser ses stocks. Grâce à l’analyse de données de prévisions de ventes, de météo et d’inventaire en temps réel, l’entreprise a rééquilibré son réseau de distribution et automatisé le réassort de ses magasins. Résultat : une réduction de 10% du niveau de stocks !
L’entreprise d’assurance La Matmut intègre l’intelligence artificielle (IA) au cœur de son plan stratégique. L’IA est considérée comme un facteur de rupture et sera utilisée pour optimiser les processus internes et améliorer la relation avec les sociétaires . Des cas d’usage tels que la production de rapports réglementaires et la détection de la fraude sont déjà en réflexion.
La startup française Hupi , basée à Izarbel à Bidart, se spécialise dans l’intelligence artificielle appliquée au secteur de l’énergie et du transport. Elle se distingue par son ancrage territorial fort au Pays Basque. Hupi commercialise une application d’assistant virtuel pour aider les dirigeants d’entreprise à prendre des décisions complexes de manière plus efficace. Elle est disponible en français, en basque et en espagnol.

Dans ces exemples, les données permettent d’optimiser les processus, de réduire les stocks, d’améliorer la relation client et de favoriser l’innovation au sein des entreprises. Elles sont un atout stratégique incontournable pour la croissance et la performance. 🚀

« Leroy Merlin a diminué son niveau de stock de 10% grâce à la data »

L’IA au cœur du nouveau plan stratégique de la Matmut

DoK Community Sponsor Spotlight: Apache YuniKorn

Pays basque : l’Intelligence artificielle est déjà partout

Le Compte-Asso : Autres services en lien avec le compte asso

VOTRE ARCHITECTURE DATA NE SERA PLUS LA MÊME !

La consolidation du marché que l’on vit dans l’informatique dédiée aux données paraît presque normale ! Salesforce qui aurait voulu acheter Informatica témoigne aussi du changement de paradigme que nous vivons. Dbt qui a gagné une stature , réalise son sondage annuel pour mettre en exergue les problématiques que rencontrent les équipes data !

A Data Concil 2024, il a été rappelé une fois encore comment la “Data Stack” était en train d’évoluer ! Comment se compose votre Data Stack ? Un seul mot d’ordre : la rendre plus simple : un stockage, un moteur de requête (compute), des formats ouverts. On a dit Data Lakehouse. Ah oui c’est ça 💪

Bien sûr il faut être aussi en mesure d’ingérer la donnée, d’orchestrer les flux et de s’assurer de la qualité et de la disponibilité des données. Vous trouverez dans les liens qui suivent un benchmark sur les outils d’observabilité.

2024 State of Analytics Engineering

Data Council 2024: The future data stack is composable, and other hot takes

Best Data Observability tools 2024: RANKED

NOUS AURONS TOUS ACCÈS À L’IA GÉNÉRATIVE

Reprenons, Data Littératie ! Vous n’avez même pas eu le temps de diffuser la culture de la donnée au sein de votre organisation et voilà que l’on vous réclame de développer i, nouveau savoir faire avec les IA génératives ! Il y a de quoi retourner à l’école, certainement !

D’autant plus que stocker ces données de manière sécurisée et chiffrée est une chose et confier ses assets de données à un moteur qui sait statistiquement en tirer des informations en est une autre. 😳

C’est pour ça que la Fondation Linux héberge une nouvelle initiative pour mutualiser les forces et bâtir une architecture standard pour soutenir vos IA Générative par vous même. Une belle illustration, à peine AirBnB avait sorti en open source sa solution pour construire des “features”, que Stripe se l’est approprié afin de pouvoir le passer à l’échelle face aux grands nombre de transactions que l’éditeur facilitateur de paiement connaissait.

L’IA générative va-t-elle renvoyer les DSI sur les bancs de l’école ?

Linux Foundation Promotes Open Source RAG with OPEA Launch

Introducing Meta Llama 3: The most capable openly available LLM to date

Shepherd: How Stripe adapted Chronon to scale ML feature development

Chronon, Airbnb’s ML Feature Platform, Is Now Open Source

VERS DES MODÈLES DE LANGAGE PLUS PERFORMANTS

Voici 2 articles qui nous interpellent ! Le premier, More Agents Is All You Need est un article de recherche qui explore une méthode simple pour améliorer les performances des grands modèles de langage (LLMs) en utilisant un échantillonnage et un vote :

Échantillonnage et vote :
Le processus consiste à alimenter l’entrée d’un LLM pour générer plusieurs sorties.
Ensuite, un vote à la majorité est utilisé pour déterminer le résultat final.
Observations :
Les performances des LLMs augmentent avec le nombre d’agents disponibles.
Cette méthode est orthogonale aux méthodes complexes existantes.
L’amélioration dépend de la difficulté de la tâche.

En somme, cet article propose une approche pour améliorer les performances des LLMs en utilisant plusieurs agents et sans nécessiter de méthodes compliquées.

Le second article, The Unreasonable Ineffectiveness of the Deeper Layers , explore une stratégie de réduction de la complexité des modèles de langage pré-entraînés à poids ouverts (LLMs).

Les auteurs ont constaté qu’une dégradation minimale des performances se produit après avoir supprimé une grande partie (jusqu’à la moitié) des couches du modèle ! Une fois un modèle entraîné, il convient donc d’identifier les couches qui n’apportent que peu de valeur pour les supprimer et les remplacer par un ajustement (PEFT) pour réparer les éventuels dommages.

More Agents Is All You Need

The Unreasonable Ineffectiveness of the Deeper Layers

Logiciels

Dremio 25.0

Dremio ne prend plus en charge Java 8 et requiert désormais Java 11 SE JDK.Dremio permet maintenant l’utilisation d’informations d’identification chiffrées pour les sources de données.

https://www.dremio.com/wp-content/uploads/2024/04/Whats-New-In-Dremio-25.0-GDW.pdf

Apache Superset 4.0

L’interface utilisateur a été repensée pour une meilleure expérience de navigation et une plus grande convivialité ; on note notamment une belle amélioration du glisser-deposer. Superset 4.0.0 introduit de nouvelles options de visualisation, notamment des graphiques à bulles, des nuages de points et des cartes géographiques interactives.

https://preset.io/blog/apache-superset-4-0-release-notes/

Apache Airflow 2.9

Cette version introduit les options de planification conscientes des données : désormais Airflow prend en charge des combinaisons logiques OU et même des combinaisons arbitraires de ET et OU !

https://airflow.apache.org/blog/airflow-2.9.0//

Hydra

L’entrepôt de données Postgres Hydra, un portage en colonnes open-source visant à créer un Snowflake open-source. En date de janvier 2024… à suivre…

https://www.hydra.so/blog-posts/2022-03-21-announcing-hydra-postgres-data-warehouse

Dernières Publications :

L’Actualité de la donnée de juin 2026

L’Actualité de la donnée d’avril/mai 2026

L’Actualité de la donnée de Mars 2026

L’Actualité de la donnée de Février 2026

Interagissez avec nous !