Vous êtes vous déjà demandé pourquoi est-ce que nous publions cette lettre ? Cette question car des lecteurs bienveillants m’interrogent : Est-ce que les liens de cette lettre ne sont pas trop « haut niveau » ou « trop futuriste » ?
Effectivement je partage des liens que je glane au fil du mois, au fil de l’actualité et des discussions. Avec passion et humilité, je tente d’éclairer sur ce que l’on vois se dessiner. Je mélange ainsi techno, business et actualité !
Le pic de froid que nous avons connu fin Avril n’a pas perturbé la baisse des prix de l’électricité sur le marché de gros. Le prix de l’électricité a même été négatif !
Comment est-ce possible ? Les data center sur le sol français ont dû apprécier. Et vous ? Le coût de l’électricité impacte-il le coût de votre infrastructure ?
Si la réponse est oui – conservez précieusement les talents qui connaissent encore une machine physique… Vous pourriez en avoir besoin. 😊
He oui, cette lettre c’est pour aider à écrire le futur !
Meta montre la voie avec Horizon OS, LLAMA 3 afin que l’on puisse ré-inventer le futur ! Son futur. Car dès à présent il convient de s’acculturer à l’IA générative
. Au Fait, où en êtes-vous sur la Data Littératie
?
Ouf, Salesforce ne rachète pas Informatica
! Sans doute un coup pour rien ! Le climat est à la consolidation.
Et Just Walk Out d’Amazon
, qui est abandonné, pour tout ou partie ! Cela nous rappelle que l’automatisation ou l’innovation ne peuvent se faire sans l’Humain quand le principal intéressé est l’humain
.
Les données jouent un rôle essentiel dans le fonctionnement et la croissance des entreprises … cependant cela reste encore abstrait pour certains. Voici quelques cas d’usage extrait de la presse du mois d’avril dernier :
La Direction interministérielle du numérique (Dinum) s’engage dans une expérimentation d’intelligence artificielle générative (IAG) au sein des services publics. L’objectif est de développer un modèle souverain et open-source basé sur une infrastructure française. Ce modèle permettra d’optimiser les processus internes et d’améliorer les interactions avec les citoyens.
Leroy Merlin , leader du bricolage, a utilisé l’intelligence artificielle pour optimiser ses stocks. Grâce à l’analyse de données de prévisions de ventes, de météo et d’inventaire en temps réel, l’entreprise a rééquilibré son réseau de distribution et automatisé le réassort de ses magasins. Résultat : une réduction de 10% du niveau de stocks !
L’entreprise d’assurance La Matmut intègre l’intelligence artificielle (IA) au cœur de son plan stratégique. L’IA est considérée comme un facteur de rupture et sera utilisée pour optimiser les processus internes et améliorer la relation avec les sociétaires . Des cas d’usage tels que la production de rapports réglementaires et la détection de la fraude sont déjà en réflexion.
La startup française Hupi , basée à Izarbel à Bidart, se spécialise dans l’intelligence artificielle appliquée au secteur de l’énergie et du transport. Elle se distingue par son ancrage territorial fort au Pays Basque. Hupi commercialise une application d’assistant virtuel pour aider les dirigeants d’entreprise à prendre des décisions complexes de manière plus efficace. Elle est disponible en français, en basque et en espagnol.
Dans ces exemples, les données permettent d’optimiser les processus, de réduire les stocks, d’améliorer la relation client et de favoriser l’innovation au sein des entreprises. Elles sont un atout stratégique incontournable pour la croissance et la performance. 🚀
La consolidation du marché que l’on vit dans l’informatique dédiée aux données paraît presque normale ! Salesforce qui aurait voulu acheter Informatica témoigne aussi du changement de paradigme que nous vivons. Dbt qui a gagné une stature , réalise son sondage annuel pour mettre en exergue les problématiques que rencontrent les équipes data !
A Data Concil 2024, il a été rappelé une fois encore comment la “Data Stack” était en train d’évoluer ! Comment se compose votre Data Stack ? Un seul mot d’ordre : la rendre plus simple : un stockage, un moteur de requête (compute), des formats ouverts. On a dit Data Lakehouse. Ah oui c’est ça 💪
Bien sûr il faut être aussi en mesure d’ingérer la donnée, d’orchestrer les flux et de s’assurer de la qualité et de la disponibilité des données. Vous trouverez dans les liens qui suivent un benchmark sur les outils d’observabilité.
Reprenons, Data Littératie ! Vous n’avez même pas eu le temps de diffuser la culture de la donnée au sein de votre organisation et voilà que l’on vous réclame de développer i, nouveau savoir faire avec les IA génératives ! Il y a de quoi retourner à l’école, certainement !
D’autant plus que stocker ces données de manière sécurisée et chiffrée est une chose et confier ses assets de données à un moteur qui sait statistiquement en tirer des informations en est une autre. 😳
C’est pour ça que la Fondation Linux héberge une nouvelle initiative pour mutualiser les forces et bâtir une architecture standard pour soutenir vos IA Générative par vous même. Une belle illustration, à peine AirBnB avait sorti en open source sa solution pour construire des “features”, que Stripe se l’est approprié afin de pouvoir le passer à l’échelle face aux grands nombre de transactions que l’éditeur facilitateur de paiement connaissait.
Voici 2 articles qui nous interpellent ! Le premier, More Agents Is All You Need est un article de recherche qui explore une méthode simple pour améliorer les performances des grands modèles de langage (LLMs) en utilisant un échantillonnage et un vote :
Échantillonnage et vote :
Le processus consiste à alimenter l’entrée d’un LLM pour générer plusieurs sorties.
Ensuite, un vote à la majorité est utilisé pour déterminer le résultat final.Observations :
Les performances des LLMs augmentent avec le nombre d’agents disponibles.
Cette méthode est orthogonale aux méthodes complexes existantes.
L’amélioration dépend de la difficulté de la tâche.
En somme, cet article propose une approche pour améliorer les performances des LLMs en utilisant plusieurs agents et sans nécessiter de méthodes compliquées.
Le second article, The Unreasonable Ineffectiveness of the Deeper Layers
, explore une stratégie de réduction de la complexité des modèles de langage pré-entraînés à poids ouverts (LLMs).
Les auteurs ont constaté qu’une dégradation minimale des performances se produit après avoir supprimé une grande partie (jusqu’à la moitié) des couches du modèle ! Une fois un modèle entraîné, il convient donc d’identifier les couches qui n’apportent que peu de valeur pour les supprimer et les remplacer par un ajustement (PEFT) pour réparer les éventuels dommages.
Logiciels
Dremio ne prend plus en charge Java 8 et requiert désormais Java 11 SE JDK.Dremio permet maintenant l’utilisation d’informations d’identification chiffrées pour les sources de données.
L’interface utilisateur a été repensée pour une meilleure expérience de navigation et une plus grande convivialité ; on note notamment une belle amélioration du glisser-deposer. Superset 4.0.0 introduit de nouvelles options de visualisation, notamment des graphiques à bulles, des nuages de points et des cartes géographiques interactives.
Cette version introduit les options de planification conscientes des données : désormais Airflow prend en charge des combinaisons logiques OU et même des combinaisons arbitraires de ET et OU !
L’entrepôt de données Postgres Hydra, un portage en colonnes open-source visant à créer un Snowflake open-source. En date de janvier 2024… à suivre…