L’Actualité de la donnée de Mai 2024

Ce mois-ci les grands du web se font la guerre par conférences interposées et livrent leurs produits boostés à l’IA. A l’IA Générative !

Le sujet revient très souvent n’est-ce pas ? C’est qu’il se passe des choses… Quand bien même certains pensent qu’il n’y a pas d’innovation que ce n’est que de la bonne ingénierie… il en demeure pas moins que des digues sautent les unes après les autres. Et nous sommes en train de vivre une rupture . C’est acté nous n’allons plus travailler de la même manière. Bien sûr nous atteindrons cette phase de désillusion… Mais quelque chose est bien en train de changer.

Si Alain Damasio rappelle l’influence de la Silicon Valley dans chacune de nos vies, nous devons bien nous rendre compte que l’IA Générative transforme d’ores et déjà notre rapport au travail y compris dans la gestion des données. Que va-t-il nous rester ? L’intention ? L’attention ?

Par ces outils, les données analysées nous donnent des avantages compétitifs. Conserver les données dans les formats ouverts devient une obligation. L’IA est partout. Elle se nourrit des données. Elles ont tellement plus de valeur aujourd’hui. Merci OpenAI !

C’est sur que l’IA va jouer un rôle dans la démocratisation de l’accès aux données. Est-ce ici que la H Company va jouer un rôle. Elle n’a même pas encore un produit qu’elle lève 200 millions… Et vous, vous en êtes où dans la gestion de vos données ?

Rencontre avec Alain Damasio, l’écrivain qui s’est immergé dans l’univers inquiétant de la Silicon Valley

Interdiction de TikTok en Nouvelle-Calédonie : le blocage de l’application est-il possible ?

100 things we announced at I/O 2024

OpenAI plans to announce Google search competitor on Monday, sources say

The “H” Company réalise une levée de fonds de 220 millions de dollars pour sa vision de l’intelligence artificielle générale (AGI)

Avec l’IA générative, un pas est franchi en matière d’analyse de données

Prompter ! En anglais ? En français ? Les langues deviennent-elles les nouveaux langages de programmation ? Certainement !

En tout cas, je vous invite à prendre le temps afin de tester ces IA Génératives, d’une part afin de les confronter à l’analyse de données et d’autre part afin de vous rendre compte à quel point votre travail est en passe de changer . Certes, il va falloir leur adoption, mais il est certain qu’au sein des organisations nous allons avoir un assistant pour nous aider dans l’analyse des données .

Notez-bien que Microsoft Copilot pour PowerBI sait déjà vous produire vos tableaux de bord ! D’autres acteurs amènent l’IA avec plus de finesse en automatisant la production d’indicateurs tout en dialoguant avec le système. Ainsi, grâce à Tableau AI, Tableau Pulse facilite la découverte des métriques pertinentes et propose des analyses automatisées. Elle détecte automatiquement les raisons, les tendances et les anomalies dans les métriques suivies. Enfin, l’AI résume ces analyses en langage naturel et en images !

Mais « commercialement », que veulent les utilisateurs ? Produire des rapports, produire des tableaux de bord ou tout simplement produire le bon vieil export qui atterrit toujours dans Excel ! Ha oui, il y a Copilot 😊

Crafting Analytical Summaries with Chat GPT

Improvements to data analysis in ChatGPT

Microsoft brings Copilot to Power BI Desktop app

Tableau Pulse: Insights optimisés par l’IA pour généraliser les décisions data-driven

Informatica CEO: Good Data Management Not Optional for AI

AI Impacting Data Engineering Faster Than Expected, dbt Labs’ Handy Says

Attention is all you have

What we learned from Pinterest’s Text-to-SQL solution?

La démocratisation de l’accès aux données passe par une réappropriation du langage

Quand bien même cette IA générative transforme notre manière d’accéder aux données, il apparaît tout autant important que l’on puisse améliorer ou réinventer la manière dont on interroge, manipule les données .

SQL a passé ses 50 bougies ! Et il est toujours là !

Lloyd TABB, le CTO et co-fondateur de Looker passe de Google à Meta ! Il estime que Malloy , un nouveau langage pour manipuler les données, pourra bénéficier d’un écosystème favorable pour son adoption et son expansion ! Et Malloy deviendra alors un standard ?

Facebook propose un nouveau format de fichier en colonnes et l’annonce comme « un remplacement des formats de fichiers tels qu’Apache Parquet ».

Ici, il faut bien retenir que de tels changements sont attendus… Les fondations mêmes des solutions contemporaines ne sont plus forcément adaptées aux machines, puces, pratiques actuelles.

Cette démocratisation des données ne peut se faire sans gouvernance ou sans une animation certaine. Tiens, avez-vous déjà votre concierge des données ? J’entends votre “Data Facilitateur ”. Vos « Data Stewards » à qui s’adressent-ils ?

Replacing SQL is a big hairy, audacious vision. But if anyone can pull it off, it’s Lloyd.

SQL à 50 ans : comment ce vétéran de la technologie continue-t-il à prospérer dans un paysage en constante mutation ?

Nimble and Lance: The Parquet Killers

https://github.com/facebookincubator/nimble

L’organisation, la clé de voûte de vos projets data

Au travers de cette lettre, plus d’une fois nous sommes revenus sur l’organisation ! La donnée est bien une affaire d’organisation. Vous êtes-vous jamais demandé à quel point tout le monde pourrait accéder aux données tout comme tout le monde a accès aux mails et aux documents produits avec les outils collaboratifs ?

Chez Synaltic nous portons cette vision de la démocratisation de l’accès aux données , nous nous y consacrons depuis 20 ans ! L’utilisateurs métier : c’est notre leitmotive ! C’est bien pour lui que nous travaillons. Ce qui signifie aussi, que nous agissions sur l’organisation.

Chacun son rôle : data ops, data engineering, data analyste, data scientist, data owner, data steward, data architect… business user ! S’il vous plaît l’agile c’est beaucoup de communication.

The Value of Socially Driven Architecture

DevOps vs. DataOps vs. MLOps Vs. AIOps: Comparison of All « Ops »

Democratizing Data: Our Vision

Démocratiser la Data Science grâce au Self-Service

La Poste a adopté une approche innovante pour accélérer l’utilisation de la science des données : elle a mis en place une plateforme de libre-service basée sur la technologie Dremio . En voici les points clés :

Self-service en Data Science : les utilisateurs découvrent, explorent et analysent les données par eux-mêmes. Cela favorise l’autonomie et l’efficacité des équipes.
Dremio comme moteur de requête : Dremio est utilisé comme moteur de requête pour accéder aux données stockées dans différents systèmes. Il permet d’interroger les données sans avoir besoin de connaître son infrastructure ni d’avoir des connaissances techniques approfondies.
Accélération des projets : Grâce à cette approche, La Poste a pu accélérer le développement de projets basés sur les données, tels que la prédiction de la demande, l’optimisation des tournées de livraison et l’amélioration de l’expérience client.

Ce retour d’expérience ne constitue peut-être pas une actualité, cependant il résonne tellement avec notre discours de ces dernières années que nous nous devions de vous le partager 😊

Comment La Poste met la Data Science en self-service !

L’Hypothèse de la Représentation Platonicienne

L’article “The Platonic Representation Hypothesis ” explore un concept fascinant dans le domaine de l’intelligence artificielle (IA).

L’idée est que, même si nos algorithmes sont formés sur des ombres projetées sur le mur de la caverne (comme dans l’allégorie de la caverne de Platon), ils récupèrent des représentations de plus en plus précises du monde réel en dehors de la caverne.

Vous avez saisi ? Bon, retenez simplement que cette idée de convergence des représentations pourrait façonner l’avenir de l’IA et de la compréhension de la réalité .

The Platonic Representation Hypothesis

Are AI Deep Network Models Converging?

Logiciels

Apache Arrow 16.1.0

La version 16.1.0 a été publiée le 14 mai 2024, avec des améliorations et des correctifs.

https://arrow.apache.org/blog/2024/05/07/datafusion-tlp

Talend package Iceberg via Apache Spark

Le composant tIcebergCatalog permettait déjà de gérer un catalogue Iceberg personnalisé, avec Hive ou Hadoop. Aujourd’hui les composants sont aussi compatibles avec Apache Spark.

https://help.talend.com/fr-FR/components/8.0/iceberg/ticebergcatalog-properties-for-apache-spark-batch

Debezium 2.6.2

Cette version inclut des correctifs de bug allant de la gestion de la concurrence sur PostgreSQL, de la compatibilité Avro, à un filtrage amélioré des requêtes au niveau de la base de données Oracle.

https://lnkd.in/gX5QJKJ4

Phi-3 Mini

L’IA open source de Microsoft qui bat GPT-3.5 en local sur votre smartphone et votre PC sans connexion internet.

https://arxiv.org/abs/2404.14219

Dernières Publications :

L’Actualité de la donnée d’avril/mai 2026

L’Actualité de la donnée de Mars 2026

L’Actualité de la donnée de Février 2026

L’Actualité de la donnée de Janvier 2026

Interagissez avec nous !