L’Actualité de la donnée de Juin 2024

Ce mois-ci nous avons eu l’opportunité de participer à la conférence OW2 Con’ 24 ! Toute la communauté open source européenne était réunie pour deux jours de conférences intenses. De très belles rencontres. Nous y avons surtout promu Apache Iceberg et son facilitateur Dremio ! Eux aussi sont développés en open source et participent clairement à rendre les systèmes d’information plus interopérables, plus ouverts afin de construire la souveraineté par les données !

Plus personne ne remettra en cause la recherche de la maîtrise et du contrôle de son patrimoine de données quand même un Snowflake peut se laisser dérober des centaines de millions de lignes de données de ses clients…

Nous revenons souvent sur la souveraineté dans cette lettre. Conserver sa liberté ! Conserver la maîtrise de son destin, n’est-ce pas important ?

Tariq KRIM nous invite à revivre 40 ans de Géopolitique Numérique. Pendant ce temps-là on mesure déjà comment l’IA générative employée par des forces obscures fait mal à la démocratie .

Pour conclure cette introduction, un mot d’ordre : 👉 Gardez le contrôle de vos données !

What Snowflake isn’t saying about its customer data breaches

Géopolitique et numérique n°2

Marché du numérique : « Nous appelons à l’action pour réguler les abus de position dominante »

Comment la Russie et la Chine sèment le chaos dans l’espace numérique (Bernard Benhamou, Institut Souveraineté)

Vous n’échangerez plus jamais la donnée de la même manière

Le data warehouse est mort ! Vive le data lakehouse ! Les annonces des dernières semaines ont transformé pour toujours le marché de la donnée !

Ne construisez plus de data warehouse mais bien des data lakehouse. De la sorte, vous en profiterez pour arrêter de partager des fichiers de données , et partagerez des données directement. Plus de CSV !

Et en terme de gestion de l’évolution de vos schémas… C’est ici que dans l’architecture du data lakehouse qu’intervient le “catalogue” ! Oui, le format Apache Iceberg a gagné ! Cependant il a aussi amené une vision totalement renouvelée du catalogue de données, qui devenu interopérable offre la possibilité de cesser de copier, et copier, et encore copier la donnée pour tout compte fait simplement y accéder depuis les environnements analytiques ! Le catalogue n’a pas fini de faire parler de lui !

Par ailleurs, les éditeurs SAAS feraient bien d’adopter Apache Iceberg et son catalogue ! Ce serait tellement mieux que d’employer des APIs , et de les appeller un à un pour reconstituer des données dans le cadre d’export massif de données.

Begun, The Catalog Wars Have

Community Voices – At Xiaomi, where are we heading with Gravitino

Downstream Data Team’s Perspective on SaaS Application Integration Challenges: What You Need to Know!

Choosing an Iceberg catalog: a beginner’s journey

Object Storage, We Should Say S3 Storage, Reaches New Level

Avez-vous déjà votre Data Facilitateur ?

Travailler avec les données est à la jonction de nombre des connaissances, de savoir faire, de méthodes et pratiques informatiques. Dans le cadre de projets de données, les métiers n’ont pas forcément toutes ces connaissances. Il convient de les leur apporter afin que les projets de données atteignent réellement leurs objectifs.

Carrefour détaille l’organisation de ses équipes autour des données. Elles ont en leur sein non pas un Data Facilitateur mais un Data Translator. Il s’agit au quotidien de faire converger besoins métiers et usage des données.

De plus en plus d’acteurs partagent le voyage autour de leur données. Ici encore Blablacar…

Et vous, voudriez vous nous partager votre expérience ? Nous serions ravis de vous écouter et d’échanger autour de l’état de l’art.

Transformation Data : Carrefour nomme une centaine de Data Translators

BlaBlaCar : Scaler l’impact de l’équipe Data Engineering

Qu’est ce qu’un Data Facilitateur ?

Parce que l’on a toujours besoin de modélisation de données

Toutes les organisations partagent des données. Leur appropriation est d’autant plus simple que leur structuration est intelligible pour les utilisateurs qui s’en servent. Il y a de nombreuses structurations possibles : le modèle transactionnel, la troisième forme normale sont plus appropriés aux systèmes opérationnels.

Pour ce qui est du décisionnel, il existe le modèle en étoile, le modèle en flocon, data vault (2.0)… Plus récemment on a vu apparaître One Big Table . Sans doute trop peu de personnes mettent en avant Activity Schema . Bien sûr, chacune de ces modélisations présente avantages et inconvénients. Faites bien votre choix.

Aussi, ces modélisations peuvent être retrouvées couplées à une représentation de la donnée organisée sous forme de couches sémantiques .

Par prudence, il est opportun de miser sur des approches modernes quant à la mise en œuvre de vos modélisations à même votre data warehouse ou data lakehouse. SqlMesh est en train de changer l’approche…

Automated Data Warehouse Migrations

Choosing the Right Data Warehouse Modelling Approach

Semantic Layer — One Layer to Serve Them All

LOGICIELS

Talend fait peau neuve

Talend a rejoint Qlik ! Alors le studio prend les couleurs de Qlik et se refait une nouvelle jeunesse. Les portails Talend sont aussi passés aux couleurs et services Qlik, que ce soit le portail communautaire ou le portail de support professionnel. Pensez à vous créez un nouveau compte !

https://www.qlik.com/blog/celebrating-18-years-of-innovation-talend-studios-exciting-new-ux?utm_medium=organicsocial&utm_source=linkedin

Kaoto l’assistant graphique pour Apache Kamel

L’offre de Jetic est très séduisante et productive ! La communauté Apache Camel avance une nouvelle version de son studio Kaoto désormais en version v2.0.

https://camel.apache.org/blog/2024/06/kaoto-release-2.0.0/

Amphi ETL (MVP)

Thibaut Gourdel, ex-Talend, s’est lancé dans le développement d’un ETL open source générant du Python. Disponible depuis peu, la version MVP dispose d’un ensemble de connecteurs permettant de développer des pipelines en mode graphique / lowcode et générer du code python prêt à être exécuté.

Présentation vidéo d’Amphi ETL

https://amphi.ai/

Dernières Publications :

L’Actualité de la donnée de Février 2025

L’Actualité de la donnée de Janvier 2025

L’actualité de la donnée de fin 2024

L’actualité de la donnée d’Octobre 2024

Interagissez avec nous !