L’Actualité de la donnée de Décembre 2022

A propos de Synaltic

Par cette lettre nous essayons de vous offrir une vision quant à la manière dont les plateformes de données évoluent. Vous et nous, nous construisons du recul pour aller sur des plateformes de données qui ont du sens pour vous, vos équipes, votre organisation. Notre capacité à éclairer vos feuilles de route s’articule grâce à nos réalisations concrètes, grâce à nos tâches au quotidien, grâce aux dépassements de chacun ; ce ne sont pas que des lectures et des liens.

A ce titre, nous saluons fièrement la concrétisation d’un travail de 3 ans : Synaltic a mis en place un CIFRE et nous avons notre tout premier docteur. Nous espérons que ce ne sera pas le dernier. La thèse a été menée autour de la qualité de données et l’intelligence artificielle. Grâce à ces travaux nous sommes en mesure d’auto-découvrir la nature sémantique des différentes colonnes qui composent un jeu de données : ce qui est fort pratique pour faciliter la mise en œuvre de votre catalogue de données et améliorer la qualité des données.

.








Data/Open Source au service du climat


D’abord et avant tout, Synaltic est ravi qu’une initiative telle que OS-Climate ait vu le jour. Elle salue pleinement l’établissement de l’open source en tant que stratégie de production pour se doter d’outils, de mutualisation des connaissances et compétences et de partage d’une transparence certaine quant à construire une plateforme de données qui contribue à la lutte contre le changement climatique.

Cette initiative, sous l’étendard de la Fondation Linux, offre a dors et déjà poussé trois grands projets : Data Commons, Portfolio Alignment Tools, Physical Risk Modeling. L’organisation regroupe un grand nombre de participants.

C’est une aubaine pour tous de comprendre comment la collaboration est possible autour des jeux de données et de la plateforme de données, ainsi que la gouvernance mise en place.

.







Data et Architecture

Ce mois-ci nous sommes beaucoup affairés à transmettre une architecture mêlant Kubernetes, Kafka, Debezium, Apache Camel packagé avec Quarkus ; cette application initialement classique avec sa base de données Postgresql prend une orientation bien plus temps réel. L’ensemble des partenaires impliqués dans le projet trouvent alors leur données tout le temps à jour.

Moderniser une application n’a rien de si simple. Initier une architecture ne l’est pas plus. Il est des conseils que les architectures microservices ne sont pas les bienvenues à l’initialisation d’un projet : se mêle alors les problématiques métiers complexes qui font face à de l’énergie négative, des interrogations qui inviteraient à choisir une architecture monolithique. Chris Richardson, un expert de Java et ayant mis en œuvre l’un des premiers PAAS, CloudFoundry, propose d’étayer les risques à écouter les sirènes qui inciteraient à faire le choix d’une architecture monolithique. Certes plus simple au départ mais il faudra savoir éviter les pièges par la suite…

A ce choix, il conviendra d’apporter de bonnes pratiques pour gérer vos ressources. Oui à la flexibilité qu’apporte une architecture Cloud Native. Et oui à la frugalité aussi : faire mieux avec moins, optimiser ces traitements.

Il est des micros inventions qui transforment tout un marché. Il y a un VPN, léger et nouvelle génération, Wireguard (regarder Tailscale, Headscale). De talentueux développeurs proposent qu’il soit chargé dès le démarrage de GNU Linux ! Et si toutes les machines étaient protégées par un VPN dès leur lancement… Le Cloud Public ne serait plus si publique… Nos données seraient mieux protégées à moindre coût.







Infrastructure Dynamique

Comment ne pas parler de ChatGPT ? Tout le monde en a parlé. Sans commenter les avancées de cette IA ; un élément aura attiré notre attention. OpenAI à salué l’aide essentielle de Microsoft Azure ! L’infrastructure dynamique est de plus en plus à la portée de tous. Certes les “hyperscalers” (AWS, Azure, GCP) à travers diverses offres facilitent cette infrastructure qui s’adapte en fonction de la charge de traitements en cours d’exécution et ce en automatique. Mais il faut surtout noter que ces fonctionnalités deviennent accessibles pour tous : à la fois grâce à des nouvelles technologies aussi légères que les containers mais avec une isolation des machines virtuelles (MicroVM), à la fois parce que Kubernetes peut se déployer partout, enfin à la fois parce que WebAssembly progresse à grand pas…

A travers kubernetes et pour un pool de machines dédiées avec des traitements très lourds tels des processus des streaming ETL, nous sommes en mesure de faire croître ou décroître le nombre d’instances d’un traitement donné afin d’accélérer la disponibilité d’un jeu de données attendu.












Logiciels

Dremio 23.0.1
Cette nouvelle version intègre des nouveaux connecteurs natifs vers des sources de données telles que Amazon S3 utilisant « AWS PrivateLink ».

Le meilleur pour la fin : vous pouvez désormais connecter Dremio en tant que source dans un autre Dremio ! Un Dremio où vous gérer le socle avec toutes vos sources. Quand les métier accès à un autre qui à pour source le Dremio socle. Découpler la complexité !

Airflow 2.5

Parmi les nombreuses améliorations et nouvelles fonctionnalités, la capacité à mettre en oeuvre des routines de qualité de données avec les opérateurs : SQLColumnCheckOperator, SQLTableCheckOperator.


Tableau 2022.4
Une révision du modèle de Tableau Embedded Analytics complètement à l’usage. Une meilleure intégration avec Salesforce pour lancer des actions depuis les tableaux de bord. Une capacité à remplacer facilement une source de données sur une seule feuille de travail et nom tout le workbook.

Le meilleur pour la fin : vous pouvez désormais connecter Dremio en tant que source dans un autre Dremio ! Un Dremio où vous gérer le socle avec toutes vos sources. Quand les métier accès à un autre qui à pour source le Dremio socle. Découpler la complexité !