L’Actualité de la donnée de Juillet 2022

L’open source n’est toujours pas « gratuit »

Voilà une bonne vingtaine d’années que Synaltic participe à faire connaître l’open source, ses valeurs, ses bénéfices à la fois pour les organisations et pour la société de manière générale. L’adoption de solutions open source est toujours en forte progression : il est le signe d’innovation et de succès métier selon le dernier rapport 2022 d’OpenLogic et de l’Open Source Initiative.

Nous n’allons pas nous arrêter en si bon chemin. En effet, il faut donner pour recevoir ; on ne peut pas se contenter d’utiliser une solution open source sans redonner à la communauté. De ce fait, il est très important de connaître les codes du fonctionnement de cette communauté. Il ne faut pas croire que le jour où vous aurez besoin de support que cette communauté sera forcément là pour vous et très exactement au moment où vous en avez le plus besoin. Il y a parfois des éditeurs derrière ces nombreuses solutions, qui fonctionnent tellement bien… Alors, gardons à l’esprit qu’il est de notre devoir d’aider aussi ces communautés donc ces éditeurs. Leur support, c’est aussi la garantie que l’on aura un·e développeur·se pour corriger une faille de sécurité, améliorer la solution, corriger des bugs !








Nouveaux paradigmes


Le marché informatique a donné naissance à des mastodontes ! Certes, l’internet repose sur des composants technologiques décentralisés, mais les fournisseurs du cloud et les grandes sociétés d’internet sont venus tout re-centraliser : ce qui crée les points faibles de cette gigantesque infrastructure. Quand un fournisseur de nom de domaine tousse, nombre de sites internet et services ne sont plus accessibles.

Certaines voix commencent à émerger où considérer le “local” en premier – en informatique aussi ce n’est pas que pour l’alimentaire – il prend de plus en plus de sens dans ce monde où la mobilité occupe une telle importance, où la maîtrise des données, la maîtrise de “ses” données, est un enjeu tellement crucial. Ce nouveau mouvement sera sans doute renforcé par la capacité de base de données à s’auto-entretenir grâce à de l’intelligence artificielle et surtout, le fait de capter des données d’observation avec une fonctionnalité de GNU Linux dont vous n’avez sans doute jamais entendu parler, ebpf. Un cadre technique pour la surveillance des logiciels.






Open Data Architecture

Synaltic construit et vous assiste dans la plateformisation de votre infrastructure de données. Nous sommes nourris par les valeurs de l’open source et d’ouverture de manière générale. Synaltic a eu l’occasion de participer à une conférence en ligne avec les intervenants de Dremio, Keyrus (Londres), Privacera, Preset.io. De nombreuses idées y ont été débattues et échangées autour du Data Lakehouse.

Un point intéressant à retenir c’est que les services hébergés des cloud providers ne vous offrent pas toujours la réversibilité que vous pourriez en attendre. D’abord pour des questions de formats de données : non ouverts. Ensuite parce que les services hébergés qu’ils proposent ne présentent pas toujours les optimisations de performance et les optimisations de coûts.

Cette rencontre s’est tenue au moment même où Snowflake nous promet d’être désormais le centre du monde de la donnée. L’une des annonces majeures de leur conférence annuelle était la présentation de l’”Apps Analytique” comme nouveau cheval de bataille avec une market place d’applications de partenaires prêtes à l’emploi, paramétrées pour les clients, et s’exécutant au dessus du cloud de Snowflake.








Logiciels

Sneller
Dremio 2.0

Magnifique ! La nouvelle version de Dremio apporte le support de Apache Iceberg ! Il transforme complètement l’idée que l’on peut se faire d’une plateforme de données. En effet, sans trop d’efforts, vous êtes en mesure de bâtir votre stack pour collecter les données, les manipuler, les stocker comme un data warehouse, les gouverner… et ça juste en déployant une et une seule solution.


Jitsu
Debezium 2.0 arrive

La version Debezium 2.0.0.Alpha2 est sortie ! Cette version contient un nombre important de corrections et d’améliorations, 110 tickets ont été résolus. Quelques changements notables : les instantanés (snapshots) incrémentiels prennent désormais en charge des expressions régulières et un nouveau mécanisme pour demander la mise en pause du processus de chargement. La collecte de données depuis MongoDB évolue.


Kedro
Kedro est un framework Python open source permettant de créer un code de science des données maintenable et modulaire. La communauté et la base d’utilisateurs de Kedro continuent de croître, avec plus de 200 000 téléchargements mensuels, plus de 100 contributeurs et un nombre croissant d’entreprises qui choisissent Kedro comme norme pour le code de science des données. Il établit Kedro comme un outil industriel de facto, rejoignant une collection d’autres projets open source de pointe tels que Kubernetes offert par Google, GraphQL par Facebook, et MLFlow et Delta Lake par Databricks.



Apache Hop 2.0.0
Apache Hop, la solution d’intégration basée sur Apache Beam, qui facilite la mise en œuvre de projet d’intégration de données en temps réel, sort en version 2.0 avec des mises à jour de Java, d’Apache Beam. Cette version arrive aussi avec de nouvelles fonctionnalités comme la prise en charge de Drules et d’Avro.