L’Actualité de la donnée de l’été 2023

Avons-nous besoin d’informatique partout ? Ou pour toutes les activités humaines ? Devons-nous mettre le monde en données sur toutes ces composantes ? 

Une réponse simpliste est sans doute oui. A y regarder de plus près, on peut y apporter une autre réponse plus nuancée. En effet, pour certaines organisations et face à certaines activités, avoir un processus manuel suffit car la mise en place même de la solution informatique crée des dépendances vis-à-vis de fournisseurs. Par exemple, mettre en place tout un système de billettique dans les transports peut coûter plus cher qu’une mobilité “gratuite” pour l’usager : pas d’infrastructure onéreuse, pas de ressources pour contrôler la validité de titres !

De la frugalité ! Ne faut-il pas une certaine frugalité informatique ? Voilà que l’on nous invite à être frugaux ! A l’ère du data lakehouse qui sait “tout” gérer : des données structurées ou non… Employer juste les ressources nécessaires et juste celles nécessaires devient une qualité… Faire mieux avec moins. Optimisez donc vos requêtes SQL, tout le monde sera content avec l’amélioration des performances ; votre porte monnaie aussi.





 
L’Open Source à la rescousse


Mark Zuckerberg a accordé un long entretien dans lequel il revient sur le rôle capital que joue l’open source dans le développement de l’IA générative ! Il insiste et indique que sans l’open source, atteindre des modèles robustes ne peut être possible. Par exemple, on perdrait les relations avec la recherche académique. C’est aussi un point de vue partagé par le MIT Technologie Review.

Tout compte fait, à y regarder de plus près, l’open source est bel et bien en train de combler son retard. Et de jour en jour, des entreprises avec des marques fortes et éditeur de logiciels open source deviennent de vraies licornes.

A noter que Microsoft sort Azure Linux… Pas si simple à prononcer quand on est dans l’informatique depuis 20 ans.

Le monde change.









Modèles de données, Cloud & Analytique


L’évolution de la gestion de données est en marche. Le Data Lakehouse pointe le bout de son nez et est tout juste en train de profondément transformer les mentalités.

L’organisation, la structuration, la gouvernance des données sont de vrais sujets. Il ne faut pas pour autant les rendre plus complexes qu’il ne le sont. Sans doute qu’en adoptant une démarche consensuelle de la gestion des données tout comme l’ont des personnes métiers… Au fond, elles ne font qu’employer des jeux de données… Elles ne gèrent pas des infocentres, des data warehouses, des datamarts, des data lakes ! Adopter une pratique Data Mesh plus pratique et pragmatique immergera mieux les métiers dans les données.

Un petit retour sur les concepts de modélisation de data warehouse ne vous fera pas trop de mal. Vous pourrez alors ré-imaginer votre MDM là aussi de manière pratique et pragmatique et ce avec le lac de données.



Apache Flink a fini par s’imposer comme plateforme de référence pour construire des flux de traitements en temps réel. Oui, il y a Apache Spark. Il domine avant tout le traitement par lot. Notons que les toutes dernières versions d’Apache Spark gèrent mieux le event processing. Flink connaît surtout une meilleure reconnaissance depuis que Confluent à récupérer dans son giron,  Immerok.

Ce même Confluent a compris qu’il fallait abaisser la barrière d’entrée à sa plateforme ! KSQLDB devait être la solution ! Du Streaming tout en SQL !

Decodable croit en Flink et pense que c’est une évidence et que c’est déjà un standard. Ce n’est pas ce que pense Risingwave, construit avec une approche plus cloud native, propose du streaming tout en SQL et avec une connectivité PostgreSQL. Le streaming semble facile comme ça !









Logiciels


Crowdsec

CrowdSec est une solution de sécurité open source et participative offrant une protection participative contre les adresses IP malveillantes et un accès au CTI réel le plus avancé.

Cette solution présente l’avantage de constituer une base de données ouvertes et crowdsourcées dont les mises à jour bi-directionnelles profitent à toute la communauté… Et bien sûr à l’éditeur.






Kaoto

Apache Camel est le langage d’intégration de données, c’est un vrai standard. Trop peu le connaissent ! Il est à la base de Talend ESB, des solutions de Red Hat Data Integration et de Mulesoft !

Une communauté commence à partir de deux, trois ? Trois ingénieures du développement, ayant toutes les trois une fine connaissance d’Apache Camel ont mis sur pied une solution Low-Code, Kaoto pour Apache Camel. Construire les routes d’intégration de données va connaître une nouvelle jeunesse !





Télécharger Talend Open Studio

Talend Open Studio for DI, Talend Open Studio for ESB, Talend Open Studio for Big Data sont diffusés sous licence Apache 2.

Synaltic propose une distribution de Talend Open Studio correspond aux versions « en amont » (Upstream) des produits open source Talend, dont le code est disponible sur https://github.com/Talend.

Les studio open source étant de moins en moins accessibles, nous les mettons à disposition afin d’en promouvoir l’utilisation et l’appropriation.