L’année s’achève, nous nous projetons sur 2024. Le grand exercice de la fin d’année : dresser les tendances .
Notre société est traversée par nombre de débats qui nous rappellent l’importance de l’éducation et la formation . C’est une vraie compétition, attirer des talents, les former, les retenir.
Voilà 3 ans que nous écrivons cette lettre. Nous avons choisi de toutes les consolider sur un site web afin que vous aussi vous puissiez apprécier, partager, repartager ces synthèses. Espérons qu’elles vous sont utiles !
Alors que le Low Code et le No Code ont le vent en poupe, Talend a arrêté son “Open Studio” ! L’annonce d’un fork cherche à rassembler une nouvelle communauté. Qu’en dites-vous ?
Comme les années précédentes, on plébiscite les architectures hybrides , on insiste sur les efforts à fournir en terme de sécurité, sur l’intérêt de favoriser le self-service et de penser sa gouvernance . Ces sujets ne se résolvent pas en une seule année et sont donc déjà inscrits dans les tendances des années à venir !
Le Data Mesh reste à l’honneur notamment sous la promotion du Data Lakehouse .
C’est aussi le retour en force du langage SQL !
OUI AU CLOUD, NON À SA COMPLEXITÉ !
AWS c’est plus de 200 services. Rien que sur les aspects Data, s’en est au moins une trentaine de services.
En mai 2023, Microsoft sort Microsoft Fabric . Snowflake veut profiter de sa simplicité pour attirer plus de types d’applications sur sa plateforme. Databricks tarde à entrer en bourse et continue d’étoffer son catalogue. L’offre de PostgreSQL evolue aussi.
Certains de nos clients quittent la modularité, pluralité des types de traitements de Databricks pour Microsoft Fabric, ou plutôt synaps !
Le système devient trop complexe, les gens voudraient faire plus simple .
SUPPORT NIVEAU 1, PLATFORM ENGINEER
/
SUPPORT NIVEAU 2 ET SUPPORT NIVEAU 3, IA GENERATIVE
Cette fin d’année a déjà montré comment l’IA Generative, y compris avec la levée de fonds record de Mistral AI ( Cocorico ! ), prend une place certaine dans la vie quotidienne des différents métier de la data !
Et nous ne sommes qu’au début… Même si l’IA Générative se fait dépasser par des modèles plus performants, moins coûteux un jour, les assistants pour générer du SQL, de la documentation, des métadonnées … vont prendre une place certaine. L’aide apportée par ces assistants virtuels sera d’une grande utilité pour gérer les plateformes de plus en en plus complexes.
Et Gartner nous indique que les Plateform Engineers vont justement prendre leur place dans cet écosystème . En appui direct aux équipes métiers, ce sont des personnes avec une vision large.
PERFORMANCE & PRODUCTIVITÉ
Tout au long de l’année 2023, nous sommes revenus souvent sur une grosse lame de fond pour ce qui est de l’analyse temps réel .
Cette tendance est portée par deux autres, le retour des langages bas niveau , ici C++. Justement, ce qui permet d’avoir plus de performance pour un impact moindre sur l’environnement. Dans la même lignée 2024 il y a une recherche de productivité en allant vers moins de complexité , plus d’assistance des IA Generative, mais aussi plus d’éducation, de formation pour mieux appréhender les outils, mieux utiliser l’infrastructure.
Ou mieux utiliser Snowflake grâce à des outils comme OpCenter de Sundeck. Annoncé en grande pompe par AWS, Amazon Express One, un S3 ultra performant, va lui aussi apporter performance et productivité ! Certains imaginent déjà qu’ il peut remplacer un nombre certain outil : ce qui simplifie l’architecture moderne de données.
Les publications de l’Actualité de la Donnée sont désormais diffusées sur un site web : news.synaltic.fr !
Les 30 dernières lettres retracent l’évolution du monde de la DATA de 2021 à ce jour , les publications sont donc très temporelles, cependant elles sont publiées ici à titre de base documentaire.
C’est aussi l’occasion de remettre en avant le manifeste pour une approche inclusive et collaborative des projets data proposé par la Fondation Linux.
Si chacun/e, qui en trouve le temps, réalise sans peine sa propre veille technologique, les interactions entres individus sont requises pour concevoir une vision commune. La section AGENDA est là pour vous présenter les rendez-vous du moment !
The Frugal Architect est un site qui fournit des lois simples pour construire des architectures modernes, durables et proposant une maîtrise des coûts .
Ces lois sont conçues pour aider les architectes à concevoir, développer et exploiter des systèmes en tenant compte des implications de coût dès le début et tout au long du projet.
Les lois encouragent également les architectes à aligner les systèmes sur le modèle commercial de l’entreprise pour atteindre des économies d’échelle lorsque les revenus le permettent. Enfin, les lois soulignent l’importance de la surveillance des systèmes pour identifier les pratiques gaspillées, rationaliser les flux de travail et allouer stratégiquement les ressources aux priorités.
Florent , un freelance basé en Ile de France nous offre un calendrier de l’avant aussi original qu’instructif !
Il publie chaque jour de décembre un article sur LinkedIn pour présenter
la
Data Stack
d’une grande entreprise et les problématiques auxqu’elles elles sont confrontées
. Sa source semble être principalement les blogs techniques desdites entreprises et les conférences auxquelles elles participent.
On trouve ainsi une illustration et un article sur
Airbnb
,
Pinterest
,
LinkedIn
,
Twitter
,
BlablaCar
,
Mistral AI
,
Netflix
,
Shopify
,
Instagram
,
Uber
,
Spotify
,
Decathlon
…
Nous l’annoncions le mois dernier, Talend Open Studio n’est plus maintenu, aucune nouvelle version ne sera diffusée .
Si cette annonce n’a pas suscité beaucoup de réaction sur le web, un fork a cependant été rapidement annoncé via LinkedIn. L’annonce du fork affiche moins de 500 likes. Cela semble peu, non ?
A Synaltic, depuis plusieurs mois, nous diffusons une version « 2023-10 » des 3 Studios. Et effectivement nous sommes surpris par le faible nombre de téléchargement que ces versions upstream suscitent . Ces 3 studios intègrent pourtant les évolutions poussées dans le repository de code par la R&D de Talend depuis plus de 2 ans … poussées mais jamais buildées. Cela ne vous intéresse pas ?
Bref, il faut donc bien admettre que la solution ne génère plus autant d’attractivité qu’à ses débuts . Une communauté sera-t-elle se reformer pour supporter ce fork ? 2024 nous le dira !
Si vous vous demandez comment les données géospatiales peuvent être stockées et analysées à l’aide d’Apache Arrow , cet article est pour vous !
Les données géospatiales ont des propriétés qui les rendent difficiles à représenter et à transporter, telles que la nécessité de propager le système de référence de coordonnées (CRS) avec les données pour garantir qu’elles peuvent être combinées avec des données provenant d’une autre source. Vous me suivez ? Les formats de fichiers géospatiaux sont excellents pour propager les métadonnées, cependant ils ne sont pas conçus pour diffuser de grandes quantités de données à d’autres systèmes.
L’article décrit comment Apache Arrow peut être utilisé pour stocker et transporter des données géospatiales de manière efficace et performante, en utilisant des formats de fichiers tels que Parquet, CSV et Arrow IPC.
Logiciels
OpsCenter est une solution open source pour gérer les coûts de Snowflake. La solution s’installe nativement à même votre environnement Snowflake.
Effectivement, Snowflake est génial. La flexibilité apportée permet de faire toujour plus chaque jour. Mais cette flexibilité pose un défi : comment confirmer que chacun maximise son utilisation de Snowflake et en fait tout autant de l’investissement de l’organisation.
Et voilà, l’Open Data Lakehouse Dremio est disponible sur Azure ! En beta depuis début décembre.
La nouvelle release inclue les supports pour MariaDB GTIDs, PostgreSQL 16 stand-by streaming, MySQL high-precision timestamps, native RabbitMQ streams sink, improved snapshot notifications …