Marcel Proust écrivait dans « À l’Ombre des jeunes filles en fleurs » : Il y a moins de force dans une innovation artificielle que dans une répétition destinée à suggérer une vérité neuve.
Il est vrai que nous n’attendons pas le poète sur le sujet de l’innovation ! Cependant, à travers toutes nos actions, décisions et prises de paroles, il est bon de se répéter cette phrase. L’Europe, qui s’est inscrite en chantre de l’innovation, veut aujourd’hui mieux contrôler les plateformes avec l’entrée en vigueur du DMA. L’Europe, comme nombre de pays, va dors et déjà faire face à la “dénatalité”. Un phénomène mondial qui transformera complètement les économies !
Ce bouleversement vient s’ajouter à l’impact que va avoir la décarbonation de l’économie qui, là aussi, bouscule complètement les chaînes de valeurs. Retour aux mines ! Pour produire un véhicule électrique il faut 3 fois plus de métal qu’un véhicule traditionnel. Pour produire nos chers ordinateurs, il faut des terres rares.
Miner, c’est sans doute ce que nous faisons le mieux avec les données. “In Storage” : l’expression à retenir ! Si à une autre époque on parlait de “In database”, aujourd’hui il vous faut réclamer que vos traitements analytiques soient “In Storage” ! En effet, nous vous invitons à comparer le coût de service de stockage traditionnel par rapport au stockage objet : 1To, c’est plus ou moins 20 € par mois !
Databricks est certainement la plateforme la plus complète. Aujourd’hui, elle s’est tout faire : Streaming, Batch, Analytics, Machine learning… Il est vrai que nous parlons souvent de ce fil rouge. Sans doute parce que vous éclairer ici, face aux dynamiques en force dans l’Hexagone avec l’influence tant américaine que chinoise (aujourd’hui), reste un de nos leitmotivs !
Confluent adopte Apache Iceberg et propose un tout en un : TableFlow ! Et il faut se rappeler que Confluent a acheté Immerok. Avec TableFlow les ambitions de Confluent se dessinent… et ils ont Flink ! Ils couvrent une très grande partie de la chaîne.
Voilà aussi Strimzi, l’opérateur pour Apache Kafka pour Kubernetes, qui progresse à la CNCF. Quand, en même temps à la fondation Apache, Apache Ynikorn, un planificateur « à la » Yarn d’Hadoop, faisait son show à KubeCon qui s’est tenu à Paris la semaine dernière, du 19 au 22 Mars.
La décarbonation de l’économie modifie le paysage tant en matière de chaîne d’approvisionnement, que de chaîne de valeur !
L’Etat consacre chaque année une journée au cloud et rappelle ainsi ces ambitions en matière de souveraineté numérique. Si les hyperscalers font aussi partie de la solution, la maîtrise des données est belle et bien le cheval de bataille. Les coûts, les coûts, les coûts ! C’est l’autre point qui préoccupe tout le monde pour une meilleure maîtrise des montants qui soutiennent l’infrastructure. Par quelles méthodes et avec quels moyens y parvenir ? Sans doute avec l’aide des hyperscalers qui ont bien compris que tous les traitements ne se feront pas tous dans le cloud. Alors il y a une nouvelle bataille : fini les coûts de sortie des données !
Prenons un autre angle : Apple met en open source Comet. Là aussi, une manière de faire diminuer les coûts de traitements des requêtes SQL dans Apache Spark SQL.
Enfin, le blog de Kestra se place aux premières loges du match entre le challenger SQLMesh et DBT dont les performances, donc les coûts, commencent à sérieusement être remis en cause.
Il n’y a plus à se convaincre de l’utilité du Lakehouse. La flexibilité, la minimisation des coûts, la simplicité, l’agilité, les formats ouverts sont autant d’arguments pour le choisir dès maintenant.
Apple, LinkedIn et avant eux Uber ont passés en open source leurs solutions afin de partager leur vision nouvelle de la gestion des données !
Le data lakehouse est sans nul doute l’aboutissement d’un nombre de projets open source et l’engagement incommensurable de développeurs. Julien LEDEM, Chris RICCOMINI sont de cette génération qui auront été à l’origine de nombre de projets : Apache Parquet, Apache Kafka, Apache Samza, Apache Arrow, OpenLinage…
Merci à eux pour ces contributions.
Logiciels
Flyde est une boîte à outils de programmation visuelle basée sur les flux qui s’intègre à votre code existant. Il vous permet de créer et d’exécuter des programmes visuels. Flyde s’intègre à TypeScript (et JavaScript) sur Node.js et les projets frontend.
ingestr est un outil CLI permettant de copier des données entre n’importe quelle base de données avec une seule commande de manière transparente.
OpenObserve est une plateforme d’observabilité native dans le cloud (journaux, métriques, traces) qui offre des coûts de stockage très très inférieurs aux solutions existantes. Un coût opérationnel nettement inférieur et une facilité d’utilisation. Il peut passer à l’échelle jusqu’à des pétaoctets de données et est très performant (“In Storage”).
Daytona est l’alternative d’entreprise aux espaces de codes GitHub. Il fournit une plateforme de gestion de l’environnement de développement sécurisée, évolutive et standardisée. Daytona prend en charge les conteneurs de développement et s’intègre de manière transparente à n’importe quel fournisseur IDE ou Git.