L’Actualité de la donnée de Mars 2024

Marcel Proust écrivait dans « À l’Ombre des jeunes filles en fleurs » : Il y a moins de force dans une innovation artificielle que dans une répétition destinée à suggérer une vérité neuve.

Il est vrai que nous n’attendons pas le poète sur le sujet de l’innovation ! Cependant, à travers toutes nos actions, décisions et prises de paroles, il est bon de se répéter cette phrase. L’Europe, qui s’est inscrite en chantre de l’innovation, veut aujourd’hui mieux contrôler les plateformes avec l’entrée en vigueur du DMA. L’Europe, comme nombre de pays, va dors et déjà faire face à la “dénatalité”. Un phénomène mondial qui transformera complètement les économies !

Ce bouleversement vient s’ajouter à l’impact que va avoir la décarbonation de l’économie qui, là aussi, bouscule complètement les chaînes de valeurs. Retour aux mines ! Pour produire un véhicule électrique il faut 3 fois plus de métal qu’un véhicule traditionnel. Pour produire nos chers ordinateurs, il faut des terres rares.

Miner, c’est sans doute ce que nous faisons le mieux avec les données. “In Storage” : l’expression à retenir ! Si à une autre époque on parlait de “In database”, aujourd’hui il vous faut réclamer que vos traitements analytiques soient “In Storage” ! En effet, nous vous invitons à comparer le coût de service de stockage traditionnel par rapport au stockage objet : 1To, c’est plus ou moins 20 € par mois !

Innover : pour quoi faire?

Qu’est-ce qui change avec le Digital Markets Act?

Google is changing its search results to weed out SEO spam

« Comment bifurquer » avec Cédric Durand // Faut-il relancer la production minière en France ?

La baisse de la fertilité, un phénomène mondial qui va s’accentuer

Hyper Converged Data Platform

Databricks est certainement la plateforme la plus complète. Aujourd’hui, elle s’est tout faire : Streaming, Batch, Analytics, Machine learning… Il est vrai que nous parlons souvent de ce fil rouge. Sans doute parce que vous éclairer ici, face aux dynamiques en force dans l’Hexagone avec l’influence tant américaine que chinoise (aujourd’hui), reste un de nos leitmotivs !

Confluent adopte Apache Iceberg et propose un tout en un : TableFlow ! Et il faut se rappeler que Confluent a acheté Immerok. Avec TableFlow les ambitions de Confluent se dessinent… et ils ont Flink ! Ils couvrent une très grande partie de la chaîne.

Voilà aussi Strimzi, l’opérateur pour Apache Kafka pour Kubernetes, qui progresse à la CNCF. Quand, en même temps à la fondation Apache, Apache Ynikorn, un planificateur « à la » Yarn d’Hadoop, faisait son show à KubeCon qui s’est tenu à Paris la semaine dernière, du 19 au 22 Mars.

Confluent Adds Flink, Iceberg to Hosted Kafka Service

CNCF Incubates Strimzi to Simplify Kafka on Kubernetes

DoK Community Sponsor Spotlight: Apache YuniKorn

PROMIS, EN 2024 ON REPREND LA MAIN !

La décarbonation de l’économie modifie le paysage tant en matière de chaîne d’approvisionnement, que de chaîne de valeur !

L’Etat consacre chaque année une journée au cloud et rappelle ainsi ces ambitions en matière de souveraineté numérique. Si les hyperscalers font aussi partie de la solution, la maîtrise des données est belle et bien le cheval de bataille. Les coûts, les coûts, les coûts ! C’est l’autre point qui préoccupe tout le monde pour une meilleure maîtrise des montants qui soutiennent l’infrastructure. Par quelles méthodes et avec quels moyens y parvenir ? Sans doute avec l’aide des hyperscalers qui ont bien compris que tous les traitements ne se feront pas tous dans le cloud. Alors il y a une nouvelle bataille : fini les coûts de sortie des données !

Prenons un autre angle : Apple met en open source Comet. Là aussi, une manière de faire diminuer les coûts de traitements des requêtes SQL dans Apache Spark SQL.

Enfin, le blog de Kestra se place aux premières loges du match entre le challenger SQLMesh et DBT dont les performances, donc les coûts, commencent à sérieusement être remis en cause.

Les DSI reviennent sur leurs stratégies 100% cloud

Million Dollar Lines of Code: an Engineering Perspective on Cloud Cost Optimization

La souveraineté numérique au cœur des débats lors de la grand-messe du cloud de l’Etat

Les frais de sortie en voie d’extinction chez les hyperscalers

Apache Arrow Announces DataFusion Comet

Is It Time To Move From dbt to SQLMesh?

POURQUOI LE DATA LAKEHOUSE ?

Il n’y a plus à se convaincre de l’utilité du Lakehouse. La flexibilité, la minimisation des coûts, la simplicité, l’agilité, les formats ouverts sont autant d’arguments pour le choisir dès maintenant.

Apple, LinkedIn et avant eux Uber ont passés en open source leurs solutions afin de partager leur vision nouvelle de la gestion des données !

Le data lakehouse est sans nul doute l’aboutissement d’un nombre de projets open source et l’engagement incommensurable de développeurs. Julien LEDEM, Chris RICCOMINI sont de cette génération qui auront été à l’origine de nombre de projets : Apache Parquet, Apache Kafka, Apache Samza, Apache Arrow, OpenLinage…
Merci à eux pour ces contributions.

Managing Tables in a Data Lakehouse

Chapter I: The birth of Parquet

Chapter II: From Parquet to Arrow

Chapter III: Onwards, OpenLineage

From Samza to Flink: A Decade of Stream Processing

Apple’s Comet Brings Fast Vector Processing to Apache Spark

Logiciels

Flyde.dev

Flyde est une boîte à outils de programmation visuelle basée sur les flux qui s’intègre à votre code existant. Il vous permet de créer et d’exécuter des programmes visuels. Flyde s’intègre à TypeScript (et JavaScript) sur Node.js et les projets frontend.

https://www.flyde.dev/

Ingestr

ingestr est un outil CLI permettant de copier des données entre n’importe quelle base de données avec une seule commande de manière transparente.

https://github.com/bruin-data/ingestr

Openobserve

OpenObserve est une plateforme d’observabilité native dans le cloud (journaux, métriques, traces) qui offre des coûts de stockage très très inférieurs aux solutions existantes. Un coût opérationnel nettement inférieur et une facilité d’utilisation. Il peut passer à l’échelle jusqu’à des pétaoctets de données et est très performant (“In Storage”).

https://openobserve.ai/

Daytona

Daytona est l’alternative d’entreprise aux espaces de codes GitHub. Il fournit une plateforme de gestion de l’environnement de développement sécurisée, évolutive et standardisée. Daytona prend en charge les conteneurs de développement et s’intègre de manière transparente à n’importe quel fournisseur IDE ou Git.

https://github.com/daytonaio

Dernières Publications :

L’Actualité de la donnée de Mai 2025

L’Actualité de la donnée d’Avril 2025

L’Actualité de la donnée de Mars 2025

L’Actualité de la donnée de Février 2025

Interagissez avec nous !