L’Actualité de la donnée de Septembre 2023

L’informatique a cette nature de perpétuellement se réinventer ! Elle est en support de tous les secteurs, elle doit comprendre les rouages de chacun d’entre eux ; il convient aussi de saisir les subtilités de ses propres mécanismes.

Justement, vous êtes-vous demandé comment fonctionnait cette IA, aujourd’hui générative, demain bien mieux intelligente ? Allez voir l’envers du décor comme nous le montre le Washington Post ? Arrêtez-vous vous aussi sur les nouvelles usines, celles-là à création de contenu, pour le web et vos meilleures applications. N’est-ce pas ce que je suis en train de faire ici ? Du contenu.

37Signals est connu pour sa solution Basecamp. Elle agite le web en questionnant le modèle économique qui soutient les applications SAAS et le Cloud ! Possédez son informatique n’est sans doute pas si rétrograde ! La question de la souveraineté informatique n’est pas que pour les Etats.

Et comment après une telle introduction, il est encore possible de parler de Data Product, de Data Lakehouse, d’architecture de traitement temps réel ? Et bien en vous invitant à philosopher avec Hartmut Rosa, qui nous suggère de s’interroger sur notre relation à l’accélération dans laquelle nous sommes plongés.

Behind the AI boom, an army of overseas workers in ‘digital sweatshops’

Chez Onclusive, plus de la moitié des salariés français remplacés par des outils d’intelligence artificielle

Voici une usine à création de contenu

Once: You used to pay for it once, install it, and run it.

Hartmut Rosa, penseur de l’accélération : « L’accélération conduit à un état d’agressivité, particulièrement sensible chez les individus des sociétés occidentales »

Une et une architecture : Apache Iceberg

Appréhender des nouvelles technologies demeure compliqué. Les ressources sont difficilement mobilisables. Les organisations n’ont jamais eu le mode d’emploi pour facilement adopter de nouvelles briques dans le système d’information.

Il a été question d’avoir une seule plateforme qui répondait à tous les besoins. Elle s’est heurtée à un trop grand nombre de composants à apprendre ! Alors est-ce qu’un et un format pourrait faciliter autant la mise en œuvre des traitement batch que des traitement de streaming ?

Est-ce qu’un langage – le langage de manipulation des données – peut se mettre au streaming ? Beaucoup voient en Apache Iceberg le format qui sait rapprocher les deux mondes– ce qui est sans doute vrai pour ces concurrents. Un même format, une même plateforme pour tous vos types de traitements.

Why Kafka Is the New Data Lake? t

A Real-Time Data Platform for Player-Driven Game Experiences

Streaming from Apache Iceberg – Building Low-Latency and Cost-Effective Data Pipelines

Getting Started with Flink SQL and Apache Iceberg

Using Debezium to Create a Data Lake with Apache Iceberg

The Road to Composable Data Systems: Thoughts on the Last 15 Years and the Future

Data Product

Le marché de l’informatique en perd la tête. La donnée doit définitivement être entre toutes les mains ! Si le Big Data a eu vocation à gérer de large volume de données, aujourd’hui c’est une autre affaire ! Un nombre toujours croissant d’utilisateurs qui doit pouvoir accéder à toutes les données.

Une autre affaire !

Une affaire de plateformisation, de standardisation.

Voilà pourquoi, il nous faut des contrats autour des données si celles-ci sont entre toutes les mains. Qui définit ce “produit” ? Le producteur ou le consommateur ? A l’heure de la collaboration, un dialogue entre les deux parties est préférable : le producteur aura le dernier mot. C’est ce que pense Adrea Gioia, une ancienne connaissance faite à l’époque de SpagoBI et qui est à la pointe sur le sujet de la gouvernance des données et du Data Product. Il ajoute qu’une solution logicielle doit gérer ces contrats et techniquement en imposer les contraintes ; autrement il sera encore question de “papier” et de spécifications… Cette solution est forcément collaborative.

Il est aussi question de forte collaboration chez BlaBlaCar quant à la manière de structurer les équipes data au sein de toute l’organisation. Très inspirant ! Chez Synaltic nous considérons que la donnée doit être partout ! Au lieu d’avoir une archipélisation des besoins en données, nous considérons que des data facilitateurs incarnent le premier maillon de l’animation, de la promotion de la culture de la donnée dans l’organisation. Bien sûr ce support peut aussi être externe.

1×09 – Inside a Data Contract – Data Mesh Roundtable by Scott Hirleman & Jean-Georges « jgp » Perrin

Scaling Data Teams: 5 Learnings from BlaBlaCar

Cost of a Data Breach Report 2023

Elastic vs Opensearch

Synaltic a démarré son soutien à Elasticsearch il y a fort longtemps (2011). Déjà à cette époque nous considérions qu’Elasticsearch pouvait offrir une vision “temps réel” d’une donnée transactionnelle ! Synaltic a gardé son attachement à Elasticsearch et à Elastic, son éditeur. Nos projets nous ont amené à travailler avec Opensearch !

Nous avons donc travaillé avec Opensearch, non sans mal… La migration a réclamé de revoir nos développements. Des interrogations ont alors jalonné cette migration.

Nous notons que bien qu’Elastic ait revu sa licence le nombre de contributeurs n’a pas diminué au profit d’Opensearch.

Par ailleurs, nous sommes aussi utilisateurs de la plateforme cloud d’Elastic. Nous en sommes satisfaits. Toutefois, nous voulons rappeler qu’à moins d’être un fournisseur de solution en cloud – ce qui est loin le cas de tout le monde – il reste tout à fait possible de travailler avec les versions des composants open source d’Elastic.

Somehow OpenSearch has succeeded

Send your logs to Loki

Tracing avec Opentelemetry: pourquoi c’est le futur (et pourquoi ça remplacera les logs)

Logiciels

Resate

Restate est un framework qui rend la création d’applications distribuées et de microservices plus simple, évolutive et résiliente. Il utilise un échangeur d’événements durable pour garantir que les appels RPC seront terminés avec succès, même en cas de panne.

https://www.restate.dev/

https://www.restate.dev/blog/why-we-built-restate/ – Why we built Restate

LanceDB

LanceDB est une base de données open-source pour la recherche vectorielle construite avec un stockage persistant, ce qui simplifie grandement la récupération, le filtrage et la gestion des plongements.

https://lancedb.github.io/lancedb/

L’Actualité de la donnée de Septembre 2023

Dernières Publications :

L’actualité de la donnée de Janvier 2026

L’Actualité de la donnée de Décembre 2025

L’Actualité de la donnée de Novembre 2025

L’Actualité de la donnée d’Octobre 2025

Interagissez avec nous !