L’Actualité de la donnée de Mars 2023

Remise en cause et nouvelles propositions !

Des remises en cause et des nouvelles propositions voient le jour. La révision des architectures plus orientées “applications” commence à poindre : “Cloud-Bound Application”. De même, des offres dédiées au bâtisseurs de solution en SAAS émergent.

Et pendant ce temps là on imagine ce que va devenir le data warehouse, on s’affole face au prix du cloud public, le quittant carrément pour des infrastructures en propres.







Bas les masques : Les coûts du cloud public commencent à sérieusement dissuader
 


Si 37Signals avait déjà annoncé son plan pour quitter le cloud public… D’autres convaincus sortent du bois et partagent leurs choix et leurs retours d’expérience.

Le cloud public, utilisé à la demande, tel qu’il est pensé, représente certainement de vraies opportunités de réduction de coûts. Même si les ressources d’infrastructures, la gestion des contrats associés représentent des peines en moins, il en demeure pas moins que la complexité de la mise en œuvre de la sécurité et la lisibilité des coûts constituent désormais un frein à l’adoption de cette informatique moderne.







Oubliez vos connaissances sur la base de données, elle ne va plus ressembler à ce que vous connaissiez

Début des années 2000, Eric Brewer de l’université de Californie à Berkeley, puis Seth Gilbert et Nancy Lynch du MIT faisaient la démonstration du “CAP Theorem”.

Les principes de ce dernier aura été le fondement de nombre de moteurs de bases de données dites, NoSQL.

Depuis, des bases comme Vitess, Cockroachdb ont introduit le transactionnel (ACID) en mode distribué. Ce que l’on connaît aussi avec le format table Apache Iceberg. Ici, il est question de repenser le data warehouse ou plutôt se rendre compte que la vision que l’on en avait va complètement changer.









La Qualité des données : un sujet majeur

L’observabilité des données donne naissance à de très nombreuses offres commerciales ces derniers mois. Le sujet est au cœur de toutes les stratégies.

Les organisations veulent s’assurer que les collaborateurs en maîtrisent significativement les objectifs.

Uber va très loin avec une plateforme toute automatisée pour s’assurer d’identifier tout écart : il ne faut pas fausser les décisions.









Logiciels


Apache Paimont (en incubation)

Apache Paimon est une plate-forme de lac de données en continu qui prend en charge l’ingestion de données à faible latence, le suivi des modifications de données et leurs analyses (des modifications) efficaces en temps réel.

Vous pouvez voir Apache Paimon comme l’ingestion des données en temps réel, et standardisée !





SkyPilot

SkyPilot est un cadre permettant d’exécuter facilement et à moindre coût des charges de travail ML sur n’importe quel cloud. Vous pourrez par exemple mettre en oeuvre un Chatbot performant à la ChatGPT en quelques lignes de commandes.