L’actualité de la donnée d’Octobre 2024

Ce monde nous rend fou ! Oui, il nous rend fou parce que d’un côté on veut aller sur Mars en respectant la physique, de l’autre on raconte n’importe quoi défiant ces mêmes lois de la physique !

20 ans de Synaltic ! 20 ans de gestion de données, 20 ans à promouvoir les valeurs de l’open source et aujourd’hui plus que jamais nous invitons les organisations à garder le contrôle de leurs données. 20 ans que l’on se bat pour que les organisations forment, montent en compétence sur l’appropriation des données !

Il faut de l’intuition ! Il faut prendre des risques, il faut aussi des paris. Cependant la physique existe !

La qualité des données est cruciale. Savoir à quoi sert un indicateur. Savoir comment il est calculé. Décider avec cet indicateur… Y compris en prenant des risques et en suivant son intuition… Mais au moins on décide en connaissance de cause.

Tout ceci pour vous dire qu’il faut chausser les bonnes lunettes ! C’est peut-être ce que nous invite à faire notre Président en devenant des “carnivores”. Non des « au moins omnivores » ! Face à la situation où nous sommes, il est sûr que nous aurons besoin d’innovation étant donné la corde raide sur laquelle nous avançons actuellement !

Innover c’est sans doute savoir s’exécuter chez de plus gros acteurs comme Snowflake et Databricks – devenus incontournables. Innover c’est sans doute porter son cadre de programmation au sein de SQL alors que l’on avait jusque-là décrier le moteur et le langage.








Pourquoi Apache Iceberg ? Pourquoi maintenant ? 

Cette planche provient d’un évangeliste d’AWS qui indique que tout le monde veut savoir « pourquoi Apache Iceberg et pourquoi maintenant ? » Effectivement, les chiffres parlent d’eux mêmes ! La tendance ressemble à une déferlante !

Bien sûr il ne s’agit pas de pousser une évolution technologique pour la pousser. Au contraire, il s’agit de comprendre pourquoi est elle importante dans le cadre de votre activité, votre stratégie.

Apache Iceberg poursuit cette transformation initiée il y a bien des années : faire travailler ensemble toutes les composantes des organisations ! Il s’agit aussi d’apporter de la structuration au dialogue avec vos partenaires. Il s’agit surtout de se sentir libre. Libre de votre fournisseur de Data Warehouse ! Libre de contrôler vos données !



Existera-t-il un standard pour gérer une couche d’abstractioN ?

Ça fait bien longtemps que je n’ai plus utilisé le mot “Cube”. Encore un truc des années 2000 ! Vous êtes sans doute plus jeux de données que datamart ! N’est-ce pas ? Non Data Product ou Data Contract ? Un vieil adage disait : “il vaut mieux un bon cube que 100 rapports” !

Est-ce qu’il va falloir revenir à Mondrian ? A XMLA ? Les plus jeunes nous poussent DBT, SQLMesh, SQLX, AML…
Nous sommes à la croisée des chemins. Un standard pour la modélisation des couches de données va être nécessaire.

L’industrie de la donnée doit offrir des solutions pour faciliter l’emploi d’une même modélisation d’un moteur à l’autre. Surtout qu’avec Apache Iceberg et son catalogue, il y a déjà cette agnosticité vis-à-vis du moteur.









LLM Et productivité 

Voici de quoi nourrir votre curiosité ! Nous avons déniché trois articles passionnants sur l’impact de l’intelligence artificielle dans notre domaine.

Le premier nous montre comment l’IA booste la découverte scientifique et l’innovation … avec des résultats impressionnants (44% de nouveaux matériaux découverts, rien que ça !). Le second met en lumière les intérêts de l’IA générative pour les développeurs, augmentant leur productivité de manière remarquable. Et enfin, le dernier article nous éclaire sur les raisons pour lesquelles les projets d’IA générative échouent, et vous donne des conseils précieux pour éviter les écueils.





Infrastructure au service de l’IA

1 000 nœuds pour AWS ! 5 000 nœuds pour Azure ! Qui dit mieux ? J’ai 65 000 nœuds ici pour Google Cloud !

Google à l’origine de Kubernetes remplace etcd par sa base de données Spanner afin de répondre à l’appétit grandissant des calculs nécessaires pour entraîner les modèles d’IA.

Globalement, il y a des avancées significatives en matière de “machine virtuelle”, plus léger, très optimisé, moins gourmand, plus de sécurité, meilleures exploitation des ressources (utilisation des GPU, utilisation distribué des GPU).

L’université de Berkeley sort un projet sous le nom de SkyPilot qui simplifie grandement l’usage du Cloud et notamment de Kubernetes pour les data scientist !

Dans le même temps Apache Yunikorn propose une gestion plus fine et plus rigoureuse de la planification des ressources pour les traitements batch… Ça nous rappelle quelque chose ! Apache Hadoop Yarn et son “fair scheduling”.

Autant vous dire que le contrôle de vos données vous pouvez l’avoir et ce où vous voulez.




LOGICIELS

Apache Iceberg 1.7.0

Cette version inclut plusieurs améliorations et nouvelles fonctionnalités, telles que le support pour Spark 3.5, Flink 1.20, et des mises à jour de dépendances comme AWS SDK 2.29.1 et Apache Avro 1.12.0


Debezium 3.0.0

Ajout de nouveaux connecteurs pour MariaDB, MongoDB, MySQL, Oracle, PostgreSQL, SQL Server, Cassandra, et bien d’autres.

Passage à Java 17 pour les connecteurs et Java 21 pour Debezium Server, Operator et l’extension Outbox.

Mise à jour pour utiliser Kafka 3.8 comme base de test et de construction.

Ajout de support pour MySQL 9.1 et Cassandra 5.0.



Qlik / Talend – mise à jour de Novembre

Cette version ne comprend pas de nouvelles fonctionnalités, elle apporte des correctifs pour résoudre des exceptions non gérées dans le mécanisme de surveillance des dossiers de données et des problèmes de crash du composant DataUploadService.

Les exceptions non gérées dans le mécanisme de surveillance des dossiers de données ont été corrigées et la cause sous-jacente est maintenant enregistrée. Les fichiers temporaires sont maintenant ignorés.


Qlik / Talend – CVE

Depuis votre Studio Talend, vous pouvez détecter quels artefacts (Jobs Standards, Jobs Big Data, Routes) affectés par les vulnérabilités (Common Vulnerabilities and Exposures) ont été corrigés depuis la dernière mise à jour du Studio Talend :


HyperDX

HyperDX aide les ingénieurs à déterminer rapidement les causes des pannes de production en centralisant et en corrélant les journaux, les mesures, les traces, les exceptions et les rediffusions de session en un seul endroit. Une alternative open source et conviviale pour les développeurs à Datadog et New Relic.

 

Databend

Databend, construit en Rust, est un entrepôt de données cloud open source qui constitue une alternative économique à Snowflake. En mettant l’accent sur l’exécution rapide des requêtes et l’ingestion des données, il est conçu pour l’analyse complexe des plus grands ensembles de données du monde..