L’Actualité de la donnée de l’été 2021

Introduction

La vision quant à la manière dont on envisage la résorption d’un problème résulte souvent des connaissances à notre disposition et plus précisément de celles en notre possession.

Aurélie Jean, Docteur en Informatique et vulgarisatrice apporte régulièrement ses opinions au Point, et invite les grands réseaux sociaux à ouvrir leurs algorithmes. Éclairé, tout développeur aiderait à résoudre les clash et tous ces propos haineux !

Prendre un problème avec un autre angle, c’est ce que des chercheurs ont fait en détournant un virus capable de s’attaquer spécifiquement à des cellules cancéreuses.

Au travers de cette lettre c’est un peu le rôle que nous nous donnons : vous éclairer et vous apporter d’autres points de vue pour penser vos plateformes de données, votre gouvernance de données pratique et pragmatique.




Un nouveau pas vers l’intelligence artificielle généralisée

Deepmind pense que le reinforcement learning – l’apprentissage par renforcement consiste, pour un agent autonome, à apprendre les actions à prendre, à partir d’expériences – est suffisant pour atteindre l’intelligence artificielle généralisée. L’apprentissage par renforcement profond produit des résultats alors que les autres outils d’apprentissage automatique et d’optimisation sont incapables d’en produire.


Dans le même temps, c’est Google, la maison mère de Deepmind, qui explique avoir mis au point un algorithme de reinforcement learning qui conçoit des puces pour accélérer les calculs complexes liés à l’intelligence artificielle.


DeepMind says reinforcement learning is ‘enough’ to reach general AI

Google used reinforcement learning to design next-gen AI accelerator chips


Votre base de données Oracle, Cloud Native ?

S’il y a bien une technologie qui symbolise les systèmes hérités au sein des systèmes d’information contemporains c’est bien la base Oracle. Dirait-on que cette base de données est “Cloud Native” ! En tout cas, c’est bien parti pour vous pousser à moderniser votre système d’information. 

A la fois, Oracle a facilité l’exécution de sa base de données au sein de container. A la fois, Google vient de libérer en open source, El Carro, un opérateur Kubernetes pour la base de données Oracle.








Cloud Data Warehouse ou Data Lakehouse ?

Le data warehouse des années 1990 a vécu ; il est maintenant dans le cloud avec cette fameuse séparation entre stockage et compute. Nous l’avons déjà dit ici qu’il fallait bien tenir compte des formats, et privilégier ceux qui sont ouverts pour éviter le vendor locking ! Et il est bien pertinent dans ce cas de considérer un environnement qui mêle et Data Lake et Data Warehouse : le Data Lakehouse.  
C’est Databricks qui nous invite à bien comprendre l’intérêt du Data Lakehouse et en même temps un nouvel acteur israelien, FireBolt, qui vient défier Snowflake en expliquant qu’il superforme et pour un coût de possession bien moindre sur ce marché du cloud data warehouse ! Ce marché est très dynamique… mais nous avons dit qu’il était important de bien faire attention au format 




État de l’art des plateformes de données en 2021

 
Et bien allons au-delà du Cloud Datawarehouse, ou du Data Lakehouse… Prenons un peu de hauteur pour bien comprendre les enjeux, identifier les acteurs, les cas d’usage dans la construction de plateforme de données et pourquoi aller vers le Sky Computing avec une certaine injonction à la compatibilité de toutes les couches et facilement passer d’un fournisseur à l’autre.
C’est la voie pour laquelle plaide Ion Stoica and Scott Shenker de l’Université de Berkeley. Nous sommes certains que vous y trouverez une certaine inspiration, tout comme, l’équipe Synaltic qui se tient très informée afin de vous accompagner dans vos projets de plateforme de données.






Base de données modernes, le versionning un must  

Pour construire vos plateformes de données, le Data Lakehouse vous aide dans la consolidation des données. En amont il vous faut concevoir les logiciels qui vont collecter ces données, vous aurez besoin de base de données pour les soutenir. Et sans doute l’attendiez-vous, une base de données qui versionne les données, les métadonnées… 

Et bien voilà que deux acteurs nous offrent avec des approches très simples à en séduire les développeurs une sorte de git pour la base de données. Ici aussi on change de paradigme ! La données est comme le code elle se versionne !





Logiciels

Databricks annonce Delta Sharing 

Databricks et de nombreux acteurs ont annoncé la disponibilité de Delta Scharing pour faciliter le partage de données entre les organisations. L’idée primaire laisse la donnée là où elle est et la consomme à distance ! Bien entendu il s’agit de bien exploiter les formats ouverts. Ce protocole a déjà été adopté par Dremio, Tableau, Microsoft, Google, Looker, Colibra…

Dremio, summer 2021 release

Google Open Source Live mettra en évidence plusieurs sessions présentées par les membres de l’équipe Data Analytics et la communauté, y compris un discours liminaire de VP for Cloud Developer.