L’Actualité de la donnée d’Avril 2023

Cette lettre apporte une opinion sur l’actualité de la donnée… Il est certes question de technologies mais aussi d’humain. La difficulté ou les questionnements managériaux sont aussi au cœur des projets data. Il est à noter que l’approche “individualisée” du suivi des collaborateurs y compris des managers eux-mêmes est sans doute plus facile à dire qu’à faire.

Le dernier rapport d’Alan et Harris Interactive du 1er trimestre 2023 rappelle ces nouvelles exigences. Ces dernières reflètent les tensions sur le marché de la donnée d’abord face aux compétences folles exigées à un Data Engineer,  ensuite à un marché toujours en demande et bouleversé :

  • Seules 16% des collectivités ont démarré l’aventure open data;

  • Oracle sort une étude « Decision Dilemma » qui traduit un vrai malaise face aux données. De trop grande quantité de données dont les organisations ne savent pas se servir en vue de prendre les bonnes décisions en toute confiance.

  • Ca y est c’est au tour de Red Hat de se séparer d’une partie des ses équipes : environ 4% des effectifs.








Humour : Où en est votre Système d’information ?


Comic by Forrest Brazeal — cliquez ici pour voir l’original


Former, Former, se Former à la donnée

Si on se réfère et à l’étude d’Alan et Harris Interactive, et à l’étude « Decision Dilemma » d’Oracle, les salariés des organisations aimeraient mieux être formés à la donnée. Il apparaît que cette meilleure connaissance et appropriation les mettraient mieux en confiance quant à choisir les données issues de plus en plus de sources. Les étapes suivantes sont :

(1) manipuler la donnée pour mieux décider avec la donnée à son échelle : le nombre de décisions à prendre augmente

(2) mieux collaborer avec ses pairs grâce à la donnée et des décisions éclairées par celle-ci.

C’est dans ce contexte que nous voyons fleurir de nouvelles formations initiales où la donnée est omniprésente dans le cycle d’apprentissage sans être des parcours informatiques.

Nous saluons ces initiatives que nous rapprochons d’une part du rôle de Data Facilitateur, tel un concierge des données (le mot n’est sans doute pas flatteur, mais un rôle tellement utile). Et d’autre part, au formation de Data Steward que nous proposons afin que chacun sache se positionner dans l’organisation pour ce qui est des données, dans le système d’information, voire dans les chaînes de traitements des données vis à vis de leur diffusion et de leur accessibilité.







Data Engineering, une fonction nécessaire pour rendre les données accessibles pour décider et opérer
 


Depuis que The Economist a indiqué que le métier du 21ème siècle était le Data Scientist : ce métier fait rêver beaucoup de jeunes et travaille nombre de DSI. Dès cette époque nous n’avions de cesse de répéter que la part projet qui est laissée au Data Scientist est infime ! Il aura fallu 10 ans ! Les Data Engineers voient leur blasons re-dorés !

A noter que le Data Engineer n’est pas qu’un plombier. Aujourd’hui, il sera surtout question de rendre la donnée accessible, pas seulement disponible sur une infrastructure maîtrisée et maintenue.



Commençons par rappeler qu’il existe plusieurs formats table qui ont été créés et qui sont promus par leurs communautés respectives.

De même, chacun de ces formats apporte son lot de performances. Comme il est question de sélectionner un format pour stocker vos données sur le long terme et les rendre accessibles à tous vos outils, il s’agit alors d’identifier celui ou ceux qui seront le mieux supporter par une variété d’acteurs.

Apache Iceberg semble réunir de plus en plus d’acteurs y compris les acteurs prépondérants du moment.


Iceberg Tables: Catalog Support Now Available https://www.snowflake.com/blog/iceberg-tables-catalog-support-available-now/ Fivetran supports Amazon S3 as a destination with Apache Iceberg https://www.fivetran.com/blog/fivetran-supports-amazon-s3-as-a-destination-with-iceberg Open Data Lakehouse powered by Iceberg for all your Data Warehouse needs https://blog.cloudera.com/open-data-lakehouse-powered-by-iceberg-for-all-your-data-warehouse-needs/







ChatGPT : Apprivoisons ce nouvel animal

Je ne pensais pas que je devrais parler de ChatGPT ici !

Mince nous y voilà, nous participons au buzz. Tout d’abord une amie m’a demandé ce que j’en pensais… Pas grand chose à la base… Si ce n’est que c’est à mes yeux une vraie innovation : au sens où personne ne l’attendait ! Et il a relancé tout un pan de recherche qui était délaissé… En tout cas, je me range du côté de ceux qui pensent que ces technologies vont nous aider.

Comme l’informatique en général, cette technologie là, doit être utilisée à bon escient. Si Yann Le CUN, nous rassure… ChatGPT s’avère déjà être un bon compagnon dans nos projets de développement informatique y compris quand il s’agit des données. Il paraît qu’il faut bien lui parler, que le métier se nomme “Prompt Engineer”. Il faut sérieusement considérer ChatGPT et maintenant ces équivalents open source.











Logiciels


FerretDB 1.0 GA, l’alternative Open Source à MongoDB

MongoDB ayant revu sa licence open source, la communauté s’est motivée afin de créer une alternative qui en respecte les protocoles. Il existe un certain enthousiasme face à l’annonce de FerretDB.








Dolly 2.0

Dolly-v2-12b de Databricks, un “Large Language Model” (LLM) suivant les instructions et entraîné sur la plate-forme de machine learning de Databricks. Basé sur pythia-12b, Dolly est entraîné sur environ 15 000 enregistrements d’instructions/réponses databricks-dolly-15 000 générés par les employés de Databricks dans les domaines de capacité de l’article InstructGPT, y compris le brainstorming, la classification, les questions-réponses fermée, la génération, l’extraction d’informations, questions-réponses ouvertes et les synthèses d’analyses. Dolly-v2-12b n’est pas un modèle de l’état de l’art, mais présente une programmation de qualité. Il constitue un socle pour toutes les approches de type LLM.





Télécharger Talend Open Studio

Talend Open Studio for DI, Talend Open Studio for ESB, Talend Open Studio for Big Data sont diffusés sous licence Apache 2.

Synaltic propose une distribution de Talend Open Studio correspond aux versions « en amont » (Upstream) des produits open source Talend, dont le code est disponible sur https://github.com/Talend.

Les studio open source étant de moins en moins accessibles, nous les mettons à disposition afin d’en promouvoir l’utilisation et l’appropriation.