L’Actualité de la donnée de Septembre 2023

L’informatique a cette nature de perpétuellement se réinventer ! Elle est en support de tous les secteurs, elle doit comprendre les rouages de chacun d’entre eux ; il convient aussi de saisir les subtilités de ses propres mécanismes.

Justement, vous êtes-vous demandé comment fonctionnait cette IA, aujourd’hui générative, demain bien mieux intelligente ? Allez voir l’envers du décor comme nous le montre le Washington Post ? Arrêtez-vous vous aussi sur les nouvelles usines, celles-là à création de contenu, pour le web et vos meilleures applications. N’est-ce pas ce que je suis en train de faire ici ? Du contenu.

37Signals est connu pour sa solution Basecamp. Elle agite le web en questionnant le modèle économique qui soutient les applications SAAS et le Cloud ! Possédez son informatique n’est sans doute pas si rétrograde ! La question de la souveraineté informatique n’est pas que pour les Etats.

Et comment après une telle introduction, il est encore possible de parler de Data Product, de Data Lakehouse, d’architecture de traitement temps réel ? Et bien en vous invitant à philosopher avec Hartmut Rosa, qui nous suggère de s’interroger sur notre relation à l’accélération dans laquelle nous sommes plongés.










Une et une architecture : Apache Iceberg


Appréhender des nouvelles technologies demeure compliqué. Les ressources sont difficilement mobilisables. Les organisations n’ont jamais eu le mode d’emploi pour facilement adopter de nouvelles briques dans le système d’information.

Il a été question d’avoir une seule plateforme qui répondait à tous les besoins. Elle s’est heurtée à un trop grand nombre de composants à apprendre ! Alors est-ce qu’un et un format pourrait faciliter autant la mise en œuvre des traitement batch que des traitement de streaming ?

Est-ce qu’un langage – le langage de manipulation des données – peut se mettre au streaming ? Beaucoup voient en Apache Iceberg le format qui sait rapprocher les deux mondes– ce qui est sans doute vrai pour ces concurrents. Un même format, une même plateforme pour tous vos types de traitements.











Data Product


Le marché de l’informatique en perd la tête. La donnée doit définitivement être entre toutes les mains ! Si le Big Data a eu vocation à gérer de large volume de données, aujourd’hui c’est une autre affaire ! Un nombre toujours croissant d’utilisateurs qui doit pouvoir accéder à toutes les données.

Une autre affaire !

Une affaire de plateformisation, de standardisation.

Voilà pourquoi, il nous faut des contrats autour des données si celles-ci sont entre toutes les mains. Qui définit ce “produit” ? Le producteur ou le consommateur ? A l’heure de la collaboration, un dialogue entre les deux parties est préférable : le producteur aura le dernier mot. C’est ce que pense Adrea Gioia, une ancienne connaissance faite à l’époque de SpagoBI et qui est à la pointe sur le sujet de la gouvernance des données et du Data Product. Il ajoute qu’une solution logicielle doit gérer ces contrats et techniquement en imposer les contraintes ; autrement il sera encore question de “papier” et de spécifications… Cette solution est forcément collaborative.

Il est aussi question de forte collaboration chez BlaBlaCar quant à la manière de structurer les équipes data au sein de toute l’organisation. Très inspirant ! Chez Synaltic nous considérons que la donnée doit être partout ! Au lieu d’avoir une archipélisation des besoins en données, nous considérons que des data facilitateurs incarnent le premier maillon de l’animation, de la promotion de la culture de la donnée dans l’organisation. Bien sûr ce support peut aussi être externe.







Elastic vs Opensearch

Synaltic a démarré son soutien à Elasticsearch il y a fort longtemps (2011). Déjà à cette époque nous considérions qu’Elasticsearch pouvait offrir une vision “temps réel” d’une donnée transactionnelle ! Synaltic a gardé son attachement à Elasticsearch et à Elastic, son éditeur. Nos projets nous ont amené à travailler avec Opensearch !

Nous avons donc travaillé avec Opensearch, non sans mal… La migration a réclamé de revoir nos développements. Des interrogations ont alors jalonné cette migration.

Nous notons que bien qu’Elastic ait revu sa licence le nombre de contributeurs n’a pas diminué au profit d’Opensearch.

Par ailleurs, nous sommes aussi utilisateurs de la plateforme cloud d’Elastic. Nous en sommes satisfaits. Toutefois, nous voulons rappeler qu’à moins d’être un fournisseur de solution en cloud – ce qui est loin le cas de tout le monde – il reste tout à fait possible de travailler avec les versions des composants open source d’Elastic.








Logiciels


Resate

Restate est un framework qui rend la création d’applications distribuées et de microservices plus simple, évolutive et résiliente. Il utilise un échangeur d’événements durable pour garantir que les appels RPC seront terminés avec succès, même en cas de panne.





LanceDB

LanceDB est une base de données open-source pour la recherche vectorielle construite avec un stockage persistant, ce qui simplifie grandement la récupération, le filtrage et la gestion des plongements.