L’Actualité de la donnée d’Août 2022

Choisir sa plateforme de données toujours pas si simple

L’accessibilité de la donnée est un enjeu majeur pour toutes les organisations aujourd’hui. Seulement, le choix de sa plateforme de données se révèle crucial ; il convient d’anticiper son coût, sa capacité à être interactive, sa capacité à bien prendre en charge les données en votre possession.

Tous ces critères ont fait l’objet d’étude ces derniers temps. Il apparaît que les organisations qui proposent un suivi détaillé des coûts de plateformes comme Snowflakes, BigQuery se livrent une instance concurrence. Les entrepôts de données cloud vous factureront les opérations de clustering automatisées nécessaires pour optimiser les performances des tables et permettront aux utilisateurs d’essayer de réduire le temps et les charges de travail lentes en leur fournissant simplement plus de ressources de calcul. Contrôler sa facture devient très complexe.
Dans la même lignée, un papier vient rappeler à quel point des systèmes distribués, comme Spark, présentent un surcoût afin de gérer au mieux l’aspect distribué de l’architecture. Alors Scale-In ou Scale-Out ? Synaltic vous aide.

Melt Away Your Cloud Data Warehouse Costs
https://www.dremio.com/blog/melt-away-your-cloud-data-warehouse-costs/
A VLDB paper independently benchmarked @DuckDB and @ApacheSpark with TPC-H (a standard analytics benchmark) on 1 node and found DuckDB to be over 14 times faster!
https://twitter.com/__AlexMonahan__/status/1566053135390388225
Query Processing on Tensor Computation Runtimes
https://www.vldb.org/pvldb/vol15/p2811-he.pdf
Flare: Optimizing Apache Spark with Native Compilationfor Scale-Up Architectures and Medium-Size Data
https://www.cs.purdue.edu/homes/rompf/papers/essertel-osdi18.pdf

Le changement climatique impacte durablement l’informatique

Si vous voulez réellement comprendre les enjeux climatiques pour le secteur informatique, nous vous invitons à voir ou revoir les interventions de Tristan Nitot qui s’est donné pour mission de nous aider à comprendre afin de mieux arbitrer nos choix en la matière. Justement, il rejoint Scaleway – l’autre plateforme cloud français qui monte – en tant que responsable du développement durable.
Cette actualité vient nous rappeler tous les impacts que la conjoncture actuelle fait peser sur le secteur : les embauches ralentissent chez les gros acteurs, les prix qui vont suivre l’inflation. Et finalement, une petite musique qui montre que le Cloud c’est bien, mais il est loin d’être infini. Si le manque de semi-conducteurs avait déjà alerté, aujourd’hui imaginer que toutes, mais bien toutes les organisations quittent leurs datacenters en propre pour aller dans le Cloud : ce serait un non sens. N’est-ce pas ? L’effort d’efficience, ou de sobriété, est aussi pour l’informatique. L’optimisation de nos ressources informatiques fait aussi partie de l’équation et il faut que l’on se le dise dès à présent : le cloud ne supportera pas toute l’informatique de toutes les organisations.

Je rejoins Scaleway en tant que Sustainability Lead
https://www.standblog.org/blog/post/2022/09/05/Je-rejoins-Scaleway-en-tant-que-Sustainability-Lead
Le cloud ou l’illusion de capacité informatique infinie
https://www.lemondeinformatique.fr/actualites/lire-le-cloud-ou-l-illusion-de-capacite-informatique-infinie-87317.html
Cloud souverain – Géopolitique de la data – Benjamin Bayart à USI
https://www.youtube.com/watch?v=b1iXIZ71Hek
Performance et prix, comment le hardware influence nos programmes (Quentin Adam)
https://www.youtube.com/watch?v=ncNLXIr6nR8
Les ajustements de prix OVHcloud en 2022 et 2023
https://blog.ovhcloud.com/les-ajustements-de-prix-ovhcloud-en-2022-et-2023/
Why Google employees fear the worst as the company quietly extends its hiring freeze
https://www.businessinsider.com/google-employees-company-quietly-extends-its-hiring-freeze-2022-8?r=US&IR=T

Data Engineering, Analytics Engineering de bonnes pratiques s’imposent.

Si Data Mesh est de mise. S’il faut considérer la donnée tel un produit. Comment le mettre en œuvre ? Le développement informatique a toujours donné la ligne à suivre. Mais les projets de données ont leurs propres nécessités. Ici quelques bonnes recettes.

Github Best Practices for Analytics Engineering
https://www.datafold.com/blog/github-best-practices-for-analytics-engineering?utm_source=twitter&utm_medium=post&utm_campaign=mschott_github_analytics&exp_id=
backfilling data without properly explaining
https://twitter.com/jim_dowling/status/1551870452783611904

Logiciels

Velox

Il s’agit d’un nouveau moteur d’exécution unifié à la pointe de la technologie qui vise à accélérer les systèmes de gestion des données ainsi qu’à rationaliser leur développement. Velox unifie les composants communs gourmands en données des moteurs de calcul de données tout en étant extensible et adaptable à différents moteurs de calcul. Il démocratise les optimisations qui n’étaient auparavant implémentées que dans des moteurs dédiés à un et un système, fournissant un cadre dans lequel une sémantique cohérente peut être implémentée. Cela réduit la duplication du travail, favorise la réutilisation et améliore l’efficacité et la cohérence globales.
Velox viendra soutenir les futures plateformes de données ; leurs interfaces ou cadres de développements seront toujours très riches avec un même cœur optimisé et réutilisé. Velox devrait bientôt se retrouver dans PrestoDB par exemple.

https://velox-lib.io/
https://engineering.fb.com/2022/08/31/open-source/velox/

Karpenter

Karpenter lance automatiquement les bonnes ressources de calcul pour gérer les applications de votre cluster. Il est conçu pour vous permettre de tirer pleinement parti du cloud avec un provisionnement de calcul simple et rapide pour les clusters Kubernetes.

https://karpenter.sh/

Dernières Publications :

L’Actualité de la donnée de Mai 2025

L’Actualité de la donnée d’Avril 2025

L’Actualité de la donnée de Mars 2025

L’Actualité de la donnée de Février 2025

Interagissez avec nous !