Construire un datalake et une plateformes de données constitue bien souvent le premier pas dans un projet d’amélioration du dispositif de données. Comment construire des « lacs de données » efficaces, avec quels outils ? Nous avons identifié 3 étapes indispensables en amont de tout projet de mise en place d’un datalake.
Construire un datalake – 1ère étape : établir un diagnostic adapté
Avant de se lancer dans la création d’un Data Lake, il est nécessaire de faire un diagnostic et de se poser quelques questions autour des données utilisées, de l’utilisation de la donnée et de la maturité de l’entreprise vis-à-vis de l’utilisation de la donnée.
En fonction des services, les réponses seront différentes. Par exemple, au sein d’équipes actuarielles, l’ingestion de nouvelles données pour développer des modèles actuariels est clé, notamment avec l’augmentation croissante des données disponibles (développement de l’open data, essor des data brokers, données de marché …). Pour les équipes de gestion, les modèles de données sont plus stables, la priorité se situant dans la réalisation de reportings et d’informations consolidées en temps réel (par exemple en contrôle de gestion ou en réconciliation technico-comptable).
Voici quelques questions clés qui permettent d’établir le bon diagnostic :
- Qui ?
- Qui utilise quelles données ?
- Qui joue quels rôles dans les données de mon entreprise ?
- Quoi ?
- Quelles données sont utilisées par les équipes ? A partir de quelle source (interne / externe) ?
- Quelles solutions sont aujourd’hui utilisées dans les traitements et la visualisation des données ?
- Quels irritants (latence, inexactitude, redondance des informations) sont remontés ?
- Où ?
- Où sont les données ? Où sont les données critiques ? Comment sont-elles sécurisées ?
- Comment ?
- Comment ces données sont-elles utilisées aujourd’hui ? Et quelle utilisation à l’avenir ?
- Pourquoi ?
- Quels sont les buts poursuivis de l’organisation actuelle ?
Cette première étape fournit les éléments permettant de construire et définir :
- Une cartographie applicative pour identifier les principales parties prenantes,
- Une matrice des rôles et responsabilités,
- Une liste des irritants rencontrés et des quick wins potentiels.
Elle permet aussi d’évaluer la maturité de l’entreprise en matière de données :
- En quoi les solutions d’aujourd’hui permettent de répondre aux objectifs ?
- En quoi l’apport de nouvelles solutions peut simplifier et/ou améliorer les process existants ?
Construire un datalake – 2ème étape : bâtir le socle de mise en œuvre
Après cette phase de diagnostic, la phase de mise en œuvre gagnera à s’appuyer sur des champions qui seront moteurs dans la mise en place de nouvelles technologies et doivent donc être identifiés rapidement.
Vient ensuite la définition des objectifs du « lac de données » et les principales fonctions attendues.
Dans notre exemple initial autour des modèles actuariels, le datalake devra permettre l’intégration de données externes, pour construire des modèles pertinents de tarification des polices cat, habitation ou agriculture.
L’établissement de principes directeurs dans l’intégration et le traitement des données vise le partage de pratiques homogènes. Voici les principes que nous recommandons :
- Une donnée centrale et accessible à tous,
- Une donnée homogène, claire, unifiée et de qualité,
- La mise en place de process sécurisés et conformes,
- L’implication de tous dans la solution technique déployée,
- La mise en place d’une gouvernance claire et définie.
Des actions de formation pertinentes compléteront utilement le dispositif :
- Des formations sur les langages Python et SQL pourront rapprocher les utilisateurs des données ;
- Des formations sur les outils de Data Visualisation et de reporting comme Power BI, Tableau ou Qlik illustreront l’usage des données du datalake.
- Des formations autour de la modélisation de données et de bases de données structurées
Ces formations peuvent être dispensées par des organismes certifiés, des ressources en ligne comme Open Classroom, en interne ou via la mise en place d’un système de référent technique au sein même des équipes internes.
Ces principes et besoins constitueront le socle indispensable pour construire le cahier des charges qui bâtira le datalake.
Construire un datalake – 3ème étape : choisir la technologie
En fonction des besoins énoncés lors de la deuxième étape, la réflexion peut s’engager pour un choix technologique pertinent et cohérent.
Dans le cadre de cet article, nous avons identifié deux solutions de marché innovantes et de plus en plus présentes chez les acteurs de la finance : Databricks et Snowflake. Ces solutions sont-elles adaptées et pérennes pour répondre aux problématiques du secteur de l’assurance et de la banque ? Eléments de réponse :
DataBricks
- Plateforme basée sur le cloud et utilisable sur les principaux fournisseurs (AWS, Azure et GCP), permettant de bénéficier de la scalabilité tant en stockage, qu’en performance et en puissance et ainsi utiliser la flexibilité du Cloud
- Intégration native de notebook SQL et Python, rapprochant de manière efficace les données de leur utilisation.
- Modules de Machine Learning et d’IA intégrés.
- Capacité à intégrer de la donnée structurée et non-structurée.
- Fonctionnalités avancées en termes de sécurité et de gouvernance.
DataBricks est de plus en plus implémenté au sein des assurances et des banques (par exemple AXA France, Crédit Suisse). Point fort pour tout ce qui nécessite des développements complexes (Ex : Pricing) avec un volume de données à croiser qui est important, et qui nécessitent l’utilisation de modèles
- Tout en un : Databricks
Snowflake
- Plateforme basée sur le cloud et utilisable sur les principaux fournisseurs (AWS, Azure et GCP), permettant de bénéficier de la scalabilité et de la flexibilité du Cloud.
- Support multi-cloud : capacité de la solution à migrer son infrastructure d’un Cloud à un autre.
- Fonctionnalités avancées en termes de sécurité et de gouvernance.
- Intégration native de SQL.
Snowflake est de plus en plus implémenté au sein des assurances et des banque américaines (Anthem, Capital One and Nationwide).
- Particulièrement pertinent pour répondre aux besoins de reporting et de BI
- Banque : modèle de données va moins évoluer
Une fois la donnée intégrée dans ces solutions, les cas d’usage possibles sont nombreux : analyse de risques, détection de fraudes, aide à la souscription ou à la gestion des investissements. Le principal point d’attention concerne la sécurité et la bonne compréhension de la facturation associée à la mise en place de ces solutions.
Scalables, sécurisées et de plus en plus éprouvées dans le secteur de l’assurance et de la banque, Databricks et Snowflake présentent donc chacun des atouts significatifs pour répondre aux problématiques de construction de data plateformes durables.
En conclusion
Pour tirer parti de la meilleure des manières possibles de leurs données, les assurances et mutuelles, deviennent de plus en plus matures dans la gestion de la donnée et ont orienté leur organisation et leur culture d’entreprise vers des modèles Data Driven.
Ces changements culturels ont des impacts concrets sur les compétences développées et à développer au sein des équipes, ainsi que dans les choix technologiques.
Pour intégrer de plus en plus de données, ces solutions doivent être scalables, sécurisées et rendre la donnée facilement accessible à tout le monde, via du développement Python, SQL ou des outils de Data Visualisation. Enfin, les éditeurs proposent de plus en plus des solutions LOW CODE ou NO CODE. Dans ce cas, les actions attendues relèvent davantage du paramétrage de fonctionnalités.
Une fois mise en place, ces solutions apportent des gains considérables, notamment sur des problématiques comme l’analyse de risque, l’analyse de portefeuille, le suivi de flux, le pricing et les réconciliations compta-gestion ou encore la réalisation de reportings réglementaires.