Épisode 1 - Manuel de Pilotage
Transcription :
(La transcription de cet épisode automatiquement. Il peut y avoir des erreurs. N’hésitez pas à nous en faire par dans les commentaires.)
– Antoine :
Moi, j’ai une théorie qui est que les meilleures data scientists ont en fait une double casquette assez rare, c’est qu’ils sont à la fois d’excellents Software Engineers et en même temps ils ont un excellent sens business pour justement échapper à l’écueil de ne s’intéresser qu’à l’engineering.
– Marc :
Bonjour et bienvenue sur data driven one le podcast qui s’intéresse aux applications concrètes de la data dans toute leur diversité. Je suis Marc Sanselme, fondateur de Scopeo, agence de recherche et développement en Data Science. Je reçois des professionnels d’horizons variés pour nous parler de leurs aventures, leurs succès, leurs échecs, leurs espoirs, leurs techniques, leurs astuces, leurs histoires et leurs convictions. Cette semaine, je reçois Antoine sauvage, ingénieur de l’École polytechnique. Il est CTO de Ovrsea depuis sa Sortie d’école en 2017. En 2020, Ovrsea accueille une participation majoritaire du groupe Bolloré. Aujourd’hui, ils sont 150 personnes dans 5 pays différents. Bonjour Antoine.
– Antoine :
Bonjour Marc, merci pour l’invitation.
– Marc :
Avec plaisir. Alors Antoine, avant de parler de data, est-ce que tu peux nous parler un peu d’Ovrsea ? Qu’est-ce que vous faites exactement?
– Antoine :
Alors Ovrsea opère un métier assez méconnu, mais qui représente près de 95 % du commerce mondial, qui s’appelle Commissionnaire de transport. Commission de transport. Il faut vraiment le voir comme un agent de voyage pour marchandise par exemple. Vous êtes une marque de cosmétique et vous voulez expédier des marchandises de votre usine à Orléans vers votre centre de distribution à Singapour? Vous avez besoin de quelqu’un qui vous organisé le camion pour aller jusqu’au port? Vous réservé un emplacement sur le bateau et de la même manière vous fasse passer les douanes et réservé un camion à l’arrivée. Donc ça, c’est le métier du commissariat de transport qui existe depuis qu’il y a du commerce international. Overseas est lancé avec une approche légèrement différente, une approche digitale, donc ça veut dire qu’en plus de ce service qu’on fournit à nos clients, on additionne une plateforme qui permet aux clients de mieux suivre ces envois, d’avoir du reporting et de bénéficier globalement de toutes les innovations digitales des 20 dernières années que nos concurrents un peu plus. Traditionnels ont pas encore réussi à transposer dans leur dans leur proposition de valeur.
– Marc :
D’accord oui donc digitalisation by design depuis le début, vous devez avoir énormément de données. Est-ce que tu peux nous parler un peu de bah chez vous? Comment s’organise la donnée, à quoi ça sert et à qui alors,
– Antoine :
La donnée, elle est vraiment partout dans notre métier, c’est le métier de Commissionnaire est un métier de données, c’est un métier où on échange de l’information entre différents acteurs de la supply chain, donc c’est vraiment notre ADN je dirais la donnée pour rentrer dans des choses un peu plus tangibles. Nous, on a une équipe data, on va dire corps assez restreinte qui est en charge de la qualité de la donnée et qui est finalement agnostique vis-à-vis de notre métier auquel on a ajouté des équipes qu’on va appeler Analytics mais qui sont en fait des vraies équipes data, aussi déportées, spécialisées dans les métiers, en particulier du côté opération mais aussi sales où produit. Donc il y a vraiment un groupe data à the service qui est en charge de l’excellence data chez Overseas et ensuite des équipes qui elles sont vraiment en charge de l’excellence. Inès, grâce à la data.
– Marc :
Ok et l’équipe data, juste pour avoir une idée de l’ordre de grandeur, c’est composé de combien de Data Analysis Scientists tout ça de l’équipe data, elle est réduite à sa plus simple expression. Il y a un data Scientist, un data analyst et data.
– Marc :
Ingénieur OK et son rôle dans la structure, c’est de d’exécuter ce que ce que le besoin business va pondre. Où est-ce qu’y a un rôle plus fort, plus proactif, de cette équipe?
– Antoine :
Elle est vraiment là pour c’est un honneur. En quelque sorte, donc c’est pas quelque chose qui est à disposition, c’est pas self-service. Consultation de l’équipe data pour obtenir une analyse, c’est réellement, elle doit vraiment mettre en place des produits, on peut-on peut dire ça comme metabase de manière à ce que les autres équipes soient indépendantes, soient et les moyens en travaillant finalement un petit peu d’accéder à des de qualité et de produire des analyses pertinentes.
– Marc :
Ok et mets ta base, outils de Business Intelligence on va dire quel genre de métier l’utilise metabase chez vous, quels sont les disons le nom des postes, des gens qui utilisent métaphase?
– Antoine :
Je dirais qu’il y a 2 types de postes, y a les gens qui vont être dans ce qu’on va appeler le build, donc ça va être des gens qui vont avoir des nouvelles idées, vouloir pousser des nouveaux projets et déjà confronter leurs hypothèses à la réalité dès le début. Donc ça peut être par exemple des gens de l’équipe produit ou des gens de l’équipe qu’on appelle obsédé excellent chez nous, qui doivent améliorer les process en interne. C’est une équipe product interne en quelque sorte et eux peuvent déjà où et confronter leurs idées préconçues de ce qu’ils pensent sur le sur le, sur le business. Et aller voir dans metabase créer une analyse à doc pour avoir une réponse en quelques minutes ou une ou 2h après y a un 2ème type d’usage qui sont les équipes run qui elles suivent leur KIYA énormément d’I chez Overseas qui sont qui sont disponibles y en a quelques-uns qui sont et qui sont importants et les équipes ruent les managers des équipes en particulier les TEAM lead peuvent se baser sur la data pour suivre la performance de leurs équipes et détecter des problèmes très en avance par rapport à ce qu’ils pourraient ressentir sinon.
– Marc :
D’accord aujourd’hui, si tu dois retenir une décision au business que vous avez pris grâce à la data, donc je vous dirais quoi alors,
– Antoine :
Il y a 2 exemples principaux qui me viennent en tête. Premièrement, le choix de nos prestataires. Par exemple, on a un prestataire qui nous fournit une solution de Tracking qui nous aide à trouver les bateaux dans l’eau et ce prestataire il a une certaine qualité de service, il y en a, il y en a plein qui proposent ces services et ils ont des qualités de service vraiment différentes. Et la data nous permet juste basiquement de trancher entre les différents prestataires et choisir avec lequel on veut travailler pour donner la qualité de donner la meilleure à nos clients. En fait tout simplement. Donc ça c’est un, c’est des data-driven décisions vraiment hardcore. La 2ème, ce serait peut-être l’automatisation. Nous, on est à un métier ou quand vous êtes sur un transport, il y a peut être 2h de travail humain avec tout un tas de tâches différentes, plus ou moins compliquées, plus ou moins administratives, de la recopie. Appeler un fournisseur, envoyer un document au client et tout ça en fait, on l’a mappé grâce à la donnée. On sait exactement ce qui prend une minute, 5 minutes 4 minutes 12 minutes 22 minutes sur un transport et aujourd’hui ce qu’on essaie de faire, c’est d’automatiser les tâches les plus chronophages en les prenant dans l’ordre et ça nous donne un avantage compétitif énorme. Parce que plutôt que d’avoir un espèce de ressenti sur oui, si on automatisait ça, ce serait peut être bien et peut-être que ça créait de la valeur. On a une espèce de roadmap ultra clair en disant non en il faut automatiser l’email qu’on envoie aux fournisseurs en 2, le booking en 3, le plus de documents pour nos clients et ça nous donne ouais c’est une roadmap ultra claire d’automatisation.
– Marc :
Oui, vous avez des usagers différents qui vont tous penser que leur problème est le plus important et finalement la data, ça vous donne un ordre de priorité réelle entre les problèmes.
– Antoine :
Complètement, ça permet vraiment de trancher, d’arbitrer.
– Marc :
Est-ce que vous faites du machine learning chez Ovrsea ?
– Antoine :
Oui, on fait du machine learning, alors on a une approche qu’on pourrait appeler pragmatique. J’aime bien parler moi de machine learning tactique, c’est à dire qu’on va sélectionner des petits problèmes. On n’a pas la prétention de régler un une business line entière grâce à grâce au machine learning. Mais en fait on va se porter les petits problèmes de nos métiers qu’on va résoudre grâce à des petits algorithmes qui sont simples à mettre en production, qu’on réussit à monitorer, à suivre, et cetera pour donner des exemples. Les 2 problèmes qu’on ressent au machine learning y a une notion de prédiction de prix. Nous construire un prix, c’est compliqué. Il faut appeler 5-6-7 personnes pour faire une proposition à notre client. Je reprends la métaphore de l’agence de voyage, quand vous construire un voyage pour votre client, il faut que vous appeliez la compagnie aérienne que vous appeliez l’hôtel, que vous appeliez le taxi, et cetera. Ensuite, vous partagez. Ça vous fait un voyage pour les marchandises, c’est exactement pareil. Le truc c’est que peut-être que vous avez envie de donner un prix à votre client sans attendre la réponse du taxi, parce qu’en fait le taxi, que ce soit 10, 15, 20 ou 30€ ça change pas grand chose nous pour ces prix-là on utilise un algorithme de machine learning qui va nous prédire. Un prix qu’on estime être correct et qui nous permet de répondre aux clients rapidement. Un prix on va dire du package sans avoir à attendre toutes les lignes et là le l’algorithme est vraiment très pertinent.
– Marc :
Donc vous prenez le risque de suivre le prix annoncé par le machine learning. Vous assumez la différence si finalement le prix qui vous revient n’est pas le même, mais ça vous permet d’aller beaucoup plus vite et de proposer un produit de meilleure qualité entre guillemets.
– Antoine :
Tout à fait. Le client à sa réponse en 2h contre environ 48 heures sur le sur le reste du marché, ce qui est beaucoup plus intéressant pour lui. Je voulais aussi parler d’un 2ème cas d’usage qui est la lecture automatique de factures commerciales, donc là on est dans la data qui permet des innovations donc la facture commerciale c’est quoi c’est un document qui est bloqué par le client sur notre plateforme et qui contient les informations de ce qu’il y a dans un transport, c’est un conteneur et dedans des produits en général. Le client ne sait pas exactement quel produit sont dans le conteneur ou plus exactement il le sait, mais c’est sur un document PDF obscur, parfois même un scan envoyé par son fournisseur et du coup ça peut être très painful pour lui de savoir où sont les produits. Aujourd’hui au machine learning, on prend cette image, on prend ce PDF on le lit automatiquement, on extrait les SKU les donc les références de chaque produit qui sont dans le conteneur, on le plowed sur notre plateforme et les clients y a accès grâce à un moteur de recherche et à tout moment, il peut savoir ma Converse bleu en taille 42 Elle est dans ce conteneur là qui va arriver le 15 novembre au Havre. Et du coup, je pourrais le vendre à partir du 25 novembre sur mon site d’e. Commerce donc là c’est vraiment un nouveau uke qu’on débloque, mais à nouveau c’est du machine tactique, c’est vraiment un paint, point précis qu’on va résoudre grâce au machine learning et sur lequel on va itérer ensuite.
– Marc :
Oui, alors, pour bien décomposer ici le, vous avez des factures et vous utilisez le machine learning et la Computer Vision pour extraire, pour construire en fait un outil d’extraction du contenu et ensuite ce que vous utilisez, c’est les données et vous les consommez de façon. C’est limpide, vous les affichez aux clients sur votre interface utilisateur.
– Antoine :
Tout à fait, elles sont recherchables et cetera. En fait, on prend une information qui est cachée. Dans un document qui est traditionnel dans notre secteur mais absolument pas digitalisé, et grâce aux machines learning, on sait épargné l’étape de devoir tout ressaisir, ce qui serait en fait même pas économiquement viable de juste ressaisir parce que, enfin, un conteneur, ça peut être des centaines de références et il y a des centaines de milliers de cœurs qui sont expédiés chaque jour, donc ça serait complètement viable. Grâce au machine learning, on débloque de la visibilité, on débloque un nouveau case et on rend ces données accessibles aux clients et puis à l’utilisateur final finalement aussi.
– Marc :
C’est quoi la plus grande déconvenues que t’as eu avec la data ?
– Antoine :
De pas en faire assez. Paradoxalement, je, c’est plutôt des coûts d’opportunité. Je pense que la data par moment à des angles morts. Je parle par exemple nous nos sails, price, les transports et ils le font avec leur expérience, mais ça reste quand même un marché qui bouge énormément. On l’a vu là, les prix des transports étaient visés par 2 en 3 mois. C’est quelque chose qui complique pour l’humain à vraiment intégrer et à réussir à intégrer correctement dans son pricing. Et en fait on a très tardivement utilise la data pour aider les sales à price. On l’a fait dans les dans les derniers mois et en fait on s’aperçoit que c’est beaucoup mieux égards. Petit un on vend mieux, les clients sont plutôt plus satisfaits de nos prix parce qu’en fait, ils correspondent beaucoup plus au marché et à ce qu’ils attendent. Et petit 2, les salles sont plus satisfaits puisque finalement ça les décharge d’une charge mentale qui était juste fatigante et pas du tout créatrice de valeur, en particulier sur les clients qui sont nos clients récurrents ou la relation est déjà bien établie.
– Marc :
D’accord par rapport à au fait que vous utilisez du machine learning pour price et que les prix évoluent. Comment est-ce que vous gérez cette? On va dire se data drift, hein pour utiliser un mot technique, le fait que la variable à prédire évolue, sa distribution évolue, comment est-ce que vous gérez ce ces choses-là?
– Antoine :
Donc déjà il y a un contrôle à posteriori. Nous on suit en permanence le l’écart entre ce qui est proposé et ce qui est facturé à la fin. C’est quelque chose qu’on suit comme le lait sur le feu, hein. Toutes les semaines, on regarde quatre-vingt-dix-huit quatre-vingt-seize, 99 % Enfin, ces choses qu’on suit ensuite en fait alors pour rentrer un peu dans le détail, l’algo, il est-il est-il a 2 types de prédictions, il a la prédiction du prix et là prédiction d’est-ce qu’il doit envoyer le prix? Donc c’est un algo à 2 étages ou en fait on a on a on certes le prix mais ensuite il faut savoir est-ce que ce prix on veut l’envoyer au client ou pas en fonction d’un certain nombre de critères? Donc à nouveau, on peut entraîner un algo pour savoir ce qu’on veut envoyer le prix, ça dépend évidemment de prix lui-même, ce que c’est un prix élevé ou pas élevé, un prix à 20€ ou il pouvait l’envoyer un prix à 20000€ non vous demandez quand même vérification humaine, mais il y a aussi beaucoup d’autres choses, par exemple le pays de destination y a des pays sur lesquels l’algo sera beaucoup plus précis que d’autres. Le mode de transport peut-être même le la compagnie, la compagnie qu’on souhaite utiliser. Tous ces critères en fait, permet d’entraîner un 2ème algo, dont la haut, c’est l’indice de confiance dans le dans le prix et ensuite la décision d’envoyer ou non ce prix quoi.
– Marc :
D’accord, donc vous évaluez un peu le niveau de risque qui va avec le prix, le prix rendu?
– Antoine :
Tout à fait.
– Marc :
Alors, est-ce que tu as une opinion à nous partager sur la data?
– Antoine :
Moi, j’ai une théorie qui est que les meilleures data scientists ont en fait une double casquette assez rare, c’est qu’ils sont à la fois d’excellents Software Engineers avec ce que ça implique en termes de compréhension de des systèmes modernes de string en particulier tout ce qui est continu intégration continue, delivery et en même temps ils ont un excellent sens business pour justement échapper à l’écueil de ne s’intéresser qu’à l’engineering. C’est intéressant parce que sur le marché, il y a beaucoup de data scientists qui sont soit l’un soit l’autre sans vouloir tomber dans une dichotomie absurde. École d’ingénieur, école de commerce, il y a quand même un peu de ça avec des gens d’école de commerce qui vont avoir un excellent sens business mais qui, sur la partie Engineering, ça les intéressera beaucoup moins. Et inversement, des ingénieurs qui vont être très intéressés par la partie pipeline, mais qui en revanche en général ont un sens business assez moyen et donc en fait y a un sweet spot entre les 2 avec des profils qui sont presque une épiphanie et qui en fait maîtrisent les 2 aspects et qui sont vraiment des pépites de l’entreprise. Et qui permettent vraiment de créer de la valeur pour tout, pour toutes les équipes quoi.
– Marc :
Un bon data scientist c’est un data Scientist qui a à la fois le business et les qualités de Software ingénieurs.
– Antoine :
Tout à fait vraiment des vraies qualités de Software Engineers au sens de du développement, du développement informatique lourd quoi.
– Marc :
Les bonnes pratiques.
– Antoine :
Les bonnes pratiques on parle pas juste de savoir mettre un script Python sur un sur 1RC 2 pour faire tourner un, scroller un crawler la nuit, on parle vraiment de best practice, de domain driven design, de CRAFT. Des choses comme ça, quoi, ça c’est des profils qui sont extrêmement rares et qui je pense, sont l’avenir des fonctions data des entreprises.
– Marc :
C’était un conseil à donner à quelqu’un qui monte, une boîte comme oversea et 2-0 qu’est-ce que tu lui conseilles comme stack technique comme mise en place au début, sur quoi il faut se précipiter, sur quoi il faut attendre?
– Antoine :
Alors si on parle d’outils en eux-mêmes en ce moment, des BTA vraiment. La côte DT permet de faire vraiment énormément de choses. À titre d’exemple, nous, dans des BT on a mis tout en place, tout un système en place qui nous permet de faire des ce qu’on appelle des business checks, un business check, c’est quoi c’est vous avez des règles dans votre base de données des règles métier dans votre base de données par exemple. Normalement une date d’arrivée, c’est après une date de départ et c’est quelque chose que vous voulez avoir dans vos données parce que ça donne de la qualité et ensuite les analyses sont beaucoup plus pertinentes. En fait, grâce à des BT par exemple, on a mis en place un chèque, donc on a encodé cette règle. On a dit globalement les dates d’arrivée doivent être après les dates de départ et débiter tourné de manière régulière. Et si jamais il y a une incohérence qui est détectée, on a un système de notification qui se met en place de manière automatique et les personnes qui sont en charge de ces données sont prévues sur slack directement et doivent aller corriger, comprendre et cetera. Donc en fait on n’a pas d’intégrité by design en quelque sorte, on a juste une intégrité, une consistance. À la fin, eventual consistency de nos données à l’échelle de la semaine quoi d’accord,
– Marc :
Donc, c’est des tests qui ont été écrits par des humains. Le ces choses là c’est pas c’est pas le les algorithmes qui sortent des anomalies tout seuls.
– Antoine :
Malheureusement pas encore. On aimerait évidemment, mais là on parle vraiment de d’implicite métier qui est caché dans la structure de base de données qui est cachée au cours du process de développement et où dont on aimerait vérifier le la cohérence à la fin.
– Marc :
D’accord, donc vous avez des tests automatiques qui vous permettent de ne pas persévérer trop longtemps dans l’erreur? En cas d’anomalie en cas d’ouais.
– Antoine :
Tout à fait, y a rien de plus désagréable pour un data scientist que de prendre un dataset qui a qui a 2 ans et de s’apercevoir que l’année précédente en fait il y avait une erreur dans les données et il y a tout un tas de données qui sont perdues où manquantes où bruitées parce que personne n’a juste pensé à regarder cette base de données à ce moment-là. Et le Bug aurait pu être détecté facilement. Quoi d’accord,
– Marc :
Donc même des données qui vous servent pas immédiatement, vous avez des tests pour vérifier que par la suite si on a besoin de ces données là? Elles sont intégrés.
– Antoine :
Tout à fait pour reprendre la date d’arrivée qui est posée à la date de départ, c’est un exemple réel. Au fond, c’est pas très important. Si y a un peu de bruit dans les dans les données, le client va peut-être s’en apercevoir ou non que dans son reporting. Il y a eu une petite erreur, c’est des choses qui arrivent, ça représente peut être 01020 5 % des données, mais en fait, si vous êtes l’analyste qui reprend ces données dans un an, Ben en fait vous allez passer du temps à sur un problème qui devrait même pas exister et ça permet aussi en général de corriger. Des bugs cette fois-ci Software puisqu’en fait quand vous avez une incohérence dans les données, c’est un bug Software qui est sous-jacent et plutôt vous corriger le bug. Mieux c’est quoi d’accord,
– Marc :
Mais des choses aussi simples que la date de départ antérieure à la date d’arrivée des tests. Comme ça peut, ça peut sauver un dataset utile dans 2 ans.
– Antoine :
Ouais, on a, on a changé d’heure la semaine dernière. Quand vous êtes dev, c’est facile de faire plus un au lieu de moins un ces choses qui arrivent, qui arrivent tous les jours et ça arrive même au meilleur dev chez Bercy, donc c’est quand même très utile d’avoir ce genre de test. À posteriori.
– Marc :
Ouais, vous êtes exposé à beaucoup de Ben, on va dire de drift soit de ce genre là mais ça peut être des drift hardware, des changements de matériel, des changements de fournisseurs, des choses qui font que d’un coup on a un comportement complètement différent dans les données du jour au lendemain.
– Antoine :
Ouais alors, pour reprendre à nouveau la métaphore des heures, les heures, c’est vraiment un vrai problème dans le dans le transport international. Quand vous êtes développeur parce que vous savez jamais à quelle heure vous êtes, enfin, quand un transport part de Shanghai arrivé à Paris, que la donnée elle, est hébergée sur un serveur à Londres et que la personne qui s’en occupe est en Allemagne, c’est un cauchemar absolu de savoir quelle heure vous devez stocker, quelle heure vous devez afficher et comment vous devez calculer, par exemple, votre quelque chose d’aussi bête que le la durée du temps de transport. Et ça, c’est un, c’est un vrai, une vraie difficulté et du coup effectivement, si vous changez de serveur, que vous passez de la de la zone AWS en Irlande, à la zone AWS de Francfort. Et Ben Ouais y a des choses qui changent de date parce qu’avant c’était le 23 janvier à minuit. Et puis du coup vous affichez 23 janvier et puis après c’est le 22 janvier à 23h et puis là Ben vous affichez 22 janvier et le la personne qui doit se pointer à Shanghai pour récupérer le conteneur et Ben y a pas la bonne journée quoi.
– Marc :
Aujourd’hui, quand tu recrutes les gens dans ton équipe data, tu cherches quoi alors ça dépend un peu de du niveau, de maturité. Je pense que les premières personnes y a un vrai objectif de légitimation de la data dans l’entreprise, en particulier s’il y a pas de fondeur qui s’en occupe, qui s’occupe de la data, ce qui est votre cas, ce qui est notre cas. Moi, j’ai très peu de temps pour m’occuper de la donnée et donc je dirais que les tous premiers data scientists qu’on a recrutés c’est des gens qui doivent être inspirants. Qui doivent comprendre vraiment la valeur business de la data, pouvoir évangéliser les gens. Il y a vraiment un travail d’évangélisation pour les premiers employés et donc ils doivent être capable d’être vraiment transverses, d’aller voir toutes les équipes, comprendre leurs besoins, leur proposer des solutions et les convaincre d’utiliser la data au quotidien. Ça, c’est vraiment les tous premiers employés d’une équipe data. Ensuite, il faut aller chez des spécialistes quand on a des problèmes de pipeline. Et Ben oui, il faut aller chercher des gens qui sont des excellents data engineer et qui vont pouvoir résoudre ce problème. Seul bémol, je pense quand même qu’il faut toujours garder en tête l’aspect business, on fait de la data pour le business, il faut pas résoudre des problèmes pour résoudre des problèmes et ça je pense que c’est important de le tester en entretien en permanence et d’avoir des dentistes qui comprennent, qui vont travailler dans le secteur du transport international de marchandise qui en ont envie, que ça passionné, pas forcément, mais en tout cas qui ont une appétence pour ce secteur et qui vont réussir du coup à être motivés au quotidien et à comprendre pourquoi on fait tout ça, pourquoi on fait aussi certains compromis par moment, ça c’est très important.
– Marc :
Tu parles d’évangélisation, c’est quoi les grandes idées reçues à cassées ou les grands messages à faire passer au reste de l’équipe pour toi?
– Antoine :
C’est un vrai que c’est un problème qui est plus vaste que celui de l’entreprise. On le voit aujourd’hui avec des sujets tels que tels que le réchauffement climatique ou en fait on a une forme de scepticisme vis-à-vis de la donnée, en particulier quand la donnée contredit notre expérience quotidienne. Quand il fait froid, les gens ne croient plus au réchauffement climatique. C’est quand même, c’est que c’est très bizarre, mais c’est comme ça quoi, c’est un peu pareil en entreprise. Les gens, ils sont dans leur quotidien, ils ont des intuitions, ils connaissent leur métier, ils ont des angles morts, mais ils s’en aperçoivent pas. Et donc finalement, le rôle de la data, c’est avec tact et pédagogie de les amener vers une meilleure compréhension de leur métier et de leur apporter des outils pour justement éclairer ces angles morts. Avec une lampe torche, un peu nouvelle. Je vous rassure, on n’a pas de climato-sceptique ou de data sceptiques chez Overseas, donc c’est la mission est beaucoup plus facile, mais c’est un peu les mêmes, les mêmes ressorts que doit mobiliser les le premier Data Scientist.
– Marc :
Comment vous mesurez la réussite ou la performance?
– Antoine :
De vos projets data?
– Marc :
Ou de vos algos de machine learning?
– Antoine :
Alors on essaie de le faire de la manière la plus data possible, donc pour parler de pour parler par exemple, de du pressing automatique. Nous, on a 1KPI qu’on suit qui est le temps de réponse aux clients, combien de temps on met pour envoyer une proposition au client après qui nous en fait la demande et donc tout simplement on se donne des objectifs? Je pense qu’avant, le projet était peut être autour de 3h30 de médiane. Le but c’était de tomber à 2h Quels étaient les moyens pour tomber à 2h Quels? Quels sont l’enfin pour rentrer un peu dans le détail quand on répond plus vite, on s’aperçoit qu’on amélioré ce qui s’appelle winrar ratio. Donc, notre taux de conversion sur la proposition donc là après bah c’est du produit en croix hein? On amélioré le taux de conversion de X % en améliorant de X minutes le temps médian et du coup on peut calculer 1ROI et on peut regarder si on met des investissements en face. Est-ce qu’on peut faire un projet de 2 semaines, 3 mois, 6 mois et on avance comme ça ouais. Après, en toute transparence, y a quand même des projets où qui sont un peu des Paris, qui représentent un peu une intuition pour parler du projet. Facture commercial donc celui où on lit les documents automatiquement pour le restituer à nos clients. On a pas de chiffres exacts sur combien de clients vont utiliser overseas en plus si jamais cette feature existe, on a une espèce de vision pour le marché qui est les gens veulent de la visibilité au niveau du SKU mais on aurait du mal à le quantifier si tu me demandais un chiffre, je serais très embêté quoi.
– Marc :
Ok donc si je résumé un peu votre usage data, on va avoir le plus haut niveau c’est le ML tactique ce que t’as tactique. J’aime beaucoup l’expression, je pense que je vais te la voler. Vous adressez à des petits problèmes qui sont. Bien qualifié pour le machine learning, vous avez validé où invalidé des intuitions, même prioriser les usages en général. Et puis vous avez un champ on va dire monitoring, détection de problèmes, détection d’anomalie et vous assurer d’enfin de la et de la conformité pour trouver les problèmes avant qu’avant qu’il soit coûteux quoi.
– Antoine :
Tout à fait. Y a un dernier, un dernier point peut être je voulais aussi éventuellement évoquer la ce qu’on pourrait appeler la data gestionnaire. Nous on utilise aussi donc je parlais du fait qu’on mapaï nos transports extrêmement finement. On sait exactement ce qui se passe. Sur chaque transport, le temps que ça va prendre, mais en fait, on est aussi dans le futur, c’est à dire que, en fonction des transports qui sont dans le dans le pipeline, on sait qu’elle va être la charge de travail dans une semaine, 2 semaines, 3 semaines. Et ça nous permet vraiment de piloter la le les équipes parce qu’en fait on les équipes, elles sont pas extensibles mais en revanche il y a des gens qui ont des projets plus ou moins bien, plus ou moins run. Quand vous travaillez au pressing chez Overseas, vous allez aussi par exemple travailler sur la création d’un réseau de fournisseurs en Italie qu’on est en train d’ouvrir. Il se trouve que si jamais y a une semaine de rush que l’algorithme prédit qu’il y aura une semaine de rush dans une semaine, 2 semaines, vous pouvez mettre en stand-by ce projet et aller aider les collègues qui sont en première ligne sur le sur le, sur la gestion des transports. Quoi donc c’est vraiment un outil qui permet de d’aider les gens à prédire la charge de travail et finalement à lisser et à rendre le travail plus agréable pour tout le monde quoi.
– Marc :
Oui, il y a de l’exploration aussi guidée par la curiosité, entre guillemets, grâce à des outils comme metabase et leur facilité d’utilisation. Le fait que votre stack technique est bien construit derrière ça vous permet un peu de Ben de suivre votre institution de visualiser des choses et peut-être prendre des décisions à la volée par rapport à ce que vous avez.
– Antoine :
Vu quoi ouais tout à fait, c’est le but en tout cas et…
– Marc :
On a bien compris que. Donc la data, vous avez énormément aidé à apprendre plein de plein de décisions. Est-ce que à un moment donné où vous êtes dit, ça, c’était un peu gadget ce truc là, cette visualisation là, on a pas besoin.
– Antoine :
C’est le combat des data scientists et de Métaphase Metabase c’est super parce que tout le monde peut créer ces questions, faire ces analyses le pendant de ça, c’est que c’est un bazar sans nom et qu’il faut une rigueur et une force d’une force. Contraire pour que ce système tienne et y a, je pense, des centaines de dashboard sur Metabase qui ont été utilisés une fois deux fois. Trois fois et en fait, on s’est aperçu que ça fonctionnait pas. Ce que je dis, que c’est une erreur. Non je pense pas. Je pense que c’est le signe que les gens utilisent la data veulent s’en servir, mais un peu à la manière de l’Agile en Software. Bien malin serait celui qui arriverait à prédire ce qui sera vraiment utile au client au jour 0.
– Marc :
Quoi c’est une façon d’explorer et de s’approprier l’outil?
– Antoine :
Exactement. Et donc moi je suis plutôt optimiste et finalement je trouve que c’est plutôt le symbole d’une réussite, qu’il y ait autant de déchets. Évidemment, je préférerais que les tailles soient bien rangés et que chacun ait son dashboard et avec toutes les informations pratiques pour lui. Mais c’est un monde qui n’existe pas de la même manière qu’on peut pas créer un Software qui répond à toutes les demandes de nos clients, en commençant le premier jour.
– Marc :
D’accord donc mets ta base, c’est tout de suite de Business Intelligence, y a trop de dashboard dessus qui c’est qui les fait? Ces dashboard, c’est les data scientists ou c’est vraiment tous les usagers? De metabase, c’est à dire des gens qui ne sont pas data.
– Antoine :
Alors tout le monde peut le tout le monde peut le peut en faire. Voilà effectivement donc je parlais au début de l’équipe data qui mettait à disposition metabase d’équipes plus analytiques. On va dire que le gros des dashboard des produits par ces équipes analytiques, donc ces équipes de support en salle en opération en produit, qui vont-elles réellement produire des dashboard? Et faire appel à l’équipe data quand ça dépasse leurs compétences, quand c’est un peu compliqué quand il y a des requêtes SQL à écrire qui sont trop complexes, mais en général, c’est plutôt les équipes qui sont les créatrices des dashboard qui les maintiennent et qui les consulte.
– Marc :
Le choix de metabase il s’est fait par rapport à quoi alors le choix pour être tout à fait transparent, donc à notre époque, c’était metabase ou locker. Je connais un peu moins bien les outils aujourd’hui, mais enfin, c’était les 2 grands concurrents de l’époque métastases, étaient gratuits. Locker coûtait environ 20000€ par an. Quand vous êtes une start-up, c’est le choix est vite fait. Néanmoins, on est vraiment très satisfait de ma base. Moi, c’est un outil que je recommande chaudement. Je trouve que c’est enfin, c’est vraiment ils font vraiment du super boulot. Et c’est très facile à prendre en main et c’est un petit selfie I qui est très performant et qui est largement suffisant pour une entreprise de 150 personnes et je pense, le sera encore pour une entreprise de 305 cents. On verra après ce qu’on fait, mais pour le moment ça nous suffit largement.
– Marc :
Si tu devais donner un conseil à un data Scientist qui sort d’école, tu dirais quoi.
– Antoine :
Je pense qu’il faut se détacher de ce qu’on a vu à l’école en data science. J’ai moi-même suivi une formation data avec des Mata PP, de l’informatique et la vérité c’est quand même que la data en entreprise ne ressemble pas du tout à la data en école. On fait, on fait pas de cagle en entreprise, les données sont horribles. Il faut aller demander à quelqu’un dans une autre équipe qui est en vacances pendant 3 semaines, de récupérer tel champ pour reconstruire telle chose, il faut aller acheter un bout de données à droite, la partie on va dire réellement data du métier de data Scientist en entreprise, elle est extrêmement faible ou en tout cas selon moi, pour les data scientists qui veulent vraiment apporter de la valeur à l’entreprise, je pense qu’il y a quelques entreprises en France qui font vraiment du machine learning. La data des entreprises qui font 500000 personnes, alors les très gros évidemment, les Facebook, Google et cetera. Je pense aussi qu’il y a des gros, des Thalès, des Vinci, des gens comme ça qui ont des équipes data, qui font de la data toute la journée. En revanche, les gens qui font de la data dans des entreprises de 50 personnes, c’est avant tout des couteaux suisses. C’est des gens qui vont vraiment vouloir résoudre le problème et à un moment donné, ils auront sur leur étagère de solutions l’algorithme qu’ils auront qu’ils auront appris en cours. Mais ça représente 5 10, 15 % de leur temps maximum. Et ça, il faut vraiment le comprendre, sinon c’est la déception assurée, quoi.
– Marc :
D’accord, donc l’utilité dans la Scientist pour toi elle existe que si il a un champ de compétence variée, quoi. Il couteau Suisse comme tu dis et il peut-il peut s’adapter à des problèmes très différents.
– Antoine :
Tout à fait et c’est vraiment pour moi les meilleures data Scientist c’est vraiment ceux qui sortent de leur de leur notebook et vont confronter leurs idées au monde réel dans l’entreprise. Et ça prend du temps. C’est désagréable. Enfin c’est sortir de sa zone de confort, hein, ni plus ni moins, mais c’est Game changer pour les entreprises. Et si, enfin, ce qui arrive à faire ça, c’est ça devient des stars du. Des équipes, quoi.
– Marc :
Vous avez changé de main, entre guillemets, le groupe Bolloré a pris une participation, donc en 2020 de ma participation majoritaire, est ce que ça fait peur d’un point de vue data, l’intégration dans un groupe comme Bolloré?
– Antoine :
Nous l’on parle de participation majoritaire. Le terme exact serait vraiment investissement. Le groupe Bolloré a compris dès le début de nos discussions qu’il y aurait pas d’intégration, que c’était pas le but, eux croient en nos visions de marché eux-mêmes. Commission transport, c’est un c’est le leader français de la commission de transport. Et donc eux croient en notre position de marche. Eux, comprennent que là digitalisation arrivé à grands pas et que nous on est en train de réussir ce pari, eux ont des problématiques différentes. C’est un groupe gigantesque, avec des problématiques de volume, des problématiques de change management, et cetera. Ils savent qu’on peut pas leur apporter le changement chez eux, ils sont 20000 on est 150 on peut pas faire bouger un tel mastodonte. Donc finalement, comme il y a pas d’intégration au niveau donné, c’est assez léger, y a quand même des choses qui se passent par exemple, on échange des informations de prix. Sur des routes par exemple, un Shanghai Le Havre, on sait combien Bolloré payé, ils savent combien on paye, on essaie de s’entraider, mais c’est assez léger donc finalement c’est assez, c’est assez facile.
– Marc :
Pour conclure le futur d’Ovrsea et de la data chez Ovrsea, qu’est-ce que c’est toujours prendre des décisions data-driven, continuer cette évangélisation, continuer ce cette KP Lisa Sion de nos métiers pour pas prendre des décisions qui soient trop basées sur l’intuition. Il faut l’intuition dans le métier, hein, je dis pas le contraire, mais il faut quand même à un moment donné. Se baser sur des chiffres en particulier lorsqu’on est beaucoup quand on était 5. Finalement, on arrive à se mettre d’accord et à partir sur une solution. Aujourd’hui, vous êtes 150 vous êtes obligé de convaincre les gens plutôt que de les persuader et d’avoir des éléments tangibles, chiffres pour montrer dans la direction dans laquelle vous voulez aller quoi.
– Marc :
Merci Antoine.
– Antoine :
Merci beaucoup Marc.
– Antoine :
Merci d’avoir écouté data driven one si vous avez aimé, n’hésitez pas à vous abonner à la chaîne, à liker et à partager la semaine prochaine, je recevrai Victor Billette de Villemeur, Product Manager chez L’Oréal pour nous parler de son expérience avec la data à très vite.