Ep 2-12: Décider avec des données dures, obscures, molles et honteuses

Décider, en intelligence artificielle comme dans la vie d’un dirigeant, c’est faire ce qu’on peut avec les données que l’on a. En effet, les algorithmes sont secondaires, ils existent, ils sont entretenus et méticuleusement testés par la communauté. Dès que l’on sort des cas d’écoles, qui ne marchent qu’à l’école, pour aller vers les cas de la vraie vie, rien ne va plus.


On dispose alors de quatre types de données. Les données dures sont celles qui sont issues de mesures, faites avec des modes opératoires et ayant des unités. Elles sont des faits indépendants que qui les produit. Un mètre est un mètre partout.
Les données molles sont plus subjectives, car elles sont des observations : cela marche ou pas, cela coule ou pas, cela sent un peu ou beaucoup, plutôt la rose ou le jasmin. Vous pouvez imaginer le commentaire sur un vin qui va forcément varier d’un dégustateur à l’autre.
Les données obscures sont des informations que l’on sait présentes et influentes, mais qui sont difficiles, voire impossibles à connaître. Par exemple si l’acidité du champ joue sur la viscosité de ma crème pâtissière, je ne pourrais jamais la connaître, car elle dépend d’un fournisseur qui ne l’a pas forcément mesurée et ne le fera pas pour me faire plaisir.
Les données honteuses sont des données qu’on aimerait mieux ne pas avoir à connaître. Le nom de l’opérateur, ce qu’il a bu la veille, les dernières nouvelles de son addiction herbeuse, ou celle de ses relations houleuses avec son épouse. Car, pour rester dans le procédé culinaire, entre une mauvaise cuisinière et une empoisonneuse il n’y a qu’une différence d’intention que nulle intelligence artificielle ne verra si elle s’en tient à connaître le poids des ingrédients.
Les données honteuses peuvent également être dans les procédures, la transmission des informations par exemple. En 2006 un rapport de l’armée américaine établit l’origine des catastrophes à des problèmes de transmission d’informations pour 42% et pour 27% aux procédures elles-mêmes. Un rapport de 2010 établit entre 10 et 20% la possibilité de mourir au combat victime d’un tir de son propre camp ou tir fratricide. En toute rigueur, les procédures sont donc en elles-mêmes une donnée du problème à étudier.

Mais la plupart du temps, on aime à penser que seules des données dures sont à même de nous aider à prendre une décision, par l’entrainement de notre cerveau ou bien d’un réseau de neurones artificiels.

Alors soyons clair, pour la plupart des décisions pour lesquels il n’y a que des données dures qui jouent, on va sûrement y arriver. Ces cas sont rares, mais font la joie des enseignants. Dans le vaste monde qui est le nôtre, où l’entropie a son empire, cela ne marche pas.

Lorsque je commence un projet d’intelligence artificielle, la douleur commence quand on attaque les trois derniers types de données, les molles, les obscures et les honteuses. C’est pourtant là que les technologies d’intelligences artificielles excellent et dépassent Microsoft Excel. Mais obtenir ces données, c’est remuer des tapis et découvrir ce qui est caché dessous. Ces données c’est l’éléphant dans la pièce que personne ne peut rater, mais qu’on feint d’ignorer pour ne pas ouvrir la boite de pandore.

La plupart des problèmes de décision science ne sont que marginalement des problèmes de data science.

Lancer ce genre de projet, c’est souvent pour le dirigeant plutôt une question de courage qu’une question de motivation.


Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Podcast

Τέχνῃ χρῶ

[use de tes talents]

[use your skills]