Logo Zéphyrnet

Quand 1 est plus grand que 4 pour l'IA

Date :

J'ai interrogé ChatGPT sur les chiffres 1 et 4. Lequel est le plus grand ?

Parfois, 1 était plus gros. D’autres fois, 4 était plus gros. Sharon Zhou a mené cette expérience à grande échelle pour montrer l'ordre des oui et des non dans la réponse.

image
C’est ce qu’on appelle une réponse non déterministe ou stochastique. Des intrants similaires ne produisent pas systématiquement des résultats identiques. Les réponses ont une logique incohérente.

Nous vivons quotidiennement avec des systèmes stochastiques : bulletins météo, ETA sur Google maps, construction de portefeuille d'actions. Nous sommes stochastiques – les humains peuvent être de mauvaise humeur, se tromper dans nos calculs ou changer d’avis avec de nouvelles informations.

Dans ces conversations, le robot se trompe parfois, mais ne doute jamais. Lorsqu'un système produit une réponse, nous devons vérifier que la réponse est correcte. Il n'y a pas que des erreurs logiques qui se produisent: des hallucinations, quand le système invente des réponses qui n'existent pas, ont tourmenté environ la moitié des résultats de chat Bing dans cette étude de Stanford.

Nous ne nous sommes pas encore calibrés au niveau de doute à exprimer. Tout comme lorsque nous travaillons avec un nouveau collègue, nous devons comprendre ses forces et ses faiblesses.

Pour les consommateurs, l’univers des résultats acceptables peut être assez large. UN lapin au sommet d'un camion de pompiers a de nombreuses réponses acceptables.

Mais dans le monde B2B, la cohérence compte. Les entreprises utilisant genAI exigeront des réponses cohérentes à des questions telles que celles-ci : quel est le chiffre d'affaires de l'entreprise par région ? Ou comment réinitialiser mon mot de passe ? Ou combien devrais-je payer si j’utilisais 1000 XNUMX unités d’un produit ?

GenAI devra écrire, créer et calculer avec un taux d'erreur nettement meilleur que celui des humains.

Je travaille avec ProductBoard pour comprendre comment différentes startups B2B envisagent d'exploiter l'IA avec une enquête. Si vous intégrez GenAI dans votre produit et que vous souhaitez connaître les projets des autres, veuillez le remplir et nous vous enverrons les données brutes anonymisées. Attendez-vous à ce que les résultats soient publiés dans quelques semaines.

spot_img

Dernières informations

spot_img