Logo Zéphyrnet

Des données non structurées aux données structurées avec les LLM - KDnuggets

Date :

Sponsored Posts

 
Auteurs : Michael Ortega et Geoffrey Angus
 
Des données non structurées aux données structurées avec les LLM

Des données non structurées aux données structurées avec les LLM
 
Assurez-vous de S'inscrire pour notre prochain webinaire pour apprendre à utiliser de grands modèles de langage pour extraire des informations à partir de documents non structurés.
 
Grâce à ChatGPT, les interfaces de chat sont la façon dont la plupart des utilisateurs ont interagi avec les LLM. Bien que ce soit rapide, intuitif et amusant pour un large éventail de cas d'utilisation génératifs (par exemple, ChatGPT m'écrit une blague sur le nombre d'ingénieurs nécessaires pour écrire un blog), il existe des limitations fondamentales à cette interface qui les empêchent d'entrer en production. .

  • Lent – ​​les interfaces de chat sont optimisées pour offrir une expérience à faible latence. De telles optimisations se font souvent au détriment du débit, ce qui les rend non viables pour les cas d'utilisation d'analyse à grande échelle.
  • Imprécis - même après des jours d'itération rapide dédiée, les LLM sont souvent enclins à fournir des réponses détaillées à des questions simples. Bien que ces réponses soient parfois plus intelligibles pour l'homme dans les interactions de type chat, elles sont souvent plus difficiles à analyser et à utiliser dans des écosystèmes logiciels plus larges.
  • Prise en charge limitée de l'analyse - même lorsqu'ils sont connectés à vos données privées (via un index d'intégration ou autre), la plupart des LLM déployés pour le chat ne peuvent tout simplement pas ingérer tout le contexte requis pour de nombreuses catégories de questions généralement posées par les analystes de données.

La réalité est que bon nombre de ces systèmes de recherche et de questions-réponses alimentés par LLM ne sont pas optimisés pour les cas d'utilisation d'analyses de production à grande échelle. 

La bonne approche : générer des informations structurées à partir de données non structurées avec les LLM

 
Imaginez que vous êtes un gestionnaire de portefeuille avec un grand nombre de documents financiers. Vous souhaitez poser la question suivante : "Sur ces 10 investissements potentiels, fournissez les revenus les plus élevés réalisés par chaque entreprise entre les années 2000 et 2023 ?" Un LLM prêt à l'emploi, même avec un système de récupération d'index connecté à vos données privées, aurait du mal à répondre à cette question en raison du volume de contexte requis.

Heureusement, il existe un meilleur moyen. Vous pouvez répondre plus rapidement aux questions sur l'ensemble de votre corpus en utilisant d'abord un LLM pour convertir vos documents non structurés en tableaux structurés via un seul travail par lots volumineux. En utilisant cette approche, l'institution financière de notre hypothèse ci-dessus pourrait générer des données structurées dans un tableau à partir d'un grand ensemble de PDF financiers en utilisant un schéma défini. Ensuite, produisez rapidement des statistiques clés sur leur portefeuille d'une manière qu'un LLM basé sur le chat aurait du mal. 

De plus, vous pouvez créer de nouveaux modèles ML tabulaires nets en plus des données structurées dérivées pour les tâches de science des données en aval (par exemple, sur la base de ces 10 facteurs de risque, quelle entreprise est la plus susceptible de faire défaut). Ce modèle ML plus petit et spécifique à une tâche utilisant les données structurées dérivées serait plus performant et coûterait moins cher à exécuter par rapport à un LLM basé sur le chat.

Apprenez à extraire des informations structurées de vos documents avec les LLM

 
Apprenez à extraire des informations structurées de vos documents avec les LLM

Apprenez à extraire des informations structurées de vos documents avec les LLM
 
Vous voulez apprendre à mettre cette approche en pratique à l'aide d'outils d'IA de pointe conçus pour les développeurs ? Rejoignez notre webinaire à venir et démonstration en direct pour apprendre à :

  • Définir un schéma de données à extraire d'un large corpus de PDF
  • Personnalisez et utilisez des LLM open source pour créer de nouveaux tableaux avec des citations de source 
  • Visualisez et exécutez des analyses prédictives sur vos données extraites  

Vous aurez la possibilité de poser vos questions en direct lors de notre Q&A. 
 

Enregistrez votre place
 

spot_img

Dernières informations

spot_img