Des données non structurées aux données structurées avec les LLM - KDnuggets

Sponsored Posts

Auteurs : Michael Ortega et Geoffrey Angus

Des données non structurées aux données structurées avec les LLM

Assurez-vous de S'inscrire pour notre prochain webinaire pour apprendre à utiliser de grands modèles de langage pour extraire des informations à partir de documents non structurés.

Grâce à ChatGPT, les interfaces de chat sont la façon dont la plupart des utilisateurs ont interagi avec les LLM. Bien que ce soit rapide, intuitif et amusant pour un large éventail de cas d'utilisation génératifs (par exemple, ChatGPT m'écrit une blague sur le nombre d'ingénieurs nécessaires pour écrire un blog), il existe des limitations fondamentales à cette interface qui les empêchent d'entrer en production. .

Lent – les interfaces de chat sont optimisées pour offrir une expérience à faible latence. De telles optimisations se font souvent au détriment du débit, ce qui les rend non viables pour les cas d'utilisation d'analyse à grande échelle.
Imprécis - même après des jours d'itération rapide dédiée, les LLM sont souvent enclins à fournir des réponses détaillées à des questions simples. Bien que ces réponses soient parfois plus intelligibles pour l'homme dans les interactions de type chat, elles sont souvent plus difficiles à analyser et à utiliser dans des écosystèmes logiciels plus larges.
Prise en charge limitée de l'analyse - même lorsqu'ils sont connectés à vos données privées (via un index d'intégration ou autre), la plupart des LLM déployés pour le chat ne peuvent tout simplement pas ingérer tout le contexte requis pour de nombreuses catégories de questions généralement posées par les analystes de données.

La réalité est que bon nombre de ces systèmes de recherche et de questions-réponses alimentés par LLM ne sont pas optimisés pour les cas d'utilisation d'analyses de production à grande échelle.

La bonne approche : générer des informations structurées à partir de données non structurées avec les LLM

Imaginez que vous êtes un gestionnaire de portefeuille avec un grand nombre de documents financiers. Vous souhaitez poser la question suivante : "Sur ces 10 investissements potentiels, fournissez les revenus les plus élevés réalisés par chaque entreprise entre les années 2000 et 2023 ?" Un LLM prêt à l'emploi, même avec un système de récupération d'index connecté à vos données privées, aurait du mal à répondre à cette question en raison du volume de contexte requis.

Heureusement, il existe un meilleur moyen. Vous pouvez répondre plus rapidement aux questions sur l'ensemble de votre corpus en utilisant d'abord un LLM pour convertir vos documents non structurés en tableaux structurés via un seul travail par lots volumineux. En utilisant cette approche, l'institution financière de notre hypothèse ci-dessus pourrait générer des données structurées dans un tableau à partir d'un grand ensemble de PDF financiers en utilisant un schéma défini. Ensuite, produisez rapidement des statistiques clés sur leur portefeuille d'une manière qu'un LLM basé sur le chat aurait du mal.

De plus, vous pouvez créer de nouveaux modèles ML tabulaires nets en plus des données structurées dérivées pour les tâches de science des données en aval (par exemple, sur la base de ces 10 facteurs de risque, quelle entreprise est la plus susceptible de faire défaut). Ce modèle ML plus petit et spécifique à une tâche utilisant les données structurées dérivées serait plus performant et coûterait moins cher à exécuter par rapport à un LLM basé sur le chat.

Apprenez à extraire des informations structurées de vos documents avec les LLM

Apprenez à extraire des informations structurées de vos documents avec les LLM

Vous voulez apprendre à mettre cette approche en pratique à l'aide d'outils d'IA de pointe conçus pour les développeurs ? Rejoignez notre webinaire à venir et démonstration en direct pour apprendre à :

Définir un schéma de données à extraire d'un large corpus de PDF
Personnalisez et utilisez des LLM open source pour créer de nouveaux tableaux avec des citations de source
Visualisez et exécutez des analyses prédictives sur vos données extraites

Vous aurez la possibilité de poser vos questions en direct lors de notre Q&A.

Enregistrez votre place

En savoir plus sur ce sujet

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Automobile / VE, Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
Décalages de bloc. Modernisation de la propriété des compensations environnementales. Accéder ici.
La source: https://www.kdnuggets.com/2023/06/predibase-unstructured-structured-data-llms.html?utm_source=rss&utm_medium=rss&utm_campaign=from-unstructured-to-structured-data-with-llms

Intelligence de données générative

Des données non structurées aux données structurées avec les LLM - KDnuggets

La bonne approche : générer des informations structurées à partir de données non structurées avec les LLM

Apprenez à extraire des informations structurées de vos documents avec les LLM

En savoir plus sur ce sujet

Trois clés pour que les Islanders remportent le cinquième match

Les Lakers obtiennent une victoire convoitée contre Denver, désormais menés 3-1 en série

Dernières informations

Les passionnés de Dogecoin et Pepecoin se mobilisent derrière le nouveau jeton d'IA lancé par la plateforme Wahoo Exchange – CryptoInfoNet

Leçons de l’essai FTX : la réglementation des CEX pourrait ne pas suffire à empêcher les mauvais acteurs | Opinion – CryptoInfoNet

L'ingénierie expliquée plonge dans les «engrenages» et autres caractéristiques de performance de l'Ioniq 5 N – CleanTechnica

L'or vient peut-être de signaler la fin du rallye Bitcoin (BTC), selon l'analyste Benjamin Cowen – Voici ce qu'il veut dire – The Daily Hodl

Litecoin en feu : un signal mystérieux indique une explosion de prix de 100 $

Cette semaine sur Crypto Twitter : Bitcoin Runes Mania et plus de drames juridiques Ethereum – Décrypter