Zephyrnet-logo

Van ongestructureerde naar gestructureerde gegevens met LLM's - KDnuggets

Datum:

Sponsored Bericht

 
Auteurs: Michael Ortega en Geoffrey Angus
 
Van ongestructureerde naar gestructureerde gegevens met LLM's

Van ongestructureerde naar gestructureerde gegevens met LLM's
 
Zorg ervoor dat registreren voor ons komende webinar om te leren hoe u grote taalmodellen kunt gebruiken om inzichten uit ongestructureerde documenten te halen.
 
Dankzij ChatGPT hebben de meeste gebruikers via chatinterfaces met LLM's omgegaan. Hoewel dit snel, intuïtief en leuk is voor een breed scala aan generatieve use-cases (bijv. ChatGPT schrijft me een grap over hoeveel technici er nodig zijn om een ​​blog te schrijven), zijn er fundamentele beperkingen aan deze interface die voorkomen dat ze in productie gaan .

  • Traag - chatinterfaces zijn geoptimaliseerd om een ​​ervaring met lage latentie te bieden. Dergelijke optimalisaties gaan vaak ten koste van de doorvoer, waardoor ze onhaalbaar zijn voor gebruiksscenario's op grote schaal.
  • Onnauwkeurig - zelfs na dagen van toegewijde snelle iteratie zijn LLM's vaak geneigd uitgebreide antwoorden te geven op eenvoudige vragen. Hoewel dergelijke reacties soms begrijpelijker zijn voor mensen in chatachtige interacties, zijn ze vaak moeilijker te ontleden en te consumeren in bredere software-ecosystemen.
  • Beperkte ondersteuning voor analyse - zelfs wanneer ze zijn verbonden met uw privégegevens (via een inbeddingsindex of anderszins), kunnen de meeste LLM's die voor chatten worden ingezet, eenvoudigweg niet alle context verwerken die nodig is voor veel soorten vragen die doorgaans worden gesteld door gegevensanalisten.

De realiteit is dat veel van deze LLM-aangedreven zoek- en Q&A-systemen niet zijn geoptimaliseerd voor gebruiksscenario's voor grootschalige analyses op productieniveau. 

De juiste aanpak: genereer gestructureerde inzichten uit ongestructureerde gegevens met LLM's

 
Stel je voor dat je een portefeuillebeheerder bent met een groot aantal financiële documenten. U wilt de volgende vraag stellen: "Leveren van deze 10 toekomstige investeringen de hoogste inkomsten die elk bedrijf heeft behaald tussen de jaren 2000 en 2023?" Een out-of-the-box LLM, zelfs met een systeem voor het ophalen van indexen dat is verbonden met uw privégegevens, zou moeite hebben om deze vraag te beantwoorden vanwege de hoeveelheid context die nodig is.

Gelukkig is er een betere manier. U kunt vragen over uw gehele corpus sneller beantwoorden door eerst een LLM te gebruiken om uw ongestructureerde documenten om te zetten in gestructureerde tabellen via een enkele grote batchtaak. Met deze benadering zou de financiële instelling uit ons hypothetische bovenstaande gestructureerde gegevens in een tabel kunnen genereren uit een grote set financiële pdf's met behulp van een gedefinieerd schema. Produceer vervolgens snel belangrijke statistieken over hun portfolio op een manier die een op chat gebaseerde LLM moeilijk zou hebben. 

Sterker nog, u kunt netto nieuwe tabellaire ML-modellen bouwen bovenop de afgeleide gestructureerde data voor downstream data science-taken (bijvoorbeeld op basis van deze 10 risicofactoren welk bedrijf het meest waarschijnlijk in gebreke zal blijven). Dit kleinere, taakspecifieke ML-model dat de afgeleide gestructureerde gegevens gebruikt, zou beter presteren en minder kosten om te gebruiken in vergelijking met een op chat gebaseerde LLM.

Leer hoe u met LLM's gestructureerde inzichten uit uw documenten haalt

 
Leer hoe u met LLM's gestructureerde inzichten uit uw documenten haalt

Leer hoe u met LLM's gestructureerde inzichten uit uw documenten haalt
 
Wilt u leren hoe u deze aanpak in de praktijk kunt brengen met behulp van geavanceerde AI-tools die zijn ontworpen voor ontwikkelaars? Kom bij onze komende webinar en live demo om te leren hoe u:

  • Definieer een schema met gegevens om te extraheren uit een groot corpus PDF's
  • Pas open-source LLM's aan en gebruik deze om nieuwe tabellen met bronvermeldingen te maken 
  • Visualiseer en voer voorspellende analyses uit op uw geëxtraheerde gegevens  

Je krijgt de kans om live je vragen te stellen tijdens onze Q&A. 
 

Red je plek
 

spot_img

Laatste intelligentie

spot_img