Een op grafieken gebaseerde methode voor tekstovereenkomst met benoemde entiteitsinformatie in NLP
In dit artikel vat de auteur het artikel uit 2017 samen "Een op grafieken gebaseerde maatstaf voor tekstovereenkomst die gebruikmaakt van benoemde entiteitsinformatie" volgens hun begrip. Begrijp de concepten beter door mee te lezen.
By Prachar Mishra, Onderzoekswetenschapper bij IIIT-Bangalore
In deze blog heb ik geprobeerd de paper samen te vatten Een op grafieken gebaseerde maatstaf voor tekstovereenkomst die gebruikmaakt van benoemde entiteitsinformatie volgens mijn begrip. Aarzel niet om uw mening hierover te geven!
Probleemstelling
De auteurs stellen een nieuwe techniek voor voor het berekenen van tekstovereenkomst op basis van met naam verrijkte grafieken van tekstdocumenten. Objectief gezien kun je dit zien als - Gegeven twee documenten (D1, D2) willen we een overeenkomstscore (s) ertussen teruggeven, waarbij {s ∈ R|0 ≤ s ≤ 1} de sterkte van overeenkomst aangeeft. 1 is exact gelijk en 0 is ongelijk.
Voorgestelde methode
Voorgestelde pijplijn | Afbeelding van bron
Auteurs stellen een reeks gelijksoortigheidsmaatregelen voor over de n-gram grafiekweergave voor tekstdocumenten. Om dit te doen, stellen ze een pijplijn in drie stappen voor:
- Informatie-extractie — Dit is een primeur in de pijplijn waarbij ze relevante informatiebrokken uit het tekstdocument halen waarvoor ze twee methoden gebruiken: 1. Extractie van Benoemde entiteiten 2. Extractie van Top-gerangschikte termen met TF-IDF.
- Grafiekweergave — De informatie die uit de eerste stap wordt gehaald, wordt gehasht (om een enkele node-representatie te krijgen voor termen met meerdere woorden) en gebruikt als unieke knooppunten in de grafiek, terwijl alle resterende woorden worden vervangen door een enkel plaatsaanduidingswoord. Dit is een modelleringskeuze of u kunt het zien als een afwegingsparameter voor hoeveel tijdelijke aanduidingsknooppunten u wilt vertegenwoordigen. Aangezien het gebruik van een enkel plaatsaanduidingswoord resulteert in een woordgrafiek met slechts één knooppunt voor alle niet-belangrijke woorden, wat de grootte van de n-gramgrafiek en de complexiteit van gelijkenisoperatoren aanzienlijk vermindert. Laten we een voorbeeld nemen om dit te begrijpen - als de invoerzin bijvoorbeeld "Mijn naam is Prachar Mishra. ik ben een ontwikkelaar". De voorbewerkte zinsrepresentatie wordt “AAA 213aaeb1 AAA _ONTWIKKELAAR", waar, A is het tijdelijke aanduiding-symbool voor onbelangrijke woorden, 213aaeb1 is de hash voor Prachar Mishra en _ONTWIKKELAAR is de hachee voor het woord ontwikkelaar. Raadpleeg de onderstaande afbeelding om dit visueel te begrijpen —
N-gram grafiekweergave
De randen zijn gewichten die u in de bovenstaande n-gramgrafiek ziet, worden bepaald op basis van het gelijktijdig voorkomen van termen in een schuifvenster van maat L dat over de voorbewerkte zinsrepresentatie loopt.
- Grafiek Gelijkenis Maatregelen — Zodra we de grafiek klaar hebben, gebruiken de auteurs statistieken zoals: Waardeovereenkomst, Grootte gelijkenis: en Genormaliseerde waardeovereenkomst voor het meten van de overeenkomst tussen de twee grafieken, waarbij,
— Waardeovereenkomst: Dit houdt rekening met de reeks gemeenschappelijke randen tussen twee grafieken samen met hun respectieve gewichten. Het wordt wiskundig weergegeven als:
waarde gelijkenis
waarbij e de gemeenschappelijke rand is tussen twee grafieken Gi, Gj en VR(e) wordt berekend als:
VR-berekening
— Grootte Gelijkenis: Het houdt rekening met de grootte van de grafieken, die wordt berekend als:
grootte gelijkenis:
— Genormaliseerde waardeovereenkomst: Deze overeenkomstmaat negeert de relatieve grootte van de grafiek tijdens vergelijking. En wordt gedefinieerd als:
genormaliseerde waardeovereenkomst
If SS (Grootteovereenkomst)=0, dan wordt de waarde van NVS ook op nul gezet.
Afhankelijk van de use case kan men beslissen hoe de bovenstaande set van gelijksoortigheidsmaatregelen te gebruiken. We kunnen de scores van alle bovenstaande methoden samenvoegen met behulp van een poolfunctie en deze weergeven als een geaggregeerde overeenkomstscore. Een andere manier is om de grafiek weer te geven als een vector van gelijkheidsscores van de bovenstaande methoden en vervolgens clustering of classificatie daar bovenop uit te voeren.
Mogelijke uitbreidingen (Mijn gedachten)
We kunnen een beetje gecontroleerde manier van hashen hebben waarbij dezelfde hash aan dezelfde entiteitsgroepen wordt gegeven. Omdat dit categorische gelijkenis in de grafiek zou induceren en ook de ruimte/tijd-complexiteit zou verminderen.
Je kunt ook andere verklaringen van onderzoekspapier bekijken die ik heb geschreven -
10 populaire zoekwoordextractie-algoritmen in NLP
BERT-QE: Uitbreiding van gecontextualiseerde zoekopdrachten
Meer dan nauwkeurigheid: gedragstesten van NLP-modellen met behulp van CheckList
BERT voor extractieve tekstsamenvatting
Automatische extractie van Hypernym-relaties uit tekst met behulp van ML
Voel je vrij om de krant te lezen en te zeggen “Hi” aan de auteurs en waarderen hun bijdrage.
Papieren titel: Een op grafieken gebaseerde maatstaf voor tekstovereenkomst die gebruikmaakt van benoemde entiteitsinformatie
Papieren link: Toegang tot papier
Auteurs: Leonidas Tsekouras, Iraklis Varlamis, George Giannakopoulos
Bedankt!
Bio: Prachar Mishra Prakhar is momenteel een MS (door onderzoek) grad student in Data Science aan IIIT Bangalore. Zijn onderzoeksinteresses omvatten Natural Language Understanding and Generation, Information Retrieval, Unsupervised Machine Learning en Reinforcement Learning.
ORIGINELE. Met toestemming opnieuw gepost.
Zie ook:
Topverhalen afgelopen 30 dagen
Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://www.kdnuggets.com/2021/06/graph-based-text-similarity-method-named-entity-information-nlp.html