Zephyrnet-logo

Een op grafieken gebaseerde methode voor tekstovereenkomst met benoemde entiteitsinformatie in NLP

Datum:

Een op grafieken gebaseerde methode voor tekstovereenkomst met benoemde entiteitsinformatie in NLP

In dit artikel vat de auteur het artikel uit 2017 samen "Een op grafieken gebaseerde maatstaf voor tekstovereenkomst die gebruikmaakt van benoemde entiteitsinformatie" volgens hun begrip. Begrijp de concepten beter door mee te lezen.


By Prachar Mishra, Onderzoekswetenschapper bij IIIT-Bangalore

In deze blog heb ik geprobeerd de paper samen te vatten Een op grafieken gebaseerde maatstaf voor tekstovereenkomst die gebruikmaakt van benoemde entiteitsinformatie volgens mijn begrip. Aarzel niet om uw mening hierover te geven!

Probleemstelling

 
De auteurs stellen een nieuwe techniek voor voor het berekenen van tekstovereenkomst op basis van met naam verrijkte grafieken van tekstdocumenten. Objectief gezien kun je dit zien als - Gegeven twee documenten (D1, D2) willen we een overeenkomstscore (s) ertussen teruggeven, waarbij {s ∈ R|0 ≤ s ≤ 1} de sterkte van overeenkomst aangeeft. 1 is exact gelijk en 0 is ongelijk.

Voorgestelde methode

 


Een op grafieken gebaseerde methode voor tekstovereenkomst met benoemde entiteitsinformatie in NLP | Pijpleiding
Voorgestelde pijplijn | Afbeelding van bron

 

Auteurs stellen een reeks gelijksoortigheidsmaatregelen voor over de n-gram grafiekweergave voor tekstdocumenten. Om dit te doen, stellen ze een pijplijn in drie stappen voor:

  • Informatie-extractie — Dit is een primeur in de pijplijn waarbij ze relevante informatiebrokken uit het tekstdocument halen waarvoor ze twee methoden gebruiken: 1. Extractie van Benoemde entiteiten 2. Extractie van Top-gerangschikte termen met TF-IDF.
  • Grafiekweergave — De informatie die uit de eerste stap wordt gehaald, wordt gehasht (om een ​​enkele node-representatie te krijgen voor termen met meerdere woorden) en gebruikt als unieke knooppunten in de grafiek, terwijl alle resterende woorden worden vervangen door een enkel plaatsaanduidingswoord. Dit is een modelleringskeuze of u kunt het zien als een afwegingsparameter voor hoeveel tijdelijke aanduidingsknooppunten u wilt vertegenwoordigen. Aangezien het gebruik van een enkel plaatsaanduidingswoord resulteert in een woordgrafiek met slechts één knooppunt voor alle niet-belangrijke woorden, wat de grootte van de n-gramgrafiek en de complexiteit van gelijkenisoperatoren aanzienlijk vermindert. Laten we een voorbeeld nemen om dit te begrijpen - als de invoerzin bijvoorbeeld "Mijn naam is Prachar Mishra. ik ben een ontwikkelaar". De voorbewerkte zinsrepresentatie wordt “AAA 213aaeb1 AAA _ONTWIKKELAAR", waar, is het tijdelijke aanduiding-symbool voor onbelangrijke woorden, 213aaeb1 is de hash voor Prachar Mishra en _ONTWIKKELAAR is de hachee voor het woord ontwikkelaar. Raadpleeg de onderstaande afbeelding om dit visueel te begrijpen —


N-gram grafiekweergave van tekstvoorbeeld
N-gram grafiekweergave

 

De randen zijn gewichten die u in de bovenstaande n-gramgrafiek ziet, worden bepaald op basis van het gelijktijdig voorkomen van termen in een schuifvenster van maat L dat over de voorbewerkte zinsrepresentatie loopt.

  • Grafiek Gelijkenis Maatregelen — Zodra we de grafiek klaar hebben, gebruiken de auteurs statistieken zoals: WaardeovereenkomstGrootte gelijkenis: en Genormaliseerde waardeovereenkomst voor het meten van de overeenkomst tussen de twee grafieken, waarbij,

— Waardeovereenkomst: Dit houdt rekening met de reeks gemeenschappelijke randen tussen twee grafieken samen met hun respectieve gewichten. Het wordt wiskundig weergegeven als:


waarde overeenkomst tekst grafieken
waarde gelijkenis

 

waarbij e de gemeenschappelijke rand is tussen twee grafieken Gi, Gj en VR(e) wordt berekend als:



VR-berekening

 

— Grootte Gelijkenis: Het houdt rekening met de grootte van de grafieken, die wordt berekend als:


maat gelijkenis maat:
grootte gelijkenis:

 

— Genormaliseerde waardeovereenkomst: Deze overeenkomstmaat negeert de relatieve grootte van de grafiek tijdens vergelijking. En wordt gedefinieerd als:


genormaliseerde waardeovereenkomst tekstgrafieken
genormaliseerde waardeovereenkomst

 

If SS (Grootteovereenkomst)=0, dan wordt de waarde van NVS ook op nul gezet.


Afhankelijk van de use case kan men beslissen hoe de bovenstaande set van gelijksoortigheidsmaatregelen te gebruiken. We kunnen de scores van alle bovenstaande methoden samenvoegen met behulp van een poolfunctie en deze weergeven als een geaggregeerde overeenkomstscore. Een andere manier is om de grafiek weer te geven als een vector van gelijkheidsscores van de bovenstaande methoden en vervolgens clustering of classificatie daar bovenop uit te voeren.


Mogelijke uitbreidingen (Mijn gedachten)

 
We kunnen een beetje gecontroleerde manier van hashen hebben waarbij dezelfde hash aan dezelfde entiteitsgroepen wordt gegeven. Omdat dit categorische gelijkenis in de grafiek zou induceren en ook de ruimte/tijd-complexiteit zou verminderen.


Je kunt ook andere verklaringen van onderzoekspapier bekijken die ik heb geschreven -

10 populaire zoekwoordextractie-algoritmen in NLP

BERT-QE: Uitbreiding van gecontextualiseerde zoekopdrachten

Meer dan nauwkeurigheid: gedragstesten van NLP-modellen met behulp van CheckList

BERT voor extractieve tekstsamenvatting

Automatische extractie van Hypernym-relaties uit tekst met behulp van ML


Voel je vrij om de krant te lezen en te zeggen “Hi” aan de auteurs en waarderen hun bijdrage.


Papieren titel: Een op grafieken gebaseerde maatstaf voor tekstovereenkomst die gebruikmaakt van benoemde entiteitsinformatie

Papieren link: Toegang tot papier

Auteurs: Leonidas TsekourasIraklis VarlamisGeorge Giannakopoulos


Bedankt!

 
Bio: Prachar Mishra Prakhar is momenteel een MS (door onderzoek) grad student in Data Science aan IIIT Bangalore. Zijn onderzoeksinteresses omvatten Natural Language Understanding and Generation, Information Retrieval, Unsupervised Machine Learning en Reinforcement Learning.

ORIGINELE. Met toestemming opnieuw gepost.

Zie ook:

Coinsmart. Beste Bitcoin-beurs in Europa
Bron: https://www.kdnuggets.com/2021/06/graph-based-text-similarity-method-named-entity-information-nlp.html

spot_img

Laatste intelligentie

spot_img