빅 데이터

NLP에서 명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 방법

플라톤에 의해 재발행

２０２３년 ６월 ２８일

NLP에서 명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 방법

= 이전 포스트

태그 : 그래프, NLP, 유사성, 텍스트 분석

이 기사에서 저자는 자신의 이해에 따라 2017 년 논문“명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 측정”을 요약합니다. 함께 읽으면서 개념을 더 잘 이해하십시오.

By 프라카르 미슈라, IIIT-Bangalore 연구원

이 블로그에서는 논문을 요약 해 보았습니다. 명명 된 엔터티 정보를 사용하는 그래프 기반 텍스트 유사성 측정 내 이해에 따라. 당신의 생각에 대해서도 같은 의견을 주시기 바랍니다!

문제 정책

저자는 텍스트 문서의 명명 된 엔터티 강화 그래프 표현을 기반으로 텍스트 유사성을 계산하는 새로운 기술을 제안합니다. 객관적으로 이것을 다음과 같이 생각할 수 있습니다. 두 문서 (D1, D2)가 주어지면 두 문서 사이의 유사성 점수를 반환하려고합니다. 여기서 {s ∈ R | 0 ≤ s ≤ 1}은 유사성의 강도를 나타냅니다. 1은 정확히 유사하고 0은 유사하지 않습니다.

제안 된 방법

NLP에서 명명 된 엔티티 정보를 사용한 그래프 기반 텍스트 유사성 방법 | 관로

제안 된 파이프 라인 | 이미지 출처 출처

저자는 다음과 같은 일련의 유사성 측정을 제안합니다. n-gram 그래프 표현 텍스트 문서의 경우. 이를 위해 3 단계 파이프 라인을 제안합니다.

정보 추출 — 이것은 두 가지 방법을 사용하는 텍스트 문서에서 관련 정보 청크를 추출하는 파이프 라인의 첫 번째입니다. 추출 명명 된 엔티티 2. 탑 추출TF-IDF를 사용하여 순위 지정 용어.
그래프 표현 — 첫 번째 단계에서 추출 된 정보는 해시됩니다. (여러 단어 용어에 대한 단일 노드 표현을 얻으려면) 그래프에서 고유 한 노드로 사용되는 반면 나머지 모든 단어는 단일 자리 표시 자 단어로 대체됩니다. 이제 이것은 모델링 선택이거나 나타내려는 플레이스 홀더 노드 수에 대한 절충 매개 변수로 생각할 수 있습니다. 단일 자리 표시 자 단어를 사용하면 중요하지 않은 모든 단어에 대해 하나의 노드 만있는 단어 그래프가 생성되므로 n-gram 그래프의 크기와 유사성 연산자의 복잡성이 크게 줄어 듭니다. 이를 이해하기 위해 예를 들어 보겠습니다. 예를 들어 입력 문장이“내 이름은 프라카르 미슈라. 나는 개발자". 전처리 된 문장 표현은 “AAA 213aaeb1 AAA _개발자", 어디, A 자리 표시 자 기호입니다. 중요하지 않은 말, 213aaeb1 에 대한 해시입니다 프라카르 미슈라 과 _개발자 이다 해시 단어 개발자. 이를 시각적으로 이해하려면 아래 그림을 참조하십시오.

N- 그램 그래프 표현

가장자리는 위의 n-gram 그래프에서 볼 수있는 가중치는 사전 처리 된 문장 표현을 가로 지르는 크기 L의 슬라이딩 윈도우에서 용어의 동시 발생 수를 기반으로 결정됩니다.

그래프 유사성 측정 — 그래프가 준비되면 작성자는 다음과 같은 메트릭을 사용합니다. 가치 유사성, 크기 유사성 과 정규화 된 값 유사성 두 그래프 간의 유사성을 측정하기 위해

— 가치 유사성 : 이것은 각각의 가중치와 함께 두 그래프 사이의 공통 간선 세트를 고려합니다. 수학적으로 다음과 같이 표현됩니다.

가치 유사성

여기서 e는 두 그래프 Gi, Gj 및 VR (e) 사이의 공통 간선이며 다음과 같이 계산됩니다.

VR 계산

— 크기 유사성 : 다음과 같이 계산되는 그래프의 크기를 고려합니다.

크기 유사성

— 정규화 된 값 유사성 : 이 유사성 측정은 비교 중에 그래프의 상대적 크기를 무시합니다. 그리고 다음과 같이 정의됩니다.

정규화 된 값 유사성

If SS (크기 유사성) = 0, NVS 값도 XNUMX으로 설정됩니다.

사용 사례에 따라 위의 유사성 측정 세트를 사용하는 방법을 결정할 수 있습니다. 풀링 함수를 사용하여 위의 모든 방법의 점수를 병합하고 집계 된 유사성 점수로 나타낼 수 있습니다. 또 다른 방법은 그래프를 위의 방법에서 얻은 유사성 점수의 벡터로 표현한 다음 위에서 클러스터링 또는 분류를 수행하는 것입니다.

가능한 확장 (내 생각)

동일한 항목 그룹에 동일한 해시가 제공되는 약간 제어 된 해싱 방법을 사용할 수 있습니다. 이것은 그래프에서 범주 형 유사성을 유도하고 공간 / 시간 복잡성을 감소시키기 때문입니다.

내가 작성한 다른 연구 논문 설명을 확인할 수도 있습니다.

NLP의 10 가지 인기 키워드 추출 알고리즘

BERT-QE : 문맥 화 된 검색어 확장

정확성 그 이상 : 체크리스트를 사용한 NLP 모델의 행동 테스트

추출 텍스트 요약을위한 BERT

ML을 사용하여 텍스트에서 자동 Hypernym 관계 추출

논문을 읽고“Hi”라고 말하고 저자의 기여에 감사드립니다.

논문 제목 : 명명 된 엔터티 정보를 사용하는 그래프 기반 텍스트 유사성 측정

종이 링크 : 액세스 용지

저자 : 레오니다스 체 쿠라 스, 이라 클리스 발라 미스, 조지 지아 나코 폴로 스

감사합니다!

바이오 : 프라카르 미슈라 Prakhar는 현재 IIIT Bangalore의 데이터 과학 석사 (연구) 대학원생입니다. 그의 연구 관심 분야는 자연어 이해 및 생성, 정보 검색, 비지도 학습 및 강화 학습입니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

= 이전 포스트

지난 30 일 동안의 주요 기사

가장 인기 많은
Python으로 자동화 할 5 가지 작업 데이터 과학자가되는 방법에 대한 가이드 (단계별 접근 방식) 데이터 과학자, 데이터 엔지니어 및 기타 데이터 경력, 설명 Vaex : Pandas이지만 1000 배 더 빠름 데이터 과학 및 기계 학습으로 수입을 두 배로 늘리는 방법

가장 많이 공유 한
데이터 과학자가되는 방법에 대한 가이드 (단계별 접근 방식) 데이터 과학자, 데이터 엔지니어 및 기타 데이터 경력, 설명 고성능 데이터 과학자를위한 XNUMX 가지 유형의 사고 Python으로 자동화 할 5 가지 작업 데이터 과학 및 기계 학습으로 수입을 두 배로 늘리는 방법

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://www.kdnuggets.com/2021/06/graph-based-text-similarity-method-named-entity-information-nlp.html

생성 데이터 인텔리전스