NLP에서 명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 방법
이 기사에서 저자는 자신의 이해에 따라 2017 년 논문“명명 된 엔티티 정보를 사용하는 그래프 기반 텍스트 유사성 측정”을 요약합니다. 함께 읽으면서 개념을 더 잘 이해하십시오.
By 프라카르 미슈라, IIIT-Bangalore 연구원
이 블로그에서는 논문을 요약 해 보았습니다. 명명 된 엔터티 정보를 사용하는 그래프 기반 텍스트 유사성 측정 내 이해에 따라. 당신의 생각에 대해서도 같은 의견을 주시기 바랍니다!
문제 정책
저자는 텍스트 문서의 명명 된 엔터티 강화 그래프 표현을 기반으로 텍스트 유사성을 계산하는 새로운 기술을 제안합니다. 객관적으로 이것을 다음과 같이 생각할 수 있습니다. 두 문서 (D1, D2)가 주어지면 두 문서 사이의 유사성 점수를 반환하려고합니다. 여기서 {s ∈ R | 0 ≤ s ≤ 1}은 유사성의 강도를 나타냅니다. 1은 정확히 유사하고 0은 유사하지 않습니다.
제안 된 방법
제안 된 파이프 라인 | 이미지 출처 출처
저자는 다음과 같은 일련의 유사성 측정을 제안합니다. n-gram 그래프 표현 텍스트 문서의 경우. 이를 위해 3 단계 파이프 라인을 제안합니다.
- 정보 추출 — 이것은 두 가지 방법을 사용하는 텍스트 문서에서 관련 정보 청크를 추출하는 파이프 라인의 첫 번째입니다. 추출 명명 된 엔티티 2. 탑 추출TF-IDF를 사용하여 순위 지정 용어.
- 그래프 표현 — 첫 번째 단계에서 추출 된 정보는 해시됩니다. (여러 단어 용어에 대한 단일 노드 표현을 얻으려면) 그래프에서 고유 한 노드로 사용되는 반면 나머지 모든 단어는 단일 자리 표시 자 단어로 대체됩니다. 이제 이것은 모델링 선택이거나 나타내려는 플레이스 홀더 노드 수에 대한 절충 매개 변수로 생각할 수 있습니다. 단일 자리 표시 자 단어를 사용하면 중요하지 않은 모든 단어에 대해 하나의 노드 만있는 단어 그래프가 생성되므로 n-gram 그래프의 크기와 유사성 연산자의 복잡성이 크게 줄어 듭니다. 이를 이해하기 위해 예를 들어 보겠습니다. 예를 들어 입력 문장이“내 이름은 프라카르 미슈라. 나는 개발자". 전처리 된 문장 표현은 “AAA 213aaeb1 AAA _개발자", 어디, A 자리 표시 자 기호입니다. 중요하지 않은 말, 213aaeb1 에 대한 해시입니다 프라카르 미슈라 과 _개발자 이다 해시 단어 개발자. 이를 시각적으로 이해하려면 아래 그림을 참조하십시오.
N- 그램 그래프 표현
가장자리는 위의 n-gram 그래프에서 볼 수있는 가중치는 사전 처리 된 문장 표현을 가로 지르는 크기 L의 슬라이딩 윈도우에서 용어의 동시 발생 수를 기반으로 결정됩니다.
- 그래프 유사성 측정 — 그래프가 준비되면 작성자는 다음과 같은 메트릭을 사용합니다. 가치 유사성, 크기 유사성 과 정규화 된 값 유사성 두 그래프 간의 유사성을 측정하기 위해
— 가치 유사성 : 이것은 각각의 가중치와 함께 두 그래프 사이의 공통 간선 세트를 고려합니다. 수학적으로 다음과 같이 표현됩니다.
가치 유사성
여기서 e는 두 그래프 Gi, Gj 및 VR (e) 사이의 공통 간선이며 다음과 같이 계산됩니다.
VR 계산
— 크기 유사성 : 다음과 같이 계산되는 그래프의 크기를 고려합니다.
크기 유사성
— 정규화 된 값 유사성 : 이 유사성 측정은 비교 중에 그래프의 상대적 크기를 무시합니다. 그리고 다음과 같이 정의됩니다.
정규화 된 값 유사성
If SS (크기 유사성) = 0, NVS 값도 XNUMX으로 설정됩니다.
사용 사례에 따라 위의 유사성 측정 세트를 사용하는 방법을 결정할 수 있습니다. 풀링 함수를 사용하여 위의 모든 방법의 점수를 병합하고 집계 된 유사성 점수로 나타낼 수 있습니다. 또 다른 방법은 그래프를 위의 방법에서 얻은 유사성 점수의 벡터로 표현한 다음 위에서 클러스터링 또는 분류를 수행하는 것입니다.
가능한 확장 (내 생각)
동일한 항목 그룹에 동일한 해시가 제공되는 약간 제어 된 해싱 방법을 사용할 수 있습니다. 이것은 그래프에서 범주 형 유사성을 유도하고 공간 / 시간 복잡성을 감소시키기 때문입니다.
내가 작성한 다른 연구 논문 설명을 확인할 수도 있습니다.
논문을 읽고“Hi”라고 말하고 저자의 기여에 감사드립니다.
논문 제목 : 명명 된 엔터티 정보를 사용하는 그래프 기반 텍스트 유사성 측정
종이 링크 : 액세스 용지
감사합니다!
바이오 : 프라카르 미슈라 Prakhar는 현재 IIIT Bangalore의 데이터 과학 석사 (연구) 대학원생입니다. 그의 연구 관심 분야는 자연어 이해 및 생성, 정보 검색, 비지도 학습 및 강화 학습입니다.
실물. 허가를 받아 다시 게시했습니다.
관련 :
지난 30 일 동안의 주요 기사
|
|
코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://www.kdnuggets.com/2021/06/graph-based-text-similarity-method-named-entity-information-nlp.html