제퍼넷 로고

NeurIPS 2020에서 지식 그래프에 대한 기계 학습

시간

뉴어IPS 2020

NeurIPS는 광범위한 ML 및 AI 주제를 다루는 주요 장소입니다. 물론 Graph ML 애호가와 지식 그래프 전문가 🧐에게는 흥미로운 점이 있습니다. 확인해보십시오!

올해 NeurIPS는 1900 개의 논문을 접수했고 😳 중 100 개 이상의 논문이 그래프에 있습니다. 또한 다음과 같은 몇 가지 저명한 워크샵을 고려하십시오. KR2MLDiffGeo4ML및 LMCA. 워크숍 문서는 ICLR, ICML 또는 ACL과 같은 향후 장소에 나타날 가능성이 있으므로 진행 상황을 확인하십시오. 또한 👉 GML 뉴스 레터 # 4 👈 by Sergey Ivanov는 이론, 오버 스무딩, 확장 성 등을 포함하여 NeurIPS의 Graph ML 논문에 대한 개요를 제공합니다.

이 게시물에서는 특정 유형의 그래프에 중점을두고 싶습니다. 지식 그래프 (KGs), 10 년에 상당한 영향력을 미칠 수있는 2021 개의 논문을 함께 살펴보세요. NeurIPS 논문은 * CL 컨퍼런스에서 NLP 애플리케이션보다 이론이 더 많은 경우가 많으므로 다음과 같이 요약하겠습니다.

전환 링크 예측의 장막 뒤에서 우리는 KG가 탁월한 능력을 발휘할 수있는 논리적 추론 작업의 계곡에 들어서게됩니다.

오늘 우리 의제에서 ☕️, 🍵 또는 Glühwein을 얻으십시오.

  1. 쿼리 임베딩 : Query2Box를 넘어서
  2. KG 임베딩 : NAS, 📦 vs 🔮, Meta-Learning
  3. SPARQL 및 구성 일반화
  4. 벤치마킹 : OGB, GraphGYM, KeOps
  5. 최대 포장

이 심층 교육 콘텐츠가 유용한 경우 다음을 수행 할 수 있습니다. AI 연구 메일 링리스트 구독 새로운 자료를 공개 할 때 경고를받습니다. 

쿼리 임베딩 : Query2Box를 넘어서

쿼리 임베딩 (QE)은 SPARQL 또는 그래프 데이터베이스 엔진없이 임베딩 공간에서 직접 KG에 대한 쿼리에 응답하는 것입니다. 대부분의 KG가 희소하고 불완전하다는 점을 감안할 때 쿼리 임베딩 알고리즘은 (특정 확률로) 누락 된 링크를 추론 할 수 있습니다. 이것은 지금까지 Graph ML에서 가장 인기있는 주제 중 하나입니다! 🔥
ICLR 2020 포스트, 우리는 쿼리2박스, 논리적 쿼리에 응답 할 수있는 강력한 QE 기준 결합 (∧), 분리 (∨) 및 실존 적 한정사 (∃) 엔티티를 d 차원 상자로 모델링하여 📦.

Ren과 Leskovec (원래 Query2Box의 작성자) 마지막으로 부정 연산자 (¬) 베타 E 뼈대. 점도 상자도 사용 가능한 부정 표시가 없으므로 베타 E 엔터티 및 쿼리를 다음과 같이 모델링합니다. 베타 배포. 투영과 교차는 베타 분포에서도 잘 모델링됩니다 (부정은 상호 알파 및 베타 매개 변수가있는 분포입니다). 이외에 DNF, 우리는 사용할 수 있습니다 드 모건의 법칙 분리를 부정과 결합으로 대체합니다. 아래 접근 방식의 멋진 그림을 확인하십시오 👇

🧪 베타 E 약간 능가 쿼리2박스 기존 쿼리 패턴에 대해 📈 기존 QE 접근 방식으로는 아직 답변 할 수없는 부정이있는 새로운 패턴을 도출하고 실험하면서 💀. 두 가지 더 🔑 차이점 Q2B베타 E 쿼리 불확실성을 더 잘 포착하고 (베타 임베딩의 차동 엔트로피와 응답 세트의 카디널리티 사이의 상관 관계, 최대 77 % 더 좋음) 주어진 쿼리에 응답이 없는지 추정 할 수 있습니다.

FOL 쿼리에 "월드컵을 개최 한 적이없는 유럽 국가의 대통령 목록"에 접속, 분리 및 부정 연산자를 사용하여 응답합니다. 출처: Ren과 Leskovec

반면에, 미국에서 체류를 연장하고자 이전의 승인을 갱신하려던 Sun 외 Q2B 및 기타 시스템이 논리적으로 충실한, 즉, 전부는 아닙니다 논리적으로 수반되는 질의 응답은 QE 시스템에서 검색 할 수 있습니다. 이 🕳 격차를 해소하기 위해 저자는 엠QL (쿼리 언어 포함). 엠QL 여전히 엔티티를 d 차원 공간에 포함하고 ∧, ∨ 및 ∃를 지원하지만 모델링 세트 🤔에 대해 다른 접근 방식을 취합니다. 상자 또는 베타 배포 대신 작성자는 각 세트를 인코딩합니다. X 쌍으로 (a_x,b_x) 어디에 a_x 세트 요소의 가중치 중심이고 b_x 하는 카운트 분 스케치 (CM 스케치). 각 스케치는 D 깊이의 해시 함수 W (따라서 D × W 매트릭스, 저자는 20을 선택×2000).

어떻게 진행합니까?
* 중심 사용, top-k MIPS a_x.T.mm(E) 검색 k 속하는 가능한 후보 엔티티 X;
* 중요한 것은 CM 스케치의 경우 차별화 가능한 검색 연산자가 있다는 것입니다. CM(i, b_x) 엔티티의 가중치를 반환합니다. i 세트로 X;
* 그런 다음 MIPS를 CM 기반 필터링과 결합 할 수 있습니다.
* 그런 다음 저자는 ∧, ∨ 및 ∃를 중심 및 CM 스케치에 대한 연산자로 정의합니다.

🧪 실험에서 저자는 엠QL on 일반화 (답변 질의, 표준 QE 작업) 및 수반 (전체 KG가 주어지면 링크 예측이 필요하지 않습니다). 평균적으로, 엠QL 실적이 좋다 Q2B FB10k-15에서 3–15 H @ 237 포인트, 일반화 작업에서 NELL, 수반 작업 (94.2 대 36.2)에서 완전히 지배합니다 👀.
또한 EmQL은 MetaQA 및 WebQSP와 같은 다중 홉 QA 벤치 마크에서 테스트되었습니다. ACL 2020의 최근 EmbedKGQA 💪
참고 엠QL 에서 허용하는 부정 (¬)을 지원하지 않습니다. 베타E. 아직? 😉

KG 임베딩 : NAS, 📦 vs 🔮, Meta-Learning

올해 NeurIPS에서 정말 흥미로운 것은 'yet-another-KG- 임베딩 알고리즘'. 당신은 아마도 신경 아키텍처 검색 (NAS) 컴퓨터 비전에서의 성공-예를 들어, 다음과 같은 최근 아키텍처 이피션트넷 인간이 설계 한 것이 아닙니다. 대신 NAS 시스템은 여러 개의 작은 빌딩 블록에서 신경망을 생성하여 특정 메트릭을 최적화합니다. KG 관련 작업을위한 효율적인 아키텍처를 생성하는 NAS를 가질 수 있습니까?

KG 임베딩 용 NAS가 실제로 작동하는 경우

장 외 네 라고 말하다! 그들은 제안 별과 별 사이의, 관계형 경로에 대한 RNN 기반 NAS 접근 방식입니다. 별과 별 사이의 먼저 KG의 샘플링 경로 (이 경우에는 편향된 임의 걷기)가 필요하며, 그런 다음 해당 경로가 RNN에 입력됩니다. 전체 RNN 네트워크 (셀 및 가중치)는 NAS의 주제입니다. 프로세스는 두 부분으로 나뉩니다 : 컨트롤러 🤖에 의해 관리되는 매크로 수준 (예 : 스코어링 기능)과 마이크로 수준 (활성화 및 가중치). Hits @ 10 및 관련 메트릭은 구분할 수 없으므로 작성자는 컨트롤러를 최적화하기 위해 정책 그라데이션에 의존합니다.

🧪 실험에서 별과 별 사이의 경쟁 결과를 보여주는 링크 예측 및 엔티티 일치 작업에서 조사됩니다. 각 작업에는 특정 시드 아키텍처 (예 : 사진 👇)가 필요하며, 좋은 네트워크를 찾는 데는 시간이 걸릴 수 있습니다 ⏳ (검색시 약 30 시간, FB70k-15 미세 조정시 237 시간),보세요 NAS가 일반적으로 KG 관련 작업에 적용 가능하며 새로운 RNN 아키텍처를 생성 할 수 있음을 보여줍니다! 🤩
게다가, 다음 Nolan의 영화인 Tenet이 모델 이름 지정 세계에서 얼마나 빠르게 견인력을 얻을지 봅시다 😉

기하학적 임베딩 모델은 커뮤니티에서 점점 더 많은 관심을 받고 있습니다. 작년, NeurIPS'19 게시물, 그래프 표현 학습을 위해 쌍곡선 기하학 🔮을 사용하는 접근 방식이 급증하는 것을 발견했습니다. 올해, 우리는 새로운 강력한 기하학적 경쟁자가 있습니다 : 하이퍼 직사각형, 일명 상자 📦!

반면 쿼리2박스 쿼리 임베딩에 사용 된 상자, Abboud 외 아이디어를 더욱 발전시키고 디자인 박스E, 엔티티가 벡터 공간의 점이고 관계가 상자 인 완전 표현 KG 임베딩 모델입니다 📦. 각 관계는 의리 관계의 예를 들어  술부 capitalOf(Berlin, Germany) 있을거야.  헤드 및 테일 엔티티 용 상자 n 항 술어가있을 것입니다 n 상자. 기본 위치 외에 각 엔티티에는 추가 매개 변수가 있습니다. 병진 범프 이는 동일한 관계에서 발생하는 엔티티를 더 가깝게 가져 오는 것을 목표로합니다 🎳 (그림 예제 확인 👇).

저자는 이론에 투자하고 📚의 몇 가지 중요한 속성을 증명합니다. 박스E: 구성을 제외한 많은 추론 패턴을 모델링 할 수 있으며, 규칙 주입 💉 (따라서 존재 론적 공리 주입)이 가능하며 완전히 표현 적입니다. 그러나 임베딩 차원이 다음과 같은 경우에만 완전히 표현됩니다. | E | x | R | 이진 관계 및 | E | ^ (n-1) x | R | n 항 술어의 경우, 흠, 너무 많이 😕 (흥미롭게도 Query2Box의 작성자는 또한 | E | 임의의 FOL 쿼리 모델링을위한 임베딩 차원).

️ 박스E FB15k-237과 같은 트리플 기반 벤치 마크와 JF17K와 같은 n 항 그래프에서 평가되었습니다. 임베딩 차원은 200–1000 범위에서 다양하지만 (예를 들어 FB15000k-237에 대한 이론적 요구로 15x237이 아님), 박스E 여전히 경쟁이 치열하며 많은 구성 패턴이없는 그래프에서 현재 SOTA와 동등합니다. 저자는 또한 NELL 스포츠 데이터 세트에 논리적 규칙을 삽입하는 멋진 실험을 컴파일했으며 인상적인> 25 MRR 포인트 획득을 보여주었습니다 💪.

2020 년은 상자의 해이기 때문에 📦의 작업을 놓치지 마세요. 다스굽타 외 NeurIPS에 게시되어 지역 식별성 주제에 대해 상자를 더 깊이 연구하고 Gumbel 분포를 사용하여 상자 매개 변수를 모델링하는 아이디어를 내놓았습니다.

우리는 또한 기억합니다 NeurIPS 2의 E2019R, 흥미로운 속성 (매우 높은 👍 또는 매우 낮은 👎 성능)을 가진 양자 논리에 기반한 KG 임베딩 모델. 그때까지 E2R은 트랜스 덕 티브 설정에서만 작동했습니다 (즉, 훈련 중에 전체 그래프가 표시됨). 올해, Srivastava 외 모델을 더 확장하고 IQE (유도 양자 임베딩). 🔑 기본적으로 IQE 이제 엔터티 임베딩이 특성 벡터와 상관 관계를 갖도록 노드 특성을 허용합니다. 더욱이, IQE 이제 소설에 최적화되어 대체 최소화 저자는 바닐라 E9R보다 약 2 배 빠른 🚀을 발견했습니다. 저자는 또한 모델의 속성과 모델이 NP-hard 일 것으로 예상해야하는시기에 대한 견고한 이론적 정당성을 제공합니다.

👩‍🔬 개념적으로 모델은 이진 술어를 지원하지만 작성자는 BiLSTM을 컨텍스트 인코더로 사용하는 세분화 된 엔티티 타이핑 작업 (FIGER, Ontonotes, TypeNet)에 집중합니다. IQE는 수렴하는 데 약 6 epoch 만 필요합니다 (FIGER에서는 E2R에 1000 번의 반복이 필요함)! 질적으로, IQE는 25 ~ 30의 정확도와 F1 포인트로 원래의 변환 모델을 능가합니다 📈

귀납적 작업을 계속하고, 백 외 두 가지 특정 링크 예측 설정을 연구합니다. 1) 학습 된 그래프에서 새로운 눈에 보이지 않는  👻 노드가 도착하면 다음과의 연결을 예측해야합니다.  👓 노드 (👻-> 👓); 2 개 더 눈에 보이지 않는 노드가 도착하면 눈에 보이지 않는 노드 자체 (👻-> 👻). 꽤 복잡하게 들리 죠? 일반적으로 전환 작업에서 모델은 모든 표시된 노드의 엔터티 및 관계 임베딩을 학습하고 일련의 표시된 노드에서 추론을 수행합니다. 여기에는 보이지 않는 노드가 있으며 종종 노드 기능이 없습니다.

저자는 메타 학습 그리고 제안 그래프 외삽 네트워크 (GEN)~하도록 고안된 외삽하다 보이지 않는 존재에 대한 지식. 또한 저자는 다음에서 작업을 정의합니다. 몇 발 즉, 보이지 않는 새 노드에 3–5 (K) 기존 노드 또는 다른 보이지 않는 노드 간의 링크 🤔.

GEN의 메타 학습 👩‍🏫 작업은 주로 관계: 지원 세트 제공 K 보이지 않는 노드에 대한 트리플 e_i, 학습 가능한 관계 별 가중치를 통해 이웃 집계 적용 Wr. 실제로 👉 모든 관계 인식 GNN 아키텍처가 여기에 연결될 수 있습니다. 즉, 우리는 이웃의 표현을 사용하여 보이지 않는 개체의 임베딩을 메타 학습합니다. 몇 안되는 시나리오의 불확실성을 충족시키기 위해 저자는 MC 샘플링을 통해 2 개의 GEN 레이어로 학습되는 매개 변수가 분포로 보이지 않는 개체를 확률 적으로 포함합니다 (다소 유사 함). GraphVAE).

🧪 GEN은 FB1k-3 및 NELL-15의 237 샷 및 995 샷 LP 작업에 대해 평가되어 보이지 않는 링크를 고려할 때 상당한 👍 개선을 가져 왔습니다. 또한 GEN은 관계 예측에 적용되었습니다. 딥DDI 과 BioSNAP-서브 예를 들어 DeepDDI의 0.708 대 0.397 AUPRC와 같이 기준선에 비해 인상적인 이득을 가진 데이터 세트.

🔥 전반적으로 NeurIPS'20은 KG 임베딩 영역에서 몇 가지 전망을 열었습니다. Look, Neural Architecture Search 🔎 작업, Meta-Learning 작업, Quantum 및 📦 모델이 더욱 표현력이 높아지고 있습니다! 덕분에 우리는 이제 바닐라 전이 링크 예측보다 훨씬 더 복잡한 작업을 해결할 수 있습니다.

SPARQL 및 구성 일반화

📝 KGQA (질문 응답)에서 의미 론적 구문 분석은 질문을 구조화 된 쿼리 (예 : SPARQL)로 변환 한 다음 데이터베이스에 대해 실행됩니다. 🔑 문제 중 하나는 구성 일반화입니다. 즉, 간단한 원자를 관찰 한 후 복잡한 쿼리 패턴을 만들 수 있습니까? 에서 ICLR'20 포스트, 우리는 새로운 대규모 데이터 세트를 검토했습니다. 복잡한 Freebase 질문 (CFQ) NL 2 SPARQL 접근법의 구성 일반화 기능을 측정하도록 설계된 🧟‍♂️ Freebase에 대해 용서합시다. 특히 LSTM 및 트랜스포머와 같은 기준선은 성능이 매우 저조합니다. 평균 정확도가 20 % 미만입니다 😕

🚒  구오 등 잠재적 인주의 사항에 대한 철저한 연구를 제시합니다. 즉, 가장 큰 문제 중 하나는 순차 디코딩 ⛓ 또는 쿼리 또는 트리 디코딩을 포함한 논리 형식을 생성 할 때 모든 종류의 순서 편향입니다. 대신, 그들은 부분 주문 세트 (포셋) 그리고 반대로 HPD (계층 적 포셋 디코딩)포젯 디코딩 프로세스에서 순열 불변성을 적용 할 수 있습니다 (예 : a의 두 분기 예측). 논리적 AND 연산자 독립적) 모델이 일반화에 집중할 수 있습니다. Posets는 DAG로 나타낼 수 있습니다. 해당 DAG의 구성 요소는 작성자가 의존하는 간단한 RNN으로 예측할 수 있습니다.

그러나 포셋의 직접적인 예측은 이점을 가져 오지 않습니다 (LSTM 및 트랜스포머보다 더 나쁘게 작동합니다 📉). 필수 부분은 4 단계로 구성된 계층 적 디코딩 (아래 🖼 확인)입니다. 1️⃣ 먼저, 사후 스케치를 예측합니다 (비 어휘 화 된 DAG). 2️⃣ 독립적으로 쿼리의 기본 요소 (일종의 개체 및 관계 인식)를 예측합니다. 3️⃣ 그런 다음 가능한 모든 순열로 포셋 스케치에 프리미티브를 채우고 4️⃣ 실제로 올바른 대상 포셋에 속하는 특정 경로를 예측합니다.

🧪 실험적으로 HPD 놀라운 성능 👀 — Universal Transformer 및 70 %에 비해 3 MCD 분할에서 평균 20 % 정확도 강력한 T40–5B에 의해 11 % -ish. 절제에 따르면 seq2seq 및 seq2tree 스케치 예측은 성능을 악화시킬 뿐이며 계층 적 구성 요소가 중요합니다 (그렇지 않으면 50 % 정확도를 뺀 값). 🔥 바라건대,이 작업은 구성 일반화 및 복잡한 KGQA에 대한 더 많은 연구를 고무시킬 것입니다!

벤치마킹 : OGB, GraphGYM, KeOps

다른 모든 GNN 신문에서 Cora / Citeseer / Pubmed를 보는 것에 지쳤습니까? 당신은 : 그들은 작고, 특정 편견을 드러내고, 모델의 성능은 거의 포화 상태입니다. 큰 변화를위한 시간!

오픈 그래프 벤치 마크 (OGB) (Hu et al의 논문)는 Graph ML 커뮤니티가 다양한 형태의 그래프 (리더 보드 포함 🏆)에서 복잡하고 다양한 작업 세트를 만들기위한 새로운 노력입니다. OGB 제안 노드 분류그래프 분류링크 예측 다양한 크기의 그래프에 대한 작업 (현재 가장 큰 그래프에는 ~ 100M 노드와 ~ 1.6B 에지 포함) 및 도메인 (KG도 여기에 있습니다 😍 : Wikidata 기반 및 BioKG 링크 예측 데이터 세트).

🔥 OGB 리더 보드는 이미 여러 트위터 폭풍을 일으켰습니다. 예를 들어 갑자기 단순 라벨 전파 알고리즘 10K-100K 매개 변수 실적이 좋다 전환 노드 분류 작업에서 큰 차이로 1M + 매개 변수의 크고 느린 GNN 🙈. 분명히 GNN의 기능과 한계에 대한 미개척의 여지가 여전히 있습니다. Cora / Citeseer / Pubmed가 그것을 시연 할 수 있습니까? 아마 🤷‍♀️.

좋아요, 우리는 지금 매우 다양한 작업을 가지고 있습니다! 반면에 수십 개의 GNN 아키텍처와 수백 개의 하이퍼 파라미터를 조정해야합니다. 특정 작업을 파헤 치기위한 최적의 시작점이 있습니까? 공간이 너무 큽니다! 🤯  당신, 잉, 그리고 Leskovec GNN의 디자인 공간을 탐색하는 문제를 정확히 해결하고 그래프짐, GNN 생성 및 평가 (및 GNN 근육 유연화 💪)를위한 포괄적 인 제품군입니다. 작성자는 GNN 설계 및 작업 공간을 정의하며, 각각은 세부적인 세부 사항으로 구성됩니다. -레이어, 배치 크기, 학습률, 최적화 프로그램 및 훈련 시대. 수십 개의 작업과 결합하면 가능한 조합의 데카르트 곱이 12 만 옵션을 능가합니다! 👀

풍부한 실험 의제에서 저자는 좋은 출발점으로 채택하고 매우 통찰력있는 차트를 생성 할 수있는 최상의 작업 조합을 찾습니다. 그만큼 REPO 공개되어 있으므로 즉시 실험을 시작할 수 있습니다!

😉 그건 그렇고, KG 임베딩 도메인에서 비슷한 것을 찾고 있다면 우리 팀은 최근에 완료했습니다 거대한 조사 링크 예측 작업에 집중하는 모델 및 하이퍼 파라미터의 수.

⚡️ 마지막으로 Feydy 외 on KeOps, NumPy, PyTorch, R 및 Matlab 바인딩이 포함 된 초고속 커널 작업 라이브러리입니다. 널리 사용되는 고밀도 및 희소 행렬 외에도 저자는 기호 행렬 (어디에 j번째 멤버는 특정 공식을 통해 계산됩니다. F, 종종 매트릭스 감소 공식). 기호 행렬은 즉시 계산되고 🚀 CUDA 계산에 최적화됩니다. 저자는 벤치마킹에 투자합니다. 8 코어 Xeon, 128Gb RAM, RTX 2080 Ti를 갖춘 다소 표준적인 서버 워크 스테이션에서 KeOps는 5x-20x 빠른 동일한 작업에 대한 PyTorch 구현보다 (그러면 KeOps가 제대로 작동하는 동안 PyTorch가 OOM과 충돌합니다).

  • kNN 검색을 수행하고 FAISS와 경쟁 할 수도 있습니다!
  • 일부 구현 PyTorch-기하학적 이미 KeOPS와 잘 작동합니다.

개인적으로 저는 여름부터 PyKeOps를 사용해 왔으며 대규모 KG로 작업 할 때 매우 유용합니다. 게다가 PowerPC + CUDA 클러스터에서 라이브러리를 컴파일했습니다. 제 고통을 느껴주세요 😅

최대 포장

NeurIPS는 최고의 AI 컨퍼런스 라인업을 마무리하지만 ICLR 2021 점수는 이미 나와 있습니다 😉. Graph ML 주제에 대한 업데이트를 유지하려면 다음을 구독 할 수 있습니다. 정기 뉴스 레터 Sergey Ivanov 또는 Telegram에 가입 GraphML 채널!

메리 크리스마스, 새해 복 많이 받으세요, 그리고 안전하게 지내세요 🤗

이 기사는 원래에 게시되었습니다. 중급 저자의 허락을 받아 TOPBOTS에 다시 게시했습니다.

이 기사를 즐기십니까? 더 많은 AI 연구 업데이트에 가입하십시오.

이와 같은 더 많은 요약 기사를 발표하면 알려 드리겠습니다.

출처 : https://www.topbots.com/neurips-2020-knowledge-graphs/

spot_img

최신 인텔리전스

spot_img