Google AI 연구원은 새로운 종의 검색 엔진을 꿈꾸고 있습니다-Plato Data Intelligence

발행인이 우연히 밭의 무더기 더미에 던져 넣은 책 모음 (아마도 수백만 또는 수십억 개)을 상상해보십시오. 매일 더미가 기하 급수적으로 커집니다.

그 책들은 지식과 답으로 가득 차 있습니다. 그러나 구도자는 어떻게 찾을 수 있습니까? 조직이 부족한 책은 쓸모가 없습니다.

이것은 필터링되지 않은 모든 영광의 원시 인터넷입니다. 그렇기 때문에 온라인에서 "깨달음"에 대한 대부분의 탐구가 Google에서 시작됩니다 (예, 여전히 다른 검색 엔진이 있습니다). Google의 알고리즘 촉수는 경건하지 않은 더미에있는 모든 책을 스캔하고 색인을 생성합니다. 누군가가 검색 창에 쿼리를 입력하면 검색 알고리즘은 색인화 된 인터넷 버전을 훑어보고 페이지를 표시하고 상위 히트의 순위 목록에 표시합니다.

이 접근 방식은 매우 유용합니다. 사실 너무나 유용해서 XNUMX 년 동안 근본적으로 변하지 않았습니다. 그러나 이제는 검색 엔진의 기준을 설정 한 바로 그 회사 인 Google의 인공 지능 연구원들이 다음에 나올 일에 대한 청사진을 스케치하고 있습니다.

안에 arXiv 사전 인쇄 서버의 용지, 팀은 인터넷을 더욱 검색 가능하게 만드는 기술이 우리 손끝에 있다고 제안합니다. 그들은 큰 언어 모델을 말합니다.OpenAI의 GPT-3과 같은 기계 학습 알고리즘— 오늘날의 인덱스 시스템을 완전히 대체하고 검색 한 다음 순위를 지정할 수 있습니다.

AI는 미래의 검색 엔진입니까?

정보를 구할 때 대부분의 사람들은 전문가에게 물어보고 미묘하고 신뢰할 수있는 응답을 받기를 원한다고 저자는 썼습니다. 대신 Google에서 검색합니다. 이것은 작동하거나 몹시 잘못 될 수 있습니다. 아침 XNUMX시에 공황 상태에 빠진 건강 관련 토끼 굴에 빨려 들어가는 것과 같습니다.

검색 엔진이 최소한의 답변을 포함하는 소스 (품질이 좋을 것 같음)를 표시하지만 검색자가 가능한 한 최선을 다해 답변을 모으기 위해 검색, 필터링 및 결과를 읽어야하는 부담이 있습니다.

검색 결과는 수년에 걸쳐 도약과 한계를 개선했습니다. 그러나 접근 방식은 완벽하지 않습니다.

Alexa, Siri 및 Google Assistant와 같은 질문 및 답변 도구가 있습니다. 그러나 이러한 도구는 부서지기 쉬우 며 제한적인 (증가하는) 질문 레퍼토리가 있습니다. 자체 단점이 있지만 (아래에서 자세히 설명) GPT-3과 같은 대규모 언어 모델은 훨씬 더 유연하며 모든 쿼리 또는 프롬프트에 대해 자연어로 새로운 응답을 구성 할 수 있습니다.

구글 팀은 차세대 검색 엔진이 오늘날 최고의 정보 검색 시스템을 대규모 AI로 접어 모든 세계의 최고를 합성 할 수 있다고 제안합니다.

머신 러닝이 이미 고전적인 인덱스 검색 후 순위 검색 엔진에서 작동하고 있다는 점은 주목할 가치가 있습니다. 그러나 저자는 단순히 시스템을 보강하는 대신 기계 학습이 시스템을 완전히 대체 할 수 있다고 제안합니다.

"인덱스 개념을 완전히 제거하고 말뭉치에 포함 된 모든 정보를 효율적이고 효과적으로 인코딩하는 대규모 사전 훈련 된 모델로 대체하면 어떻게 될까요?" Donald Metzler와 공동 저자는 논문에 글을 씁니다. "검색과 순위의 차이가 사라지고 대신 단일 응답 생성 단계가 있다면 어떨까요?"

그들이 구상하는 이상적인 결과 중 하나는 우주선 엔터프라이즈의 컴퓨터와 비슷합니다. 스타 트렉. 정보를 구하는 사람들은 질문을하고, 시스템은 대화식으로 (즉, 전문가에게 기대하는대로 자연어 답변으로) 답변하며, 답변에 권위있는 인용을 포함합니다.

논문에서 저자는이 접근 방식이 실제로 어떻게 보일지에 대한 열망적인 예라고 부르는 것을 스케치합니다. 사용자가“적포도주의 건강상의 이점은 무엇입니까?”라고 묻습니다. 이 시스템은 여러 권위있는 출처 (이 경우 WebMD 및 Mayo Clinic)에서 명확한 산문으로 미묘한 답변을 반환하여 적포도주를 마시는 것의 잠재적 인 이점과 위험을 강조합니다.

그러나 거기서 끝날 필요는 없습니다. 저자는 대규모 언어 모델의 또 다른 이점은 약간의 조정만으로 많은 작업을 학습 할 수 있다는 것입니다 (이를 원샷 또는 소수 학습이라고 함). 따라서 그들은 현재 검색 엔진이 수행하는 것과 동일한 모든 작업을 수행 할 수 있으며 수십 가지 더 많은 작업을 수행 할 수 있습니다.

여전히 비전

오늘날이 비전은 도달 할 수 없습니다. 큰 언어 모델은 저자가 "dilettantes"라고 부르는 것입니다.

GPT-3과 같은 알고리즘은 때때로 인간이 쓴 구절과 거의 구별 할 수없는 산문을 생성 할 수 있지만 여전히 무의미한 답변을하는 경향이 있습니다. 더 나쁜 것은 훈련 데이터에 내재 된 편견을 부주의하게 반영하고, 상황에 대한 이해가 없으며, 응답을 정당화하기 위해 출처를 인용 할 수 없습니다 (또는 고품질 및 저품질 출처를 분리).

“그들은 많이 아는 것으로 인식되지만 그들의 지식은 피부 깊이입니다.”라고 저자는 썼습니다. 이 논문은 또한 격차를 해소하는 데 필요한 돌파구를 제시합니다. 실제로 그들이 설명하는 많은 도전 과제는 전체 분야에 적용됩니다.

핵심적인 발전은 용어 (예 : 개별 단어) 간의 관계 만 모델링하는 알고리즘을 넘어서 예를 들어 기사의 단어와 전체 기사 간의 관계를 모델링하는 알고리즘으로 이동하는 것입니다. 또한 인터넷을 통해 다양한 기사 간의 관계를 모델링합니다.

연구원은 또한 품질 응답을 구성하는 요소를 정의해야합니다. 이것은 그 자체로 쉬운 일이 아닙니다. 그러나 우선 저자는 고품질 응답이 권위 있고 투명하며 편견이없고 접근 가능해야하며 다양한 관점을 포함해야한다고 제안합니다.

오늘날 가장 최첨단 알고리즘조차도이 기준에 근접하지 않습니다. 그리고 해결 될 때까지 자연어 모델을이 규모로 배포하는 것은 현명하지 않습니다. 하지만 문제가 해결되면 이미 해결해야 할 작업이 있습니다. 이러한 도전 중 일부— 검색 엔진 만이 혜택을받을 수있는 유일한 애플리케이션은 아닙니다.

'얼리 그레이, 핫'

매혹적인 비전입니다. 신뢰할 수있는 것과 그렇지 않은 것을 결정하려고 노력하면서 답변을 찾기 위해 웹 페이지를 샅샅이 뒤지는 것은 지칠 수 있습니다.

의심 할 여지없이, 우리 중 많은 사람들이 할 수 있거나해야 할 일을 잘하지 않습니다.

그러나 이와 같이 인터넷에 액세스하면 사람들이 기여하는 방식이 어떻게 바뀔지 추측 할 가치가 있습니다.

개별 페이지를 직접 열고 읽는 것과는 달리 알고리즘에 의해 합성 된 산문 응답을 읽는 방식으로 주로 정보를 소비한다면 제작자는 많은 작업을 게시할까요? 그리고 Google과 다른 검색 엔진 제작자는 본질적으로 알고리즘 자체를 훈련시키는 정보를 만드는 제작자에게 어떻게 보상할까요?

여전히 많은 사람들이 뉴스를 읽고있을 것이며,이 경우 검색 알고리즘은 기사 목록을 제공해야합니다. 하지만 작은 제작자가 더 적게 추가하는 미묘한 변화가 발생할 수 있는지 궁금합니다. 웹은 정보가 덜 풍부 해집니다, 그 정보에 의존하는 바로 그 알고리즘을 약화시킵니다.

알 방법이 없습니다. 종종 추측은 오늘날의 문제에 뿌리를두고 있으며 돌이켜 보면 결백함을 증명합니다. 그 동안 작업은 계속 될 것입니다.

아마도 우리는 이러한 문제를 해결하고 더 많은 문제가 발생할 때마다 해결할 수 있으며 그 과정에서 모든 것을 알고 유쾌하게 수다 스럽습니다. 스타 트렉 우리가 오랫동안 상상해 왔던 컴퓨터.

이미지 신용 : 제이디엑스 / Unsplash

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://singularityhub.com/2021/05/16/google-ai-researchers-are-dreaming-up-a-new-species-of-search-engine/

생성 데이터 인텔리전스

Google AI 연구원들은 새로운 검색 엔진을 꿈꾸고 있습니다.

AI는 미래의 검색 엔진입니까?

여전히 비전

'얼리 그레이, 핫'

과학자들은 다른 종류의 화학으로 리튬 추출을 연구하고 있습니다 – CleanTechnica

PBS가 EV FUD 방지를 확산시키는 이유는 무엇입니까? – 클린테크니카

최신 인텔리전스

비트코인, 30일 NFT 판매 선두로 24개 블록체인 경쟁사 제치고

이번 주 웹에서 제공하는 멋진 기술 이야기 (27 월 XNUMX 일까지)

보안보다 선점자 우위를 우선시하면 Defi 프로토콜이 해킹에 취약해집니다 – Nikita Ovchinnik

HKTDC, 선물, 인쇄, 포장 및 라이선스 이벤트 공개

Carlie Hanson은 Alice In Chains의 'Nutshell'을 진심 어린 커버로 담아 헌정했습니다.

현대차, EV 수요 둔화를 보완하기 위해 더 많은 하이브리드 생산 – 오토블로그