제퍼넷 로고

컴퓨팅에 대한 새로운 접근 방식으로 인공 지능을 재구상

시간

개요

ChatGPT 및 기타 대규모 언어 모델의 대성공에도 불구하고 이러한 시스템을 뒷받침하는 인공 신경망(ANN)은 잘못된 길을 가고 있을 수 있습니다.

우선, ANN은 "슈퍼 파워에 굶주려 있다"고 말했습니다. 코르넬리아 페르뮐러, 메릴랜드 대학의 컴퓨터 과학자. "그리고 다른 문제는 [그들의] 투명성 부족입니다." 그러한 시스템은 너무 복잡해서 아무도 그들이 무엇을 하고 있는지 또는 왜 그렇게 잘 작동하는지 진정으로 이해하지 못합니다. 이것은 차례로 사물, 아이디어 및 그들 사이의 관계에 대한 기호를 사용하여 인간이하는 것과 같은 유추로 추론하는 것을 거의 불가능하게 만듭니다.

이러한 단점은 ANN의 현재 구조와 구성 요소인 개별 인공 뉴런에서 비롯된 것 같습니다. 각 뉴런은 입력을 받고 계산을 수행하며 출력을 생성합니다. 최신 ANN은 특정 작업을 수행하도록 훈련된 이러한 계산 단위의 정교한 네트워크입니다.

그러나 ANN의 한계는 오랫동안 명백했습니다. 예를 들어 원과 사각형을 구별하는 ANN을 생각해 보십시오. 이를 수행하는 한 가지 방법은 출력 레이어에 두 개의 뉴런을 두는 것입니다. 하나는 원을 나타내고 다른 하나는 사각형을 나타냅니다. ANN이 모양의 색상(파란색 또는 빨간색)도 식별하도록 하려면 파란색 원, 파란색 사각형, 빨간색 원 및 빨간색 사각형에 각각 하나씩 XNUMX개의 출력 뉴런이 필요합니다. 더 많은 기능은 더 많은 뉴런을 의미합니다.

이것은 우리의 두뇌가 모든 변형이 있는 자연 세계를 인식하는 방식이 될 수 없습니다. "당신은 모든 조합에 대한 뉴런을 가지고 있다고 제안해야 합니다."라고 말했습니다. 브루노 올스하우젠, 캘리포니아 대학교 버클리의 신경과학자. "그래서, 당신의 두뇌에는 보라색 폭스바겐 탐지기가 있을 것입니다."

대신 Olshausen과 다른 사람들은 뇌의 정보가 수많은 뉴런의 활동으로 표현된다고 주장합니다. 따라서 보라색 폭스바겐에 대한 인식은 단일 뉴런의 동작이 아니라 수천 개의 뉴런의 동작으로 인코딩됩니다. 다르게 발사되는 동일한 뉴런 집합은 완전히 다른 개념(아마도 분홍색 캐딜락)을 나타낼 수 있습니다.

이것은 초차원 컴퓨팅으로 알려진 계산에 대한 근본적으로 다른 접근 방식의 출발점입니다. 핵심은 자동차의 개념, 제조사, 모델, 색상 또는 모든 정보와 같은 각 정보가 하나의 엔터티인 초차원 벡터로 표현된다는 것입니다.

벡터는 단순히 정렬된 숫자 배열입니다. 예를 들어 3D 벡터는 세 개의 숫자로 구성됩니다. x, yz 3D 공간에서 점의 좌표. 하이퍼차원 벡터 또는 하이퍼벡터는 10,000차원 공간의 한 지점을 나타내는 10,000개의 숫자 배열일 수 있습니다. 이러한 수학적 개체와 이를 조작하는 대수학은 유연하고 강력하여 현대 컴퓨팅을 현재의 한계를 넘어 인공 지능에 대한 새로운 접근 방식을 촉진할 수 있습니다.

Olshausen은 "이것은 제가 거의 모든 경력에서 가장 흥분했던 것입니다."라고 말했습니다. 그와 다른 많은 사람들에게 초차원 컴퓨팅은 컴퓨팅이 효율적이고 강력하며 기계가 내린 결정이 완전히 투명한 새로운 세상을 약속합니다.

고차원 공간에 들어가다

하이퍼벡터가 어떻게 컴퓨팅을 가능하게 하는지 이해하기 위해 빨간색 원과 파란색 사각형이 있는 이미지로 돌아가 보겠습니다. 먼저 SHAPE 및 COLOR 변수를 나타내는 벡터가 필요합니다. 그런 다음 CIRCLE, SQUARE, BLUE 및 RED 변수에 할당할 수 있는 값에 대한 벡터도 필요합니다.

벡터는 구별되어야 합니다. 이 뚜렷함은 직교성을 의미하는 직교성이라는 속성으로 정량화할 수 있습니다. 3D 공간에는 서로 직교하는 세 개의 벡터가 있습니다. x 방향, 또 다른 y 그리고 세 번째는 z. 10,000차원 공간에는 이러한 상호 직교 벡터가 10,000개 있습니다.

그러나 벡터가 거의 직교하도록 허용하면 고차원 공간에서 이러한 고유 벡터의 수가 폭발적으로 증가합니다. 10,000차원 공간에는 거의 직교하는 수백만 개의 벡터가 있습니다.

이제 SHAPE, COLOR, CIRCLE, SQUARE, BLUE 및 RED를 나타내는 별개의 벡터를 만들어 보겠습니다. 고차원 공간에는 가능한 거의 직교하는 벡터가 너무 많기 때문에 XNUMX개의 항목을 나타내기 위해 XNUMX개의 임의 벡터를 할당할 수 있습니다. 그들은 거의 직교하는 것이 거의 보장됩니다. "거의 직교 벡터를 쉽게 만들 수 있다는 점은 초차원 표현을 사용하는 주된 이유입니다." 펜티 카네르바, 2009년 영향력 있는 논문에서 버클리 캘리포니아 대학의 이론적 신경과학을 위한 레드우드 센터 연구원.

개요

이 논문은 1990년대 중반 토론토 대학에서 Geoff Hinton과 함께 박사 과정을 밟고 있던 Kanerva와 Tony Plate가 수행한 작업을 기반으로 작성되었습니다. 두 사람은 하이퍼벡터를 조작하기 위한 대수학을 독립적으로 개발했으며 고차원 컴퓨팅에 대한 유용성을 암시했습니다.

모양과 색상에 대한 하이퍼벡터가 주어지면 Kanerva와 Plate가 개발한 시스템은 특정 수학적 연산을 사용하여 이를 조작하는 방법을 보여줍니다. 이러한 동작은 개념을 상징적으로 조작하는 방법에 해당합니다.

첫 번째 연산은 곱하기입니다. 이것은 아이디어를 결합하는 방법입니다. 예를 들어, 벡터 SHAPE와 벡터 CIRCLE을 곱하면 두 벡터가 "SHAPE is CIRCLE"이라는 아이디어의 표현으로 결합됩니다. 이 새로운 "바운드" 벡터는 SHAPE 및 CIRCLE 모두에 거의 직교합니다. 그리고 개별 구성 요소는 복구 가능합니다. 이는 바인딩된 벡터에서 정보를 추출하려는 경우 중요한 기능입니다. Volkswagen을 나타내는 바인딩된 벡터가 있으면 바인딩을 해제하고 벡터 색상(PURPLE)을 검색할 수 있습니다.

두 번째 연산인 덧셈은 소위 개념의 중첩을 나타내는 새로운 벡터를 생성합니다. 예를 들어 "SHAPE is CIRCLE" 및 "COLOR is RED"라는 두 개의 바인딩된 벡터를 가져와 함께 추가하여 색상이 빨간색인 원형 모양을 나타내는 벡터를 만들 수 있습니다. 다시 말하지만, 중첩된 벡터는 구성 요소로 분해될 수 있습니다.

세 번째 작업은 순열입니다. 벡터의 개별 요소를 재배열하는 작업이 포함됩니다. 예를 들어 레이블이 지정된 값이 있는 XNUMX차원 벡터가 있는 경우 x, yz, 순열은 xy, yzzx. "순열을 사용하면 구조를 구축할 수 있습니다."라고 Kanerva는 말했습니다. "연속적으로 발생하는 일련의 작업을 처리할 수 있습니다." 하이퍼벡터 A와 B로 표현되는 두 사건을 생각해 보십시오. 우리는 그것들을 하나의 벡터로 중첩시킬 수 있지만, 그것은 사건의 순서에 대한 정보를 파괴할 것입니다. 덧셈과 순열을 결합하면 순서가 유지됩니다. 작업을 반대로 하여 이벤트를 순서대로 검색할 수 있습니다.

이 세 가지 작업을 함께 사용하면 상징적 추론을 허용하는 하이퍼벡터의 공식 대수를 생성하기에 충분함을 입증했습니다. 그러나 Olshausen을 비롯한 많은 연구자들은 초차원 컴퓨팅의 잠재력을 더디게 파악했습니다. "그냥 가라 앉지 않았습니다. "라고 그는 말했습니다.

힘을 활용하다

2018년 올스하우젠의 학생인 에릭 와이스(Eric Weiss)는 초차원 컴퓨팅의 고유한 능력 중 한 측면을 시연했습니다. Weiss는 색상, 위치 및 크기와 같은 속성을 포함하여 이미지의 모든 개체에 대한 정보를 포함하는 단일 초차원 벡터로 복잡한 이미지를 표현하는 방법을 알아냈습니다.

Olshausen은 "저는 거의 의자에서 떨어질 뻔했습니다."라고 말했습니다. "갑자기 전구가 켜졌습니다."

곧 더 많은 팀이 심층 신경망이 이미지 분류와 같이 약 XNUMX년 전에 다루기 시작한 간단한 작업을 복제하기 위해 초차원 알고리즘을 개발하기 시작했습니다.

손으로 쓴 숫자의 이미지로 구성된 주석이 달린 데이터 세트를 고려하십시오. 알고리즘은 미리 결정된 체계를 사용하여 각 이미지의 특징을 분석합니다. 그런 다음 각 이미지에 대한 하이퍼벡터를 생성합니다. 다음으로, 알고리즘은 10의 아이디어에 대한 하이퍼벡터를 생성하기 위해 XNUMX의 모든 이미지에 대한 하이퍼벡터를 추가합니다. 그런 다음 모든 숫자에 대해 동일한 작업을 수행하여 각 숫자에 대해 하나씩 XNUMX개의 "클래스" 하이퍼벡터를 생성합니다.

이제 알고리즘에 레이블이 지정되지 않은 이미지가 제공됩니다. 이 새 이미지에 대한 하이퍼벡터를 생성한 다음 하이퍼벡터를 저장된 클래스 하이퍼벡터와 비교합니다. 이 비교는 새 이미지가 가장 유사한 숫자를 결정합니다.

그러나 이것은 시작에 불과합니다. 초차원 컴퓨팅의 강점은 추론을 위해 하이퍼벡터를 구성하고 분해하는 능력에 있습니다. 이에 대한 가장 최근의 시연은 XNUMX월에 이루어졌습니다. 압바스 라히미 및 취리히에 있는 IBM Research의 동료들은 신경망과 함께 초차원 컴퓨팅을 사용하여 고전적인 문제를 해결하다 추상적인 시각적 추론에서 — 일반적인 ANN 및 일부 인간에게도 중요한 과제입니다. Raven의 누진 행렬로 알려진 이 문제는 예를 들어 3x3 그리드에 있는 기하학적 개체의 이미지를 나타냅니다. 그리드의 한 위치가 비어 있습니다. 피사체는 후보 이미지 세트에서 공백에 가장 잘 맞는 이미지를 선택해야 합니다.

Rahimi는 "우리는 '이건 정말... 시각적 추상 추론을 위한 킬러 예제입니다. 뛰어들자'라고 말했습니다."라고 말했습니다.

하이퍼차원 컴퓨팅을 사용하여 문제를 해결하기 위해 팀은 먼저 각 이미지의 개체를 나타내는 하이퍼벡터 사전을 만들었습니다. 사전의 각 하이퍼벡터는 객체와 속성의 일부 조합을 나타냅니다. 그런 다음 팀은 신경망을 훈련시켜 이미지를 검사하고 양극성 하이퍼벡터(요소는 +1 또는 -1일 수 있음)를 생성했습니다. 이는 사전에 있는 하이퍼벡터의 일부 중첩에 가능한 한 가깝습니다. 따라서 생성된 하이퍼벡터에는 이미지의 모든 개체 및 속성에 대한 정보가 포함됩니다. Rahimi는 "신경망을 의미 있는 개념적 공간으로 안내합니다."라고 말했습니다.

네트워크가 각 컨텍스트 이미지와 빈 슬롯의 각 후보에 대해 하이퍼벡터를 생성하면 다른 알고리즘이 하이퍼벡터를 분석하여 각 이미지의 개체 수, 크기 및 기타 특성에 대한 확률 분포를 생성합니다. 컨텍스트와 후보 이미지 모두의 가능성 있는 특성을 나타내는 이러한 확률 분포는 하이퍼벡터로 변환될 수 있으므로 대수를 사용하여 빈 슬롯을 채울 가능성이 가장 높은 후보 이미지를 예측할 수 있습니다.

그들의 접근 방식은 한 세트의 문제에서 거의 88% 정확했지만 신경망 전용 솔루션은 61% 미만이었습니다. 팀은 또한 3x3 그리드의 경우 기호 논리 규칙을 사용하여 추론하는 기존 방법보다 시스템이 거의 250배 더 ​​빠르다는 것을 보여주었습니다. 이 방법은 올바른 다음 단계를 결정하기 위해 방대한 규칙서를 검색해야 하기 때문입니다.

유망한 시작

초차원 컴퓨팅은 우리에게 문제를 상징적으로 해결할 수 있는 능력을 제공할 뿐만 아니라 전통적인 컴퓨팅의 일부 사소한 문제도 해결합니다. 예를 들어 임의의 비트 플립(0이 1이 되거나 그 반대)으로 인해 발생하는 오류가 내장된 오류 수정 메커니즘으로 수정될 수 없는 경우 오늘날 컴퓨터의 성능은 급격히 저하됩니다. 또한 이러한 오류 수정 메커니즘은 성능에 최대 25%의 페널티를 부과할 수 있다고 말했습니다. 슌자오, Villanova University의 컴퓨터 과학자.

하이퍼차원 컴퓨팅은 오류를 더 잘 견뎌냅니다. 하이퍼벡터가 많은 수의 임의 비트 플립을 겪더라도 여전히 원래 벡터에 가깝기 때문입니다. 이것은 이러한 벡터를 사용하는 모든 추론이 오류에 직면하여 의미 있는 영향을 받지 않는다는 것을 의미합니다. 자오의 팀 보여 주었다 이러한 시스템은 기존 컴퓨팅 아키텍처보다 훨씬 더 탄력적인 기존 ANN보다 하드웨어 오류에 대해 최소 10배 더 견딜 수 있습니다. Jiao는 "우리는 모든 복원력을 활용하여 일부 효율적인 하드웨어를 설계할 수 있습니다."라고 말했습니다.

하이퍼차원 컴퓨팅의 또 다른 이점은 투명성입니다. 대수는 시스템이 답을 선택한 이유를 명확하게 알려줍니다. 전통적인 신경망의 경우에도 마찬가지입니다. Olshausen, Rahimi 등은 신경망이 물리적 세계의 사물을 하이퍼벡터에 매핑한 다음 초차원 대수학이 대신하는 하이브리드 시스템을 개발하고 있습니다. Olshausen은 "유추적 추론과 같은 것은 당신의 무릎에 떨어질 뿐입니다."라고 말했습니다. “이것은 우리가 모든 AI 시스템에서 기대해야 하는 것입니다. 비행기나 텔레비전을 이해하듯이 그것을 이해할 수 있어야 합니다.”

기존 컴퓨팅에 비해 이러한 모든 이점은 초차원 컴퓨팅이 차세대 매우 견고한 저전력 하드웨어에 적합하다는 것을 시사합니다. 또한 데이터를 저장하는 동일한 하드웨어에서 컴퓨팅을 수행하는 "메모리 내 컴퓨팅 시스템"과도 호환됩니다(메모리와 중앙 처리 장치 간에 데이터를 비효율적으로 왕복하는 기존 폰 노이만 컴퓨터와 달리). 이러한 새로운 장치 중 일부는 매우 낮은 전압에서 작동하는 아날로그일 수 있습니다. 효율적인 에너지 그러나 또한 임의의 노이즈가 발생하기 쉽습니다. 폰 노이만 컴퓨팅의 경우 이 임의성은 "넘을 수 없는 벽"이라고 Olshausen은 말했습니다. 그러나 초차원 컴퓨팅을 사용하면 "그냥 뚫을 수 있습니다."

이러한 장점에도 불구하고 초차원 컴퓨팅은 아직 걸음마 단계입니다. Fermüller는 “여기에 진정한 잠재력이 있습니다. 그러나 그녀는 실제 문제에 대해 더 큰 규모, 현대 신경망의 크기에 더 가까운 규모에서 여전히 테스트가 필요하다고 지적합니다.

Rahimi는 "규모 문제의 경우 매우 효율적인 하드웨어가 필요합니다."라고 말했습니다. "예를 들어 1억 개가 넘는 항목을 어떻게 효율적으로 검색합니까?"

Kanerva는 이 모든 것이 시간과 함께 이루어져야 한다고 말했습니다. "고차원 공간에는 다른 비밀이 있습니다."라고 그는 말했습니다. "저는 이것이 벡터를 사용한 컴퓨팅의 시작이라고 생각합니다."

spot_img

최신 인텔리전스

spot_img