제퍼넷 로고

문제의 핵심: LLM 교육에서 복사에 대한 이해 – DATAVERSITY

시간

지난 15개월을 되돌아보면 ChatGPT가 대중에게 소개되고 출시된 이후 생성 AI 및 대규모 언어 모델(LLM)에서 이루어진 진전이 헤드라인을 장식했습니다. 

이러한 발전을 위한 구성 요소는 Google 연구원 팀이 ''라는 제목의 논문에서 설명한 Transformer 모델 아키텍처였습니다.주의 만 있으면됩니다.” 제목에서 알 수 있듯이 모든 Transformer 모델의 주요 특징은 다음과 같이 논문에서 정의된 주의 메커니즘입니다.

“주의 기능은 쿼리와 키-값 쌍 세트를 출력에 매핑하는 것으로 설명할 수 있습니다. 여기서 쿼리, 키, 값 및 출력은 모두 벡터입니다. 출력은 값의 가중치 합으로 계산되며, 여기서 각 값에 할당된 가중치는 해당 키에 대한 쿼리의 호환성 함수에 의해 계산됩니다.

생성적 AI 모델의 특징은 텍스트, 이미지, 오디오 파일, 비디오 파일 또는 입력의 조합(일반적으로 "멀티모달"이라고 함)으로 구성될 수 있는 데이터 입력의 막대한 소비입니다. 저작권의 관점에서 볼 때(많은 중요한 질문 중) 물어봐야 할 중요한 질문은 교육 자료가 저작권에 보관되어 있는지 여부입니다. 대형 언어 모델 (LLM)은 다양한 LLM 공급업체에서 제작되었습니다. 이 질문에 답하려면 텍스트 자료가 어떻게 처리되는지 이해해야 합니다. 다음은 텍스트에 초점을 맞춰 LLM 교육의 해당 측면에 대한 간단하고 비기술적인 설명입니다. 

인간은 단어를 순서대로 배치하여 자연어로 의사소통합니다. 단어의 순서와 특정 형태에 대한 규칙은 특정 언어(예: 영어)에 따라 결정됩니다. 텍스트를 처리하는 모든 소프트웨어 시스템(따라서 그렇게 하는 모든 AI 시스템)에 대한 아키텍처의 필수 부분은 시스템 기능이 가장 효율적으로 수행될 수 있도록 해당 텍스트를 표현하는 방법입니다. 따라서 언어 모델에서 텍스트 입력을 처리하는 핵심 단계는 사용자 입력을 AI 시스템이 이해할 수 있는 특수 "단어"로 분할하는 것입니다. 이러한 특별한 단어를 "토큰"이라고 합니다. 이를 담당하는 구성 요소를 "토크나이저"라고 합니다. 토크나이저에는 다양한 유형이 있습니다. 예를 들어 OpenAI와 Azure OpenAI는 GPT(Generative Pretrained Transformer) 기반 모델에 "BPE(바이트 쌍 인코딩)"라는 하위 단어 토큰화 방법을 사용합니다. BPE는 특정 수의 토큰 또는 어휘 크기에 도달할 때까지 가장 자주 발생하는 문자 또는 바이트 쌍을 단일 토큰으로 병합하는 방법입니다. 어휘 크기가 클수록 모델이 생성할 수 있는 텍스트는 더욱 다양하고 표현력이 풍부해집니다.

AI 시스템은 입력 텍스트를 토큰에 매핑한 후 토큰을 숫자로 인코딩하고 처리한 시퀀스를 "단어 임베딩"이라고 하는 벡터로 변환합니다. 벡터는 순서가 지정된 숫자 집합입니다. 테이블의 행이나 열로 생각할 수 있습니다. 이러한 벡터는 텍스트로 제공된 원래의 자연어 표현을 보존하는 토큰의 표현입니다. 임베딩은 전체 문장 또는 단락의 표현(또는 인코딩)을 형성하므로 벡터 조합에서는 고차원 벡터 공간의 전체 문서까지 형성하므로 저작권과 관련하여 단어 임베딩의 역할을 이해하는 것이 중요합니다. AI 시스템은 이러한 임베딩을 통해 자연어에서 단어의 의미와 관계를 캡처하고 저장합니다. 

임베딩은 생성 AI 시스템이 수행하는 거의 모든 작업(예: 텍스트 생성, 텍스트 요약, 텍스트 분류, 텍스트 번역, 이미지 생성, 코드 생성 등)에 사용됩니다. 단어 임베딩은 일반적으로 벡터 데이터베이스에 저장되지만 사용 중인 공급업체, 프로세스 및 방식이 매우 다양하므로 저장에 대한 모든 접근 방식에 대한 자세한 설명은 이 게시물의 범위를 벗어납니다.

언급한 대로 거의 모든 LLM은 어텐션 메커니즘을 호출하는 Transformer 아키텍처를 기반으로 합니다. 후자를 통해 AI 기술은 단순한 문자 시퀀스가 ​​아닌 전체 문장, 심지어 단락까지 전체적으로 볼 수 있습니다. 이를 통해 소프트웨어는 단어가 발생할 수 있는 다양한 문맥을 캡처할 수 있으며 이러한 문맥은 저작권이 있는 저작물을 포함하여 교육에 사용되는 저작물에 의해 제공되므로 임의적이지 않습니다. 이런 방식으로 단어의 원래 사용, 원작의 표현이 AI 시스템에 보존됩니다. 이는 복제 및 분석이 가능하며 새로운 표현의 기초를 형성할 수 있습니다(특정 상황에 따라 저작권 용어로 "2차적 저작물"로 특징지어질 수 있음). 

LLM은 교육을 받은 원본 작품의 표현을 유지합니다. 그들은 특별히 제작된 벡터 공간에서 텍스트의 내부 표현을 형성하고, 트리거로 적절한 입력이 주어지면 훈련에 사용된 원본 작업을 재현할 수 있습니다. AI 시스템은 기반이 되는 LLM을 교육하는 데 사용되는 저작권 보호 콘텐츠를 포함한 콘텐츠로부터 영구적인 이점을 얻습니다. LLM은 원본 저작물의 단어 표현을 기반으로 단어의 맥락을 인식합니다. 그리고 이러한 맥락은 훈련에 사용되는 수천 또는 수백만 개의 저작권이 있는 저작물에 걸쳐 AI 시스템에 누적된 이점을 제공합니다. 이러한 원본 저작물은 저작권 보호 저작물의 벡터(원래의 자연어 표현을 보존하는 토큰의 벡터 공간 표현)에 저장되기 때문에 AI 시스템에 의해 다시 생성될 수 있습니다. 저작권 관점에서 교육 자료가 LLM에 유지되는지 여부를 결정하는 것이 문제의 핵심이며 해당 질문에 대한 대답은 '예'임이 분명합니다.

spot_img

최신 인텔리전스

spot_img