제퍼넷 로고

Meta, AI 훈련을 위해 '해적판' 도서 데이터세트 사용 인정

시간

메타 로고

메타 로고최근 몇 달 동안 모든 종류의 권리 보유자들은 AI 모델을 개발하는 회사를 상대로 소송을 제기했습니다.

목록에는 음반사, 개인 작가, 시각 예술가 및 최근에는 New York Times가 포함됩니다. 이들 권리 보유자들은 모두 적절한 보상 없이 자신의 저작물을 사용하는 것으로 추정되는 것에 반대합니다.

몇몇의 소송 도서 저자가 제출한 콘텐츠에는 불법 복제 구성 요소도 포함되어 있습니다. 이 사례에서는 Meta 및 OpenAI를 포함한 기술 회사가 논란의 여지가 있는 Books3 데이터 세트를 사용하여 모델을 훈련했다고 주장합니다.

Books3 데이터 세트에는 명확한 불법 복제 각도가 있습니다. AI 연구원이 만든 것입니다. 숀 프레서 2020년 '해적' 사이트 비블리오틱(Bibliotik)의 라이브러리를 긁어낸 사람. 이 도서 아카이브는 디지털 아카이브 집단 ''이 공개적으로 호스팅했습니다.아이' 당시에는 다른 다양한 데이터 소스와 함께.

이전에 The Eye에서 호스팅되었던 Bibliotik 및 기타 소스
눈

일반적인 비전은 크기가 거의 195,000GB에 달하는 37권 이상의 책으로 구성된 일반 텍스트 컬렉션이 AI 애호가가 더 나은 모델을 구축하는 데 도움이 되어 혁신을 촉진할 수 있다는 것이었습니다.

AI 붐으로 인해 저작권 문제 발생

Presser의 말이 틀린 것은 아니지만 데이터 세트가 AI 스타트업을 유치하는 데만 도움이 된 것은 아닙니다. 세계 최대 규모의 여러 기술 회사에서도 이를 발견하여 자체 언어 모델을 개선하는 데 사용했습니다.

수년 동안 Books3는 계속해서 무료로 광범위하게 이용 가능하여 전 세계 AI 연구자와 열광적인 지지자들을 지원했습니다. 그러나 지난해 AI 붐이 본격화되자 책 작가와 출판사들이 이에 주목하고 보복 조치에 나섰다.

예를 들어 덴마크 불법 복제 방지 단체인 Rights Alliance는 The Eye에게 제거를 요구했습니다. Books3의 사본이 그랬습니다. 해당 데이터세트는 AI 기업 허깅페이스(Huggingface) 웹사이트에서도 사라졌다. 저작권 침해 신고됨, 다른 사람들은 옵션을 고려했습니다.

이전과 같이 신고 Wired를 통해 Bloomberg는 Rights Alliance에 Books3를 사용하여 BloombergGPT 모델의 향후 버전을 교육할 계획이 없으며 다른 회사도 비공개로 유사한 결정을 내릴 가능성이 있다고 알렸습니다.

Meta는 Books3 사용을 인정합니다.

이는 주목할 만한 발전이지만 모든 불만 사항이 약속으로 해결될 수 있는 것은 아닙니다. OpenAI와 Meta를 상대로 여러 소송이 계속 진행 중이며, 해당 회사가 Books3 데이터 세트를 사용하여 모델을 훈련시켰다고 비난하고 있습니다.

OpenAI와 Meta는 이 주제를 공개적으로 논의하는 데 매우 신중한 반면 Meta는 이번 주 캘리포니아 연방 법원에서 더 많은 맥락을 제공했습니다.

작가/코미디언 Sarah Silverman, 작가 Richard Kadrey 및 기타 권리 보유자들의 소송에 대응하여 거대 기술 기업은 Llama AI 모델이 공개되기 전에 "Books3의 일부"가 훈련하는 데 사용되었음을 인정했습니다.

Meta는 답변에서 “Meta는 Llama 3과 Llama 1를 훈련하기 위해 다른 많은 자료 중에서 Books2 데이터 세트의 일부를 사용했음을 인정합니다.”라고 썼습니다.

메타북3 답변

연구 논문을 포함한 여러 출처가 기본적으로 동일한 결론에 도달했기 때문에 이러한 인정은 그다지 놀라운 일이 아닙니다. Books3의 사용에 대해 Meta는 이의를 제기하지 않지만 회사가 그렇게 했을 때 잘못이 있었는지에 대한 의문은 남아 있습니다.

메타는 저작권 침해를 부인합니다

Meta의 답변은 Books3의 사용을 인정하지만 다른 다양한 주장과 주장을 부인합니다. 예를 들어, 저자들은 Meta가 허가 없이 저작권이 있는 작품에 대해 AI를 훈련시켰다고 주장했습니다. 대답은 이를 직접적으로 부정하지는 않지만 동의나 보상이 반드시 필요한 것은 아니라는 점을 지적합니다.

“응답이 필요하다고 간주되는 경우 Meta는 Llama를 교육하기 위해 저작권이 있는 저작물을 사용하는 데 동의, 신용 또는 보상이 필요하다는 사실을 부인합니다.”라고 Meta는 썼습니다.

저자는 또한 자신의 책이 Books3 데이터베이스에 나타나는 한 "침해된 저작물"로 간주된다고 밝혔습니다. 이로 인해 Meta는 또 다른 거부로 응답했습니다. “메타는 원고가 주장하는 저작권을 침해했다는 사실을 부인합니다.”라고 회사는 썼습니다.

공정한 사용

Meta의 답변은 추가 세부 정보를 많이 제공하지 않으며 사건이 진행됨에 따라 전체 방어 내용이 공개됩니다. 그러나 회사가 적어도 부분적으로는 공정 사용 방어에 의존할 계획이라는 것은 분명합니다.

“메타가 원고의 등록 저작물에 대한 무단 복사본을 만든 경우 해당 복사본은 17 U.S.C. § 107,” 메타노트.

공정 사용 측면은 이번 소송과 기타 AI 소송의 핵심 부분이 될 것으로 예상됩니다. 이는 '해적' 소스뿐만 아니라 공식 채널을 통해 게시되었지만 명시적인 허가 없이 사용된 콘텐츠의 사용에도 적용됩니다.

이러한 법적 싸움은 아직 초기 단계이지만, 필요한 경우 궁극적으로 대법원까지 갈 수 있습니다. AI 기업들은 규칙과 규정이 너무 엄격하면 발전이 방해받을 것이라고 강조해왔다.

이번 주 초 OpenAI는 공정한 사용이 필요하고 중요하다고 언급했습니다. 경쟁력 있는 AI 모델 구축, 언론 기관은 원할 경우 탈퇴할 수 있음을 언급합니다. 말할 필요도 없이 이 옵션은 이전에는 존재하지 않았으며 확실히 Books3 데이터베이스에는 존재하지 않았습니다.

Presser가 Books3를 만들었을 때 그는 데이터 세트가 AI의 미래를 정의할 수 있는 획기적인 소송의 중심이 될 것이라고 결코 상상하지 못했을 것입니다. 그러나 이해관계가 바뀌었고 선의의 '보관' 노력은 이제 주요 저작권 충돌의 일부가 되었습니다.

-

작성자의 첫 번째 통합 수정 불만사항에 대한 Meta의 답변 사본이 제공됩니다. 여기 (pdf)

spot_img

최신 인텔리전스

spot_img