제퍼넷 로고

OpenAI: 최고 수준의 AI를 훈련하고 저작권을 피할 수 없습니다

시간

OpenAI는 사람들의 저작권이 있는 저작물을 사용하지 않고 오늘날의 요구를 충족하는 최고 수준의 신경망을 구축하는 것이 "불가능"할 것이라고 말했습니다. 모델 교육을 위해 해당 콘텐츠를 합법적으로 수집하고 있다고 믿는 Microsoft 지원 연구소는 저작권이 만료된 공개 도메인 자료를 사용하면 수준 이하의 AI 소프트웨어가 될 것이라고 말했습니다.

이 주장은 머신러닝 세계가 저작권법이라는 벽돌 벽을 향해 달려가고 있는 시기에 나온 것입니다. 바로 이번 주 IEEE 보고서에서는 텍스트 프롬프트를 이미지로 바꾸는 두 가지 주요 AI 서비스인 Midjourney와 OpenAI의 DALL-E 3가 훈련 데이터를 기반으로 영화와 비디오 게임의 저작권이 있는 장면을 재현할 수 있다고 결론지었습니다.

XNUMXD덴탈의 공부AI 전문가이자 평론가인 Gary Marcus와 디지털 일러스트레이터인 Reid Southen이 공동 집필한 이 문서에는 OpenAI와 DALL-E 3가 영화 장면, 유명한 영화의 장면과 거의 유사한 버전을 렌더링하는 "표절 출력"의 여러 사례가 기록되어 있습니다. 배우, 비디오 게임 콘텐츠.

Marcus와 Southen은 Midjourney와 OpenAI가 저작권이 있는 자료에 대해 각각의 AI 이미지 생성 모델을 훈련한 것이 거의 확실하다고 말합니다.

그것이 합법적인지, AI 공급업체나 고객이 책임을 질 위험이 있는지 여부는 여전히 논쟁의 여지가 있는 질문입니다. 그러나 보고서의 조사 결과는 Midjourney와 DALL-E 제조사 OpenAI를 저작권 침해로 고소하는 사람들을 뒷받침할 수 있습니다.

사용자는 이미지를 제작할 때 자신이 침해하는지 여부를 알 수 없습니다.

“OpenAI와 Midjourney는 모두 저작권과 상표권을 침해하는 것으로 보이는 자료를 생산할 수 있습니다.”라고 그들은 썼습니다. “이러한 시스템은 사용자에게 정보를 제공하지 않습니다. 그들은 그들이 생산하는 이미지의 출처에 대한 어떠한 정보도 제공하지 않습니다. 사용자는 이미지를 제작할 때 자신이 침해하는지 여부를 알 수 없습니다.”

두 회사 모두 AI 모델을 만드는 데 사용된 훈련 데이터를 완전히 공개하지 않았습니다.

그냥 아니에요 디지털 아티스트 AI 기업에 도전하다 뉴욕타임스는 최근 OpenAI 고소 ChatGPT 텍스트 모델이 신문의 유료 기사를 거의 그대로 복사해 내놓기 때문입니다. 책 저자 유사한 주장을 제기한 바 있습니다. 소프트웨어 개발자.

이전에 연구 OpenAI의 ChatGPT를 사용하여 훈련 텍스트를 재현할 수 있음을 나타냈습니다. 그리고 Microsoft와 GitHub를 고소하는 사람들은 Copilot 코딩 보조 모델이 코드를 거의 그대로 재현할 것이라고 주장합니다.

Southen은 Midjourney가 저작권을 침해하는 콘텐츠를 제작하고 구독 수익을 통해 이익을 얻는 고객에게 비용을 청구하고 있음을 관찰했습니다. "MJ [Midjourney] 사용자는 저작권 침해가 발생할 가능성이 있다는 이유로 이미지를 판매할 필요가 없습니다. MJ는 이미 해당 생성으로 이익을 얻고 있습니다." 양질의, IEEE 보고서의 주장을 반영합니다.

OpenAI도 구독료를 청구하므로 동일한 방식으로 수익을 얻습니다. OpenAI와 Midjourney 모두 논평 요청에 응답하지 않았습니다.

그러나 OpenAI는 월요일에 다음과 같은 내용을 발표했습니다. 블로그 게시물 AI 판매자가 장점이 부족하다고 말한 New York Times 소송을 해결합니다. 놀랍게도 연구실에서는 신경망이 침해 콘텐츠를 생성하면 "버그"라고 밝혔습니다.

전체적으로 오늘날 신생 기업은 다음과 같이 주장했습니다. 언론 기관과 적극적으로 협력합니다. 저작권이 있는 데이터에 대한 교육은 저작권법에 따른 공정 사용 방어 자격이 있습니다. "'역류'는 우리가 제로화하기 위해 노력하고 있는 희귀한 버그입니다."; New York Times는 전형적인 행동을 나타내지 않는 텍스트 복제의 선별된 예를 가지고 있습니다.

법이 결정할 것이다

캘리포니아 산타클라라 대학교 법학과 타일러 오초아 교수는 이렇게 말했습니다. 등록 IEEE 보고서의 조사 결과는 저작권 소송 당사자에게 도움이 될 가능성이 높지만, 그렇게 해서는 안 됩니다. 왜냐하면 그의 견해로는 기사 작성자가 무슨 일이 일어나고 있는지 잘못 표현했기 때문입니다.

“그들은 다음과 같이 썼습니다: '이미지 생성 모델이 저작권 자료를 기반으로 한 표절 결과물을 생성하도록 유도할 수 있습니까? … [우리는 표절 결과를 직접적으로 요구하지 않더라도 대답은 분명히 '예'라는 것을 알았습니다.'”

오초아는 보고서 작성자가 입력한 프롬프트가 “그들이 실제로 표절 결과를 직접적으로 요구하고 있음을 입증하는 것”이라고 주장하면서 그러한 결론에 의문을 제기했습니다. 모든 단일 프롬프트는 특정 영화의 제목을 언급하고 화면비를 지정하며 한 경우를 제외하고 모두 '영화', '스크린샷' 또는 '스크린캡'이라는 단어를 사용합니다. (한 가지 예외는 복제하려는 이미지를 설명합니다. )”

법학 교수는 저작권법의 문제는 이러한 표절 결과물에 대한 책임이 누구에게 있는지를 결정하는 것이라고 말했습니다. AI 모델의 제작자 또는 AI 모델에 인기 있는 장면을 재현하도록 요청한 사람들입니다.

“생성 AI 모델은 원본 출력을 생성할 수 있으며, 메시지가 표시되면 저작권이 있는 입력의 장면과 유사한 장면을 재현할 수도 있습니다.”라고 Ochoa는 설명했습니다. “이것은 기여 침해 사례로 분석되어야 합니다. 모델을 촉발한 사람이 주요 침해자이며, 모델 작성자는 주요 침해를 인지하고 이를 중지하기 위한 합리적인 조치를 취하지 않은 경우에만 책임이 있습니다. 그것."

Ochoa는 생성 ​​AI 모델이 훈련 데이터 세트에 해당 이미지의 인스턴스가 여러 개 있을 때 특정 이미지를 재현할 가능성이 더 높다고 말했습니다.

“이 경우 훈련 데이터에 영화 전체가 포함될 가능성은 거의 없습니다. 훈련 데이터에는 영화 홍보 스틸로 배포된 영화의 스틸 이미지가 포함될 가능성이 훨씬 더 높습니다.”라고 그는 말했습니다. “미디어 매체가 홍보 목적으로 해당 이미지를 배포하도록 권장하고 그렇게 했기 때문에 이러한 이미지는 교육 데이터에서 여러 번 복제되었습니다.

"저작권 소유자가 홍보 목적으로 정지 이미지의 광범위한 배포를 장려한 다음 훈련 데이터에 동일한 이미지의 여러 복사본이 포함되어 있기 때문에 해당 이미지가 AI에 의해 모방되고 있다고 불평하는 것은 근본적으로 불공평합니다."

Ochoa는 AI 모델에서 그러한 행동을 제한하는 단계가 있다고 말했습니다. “문제는 프롬프트를 입력한 사람이 AI가 인식 가능한 이미지를 재현하도록 하기를 분명히 원했고, 원본 스틸 이미지를 제작한 영화 스튜디오는 분명히 해당 스틸 이미지가 널리 배포되기를 원했을 때 그렇게 해야 하는지 여부입니다. ”라고 말했다.

“더 나은 질문은 다음과 같습니다. 프롬프트에서 특정 영화를 언급하지 않거나 특정 캐릭터나 장면을 설명하지 않을 때 이런 일이 얼마나 자주 발생합니까? 편견이 없는 연구자라면 그 대답이 거의 (아마도 거의 전혀)라는 것을 알 수 있을 것 같습니다.”

그럼에도 불구하고 저작권이 있는 콘텐츠는 이러한 모델이 제대로 기능하도록 만드는 데 필수적인 연료인 것으로 보입니다.

OpenAI는 영주에게 자신을 방어합니다

님의 질문에 답변 문의 OpenAI는 영국 상원 커뮤니케이션 및 디지털 위원회에서 AI 모델의 위험과 기회에 대해 발표했습니다. 제출 [PDF] 저작권이 있는 콘텐츠에 대한 교육을 받지 않으면 모델이 작동하지 않을 것이라고 경고합니다.

"오늘날 저작권은 블로그 게시물, 사진, 포럼 게시물, 소프트웨어 코드 스크랩, 정부 문서 등 거의 모든 종류의 인간 표현에 적용되기 때문에 저작권이 있는 자료를 사용하지 않고 오늘날의 주요 AI 모델을 훈련시키는 것은 불가능할 것입니다."라고 슈퍼 랩은 말했습니다. .

"훈련 데이터를 100년 이상 전에 만들어진 공공 도메인 서적과 그림으로 제한하면 흥미로운 실험이 될 수 있지만 오늘날 시민의 요구를 충족하는 AI 시스템을 제공하지는 못할 것입니다."

AI 사업부는 저작권법을 준수하고 저작권이 있는 자료에 대한 교육이 합법적이라고 믿고 있지만 "창작자를 지원하고 권한을 부여하기 위해 해야 할 일이 아직 남아 있다"고 말했습니다.

논쟁의 여지가 있는 저작물의 공정한 사용에 대한 보상에 대한 윤리적 우려를 외교적으로 인정하는 것처럼 들리는 이러한 정서는 다음과 같은 IEEE 보고서의 주장과 함께 고려되어야 합니다. “우리는 Midjourney의 수석 소프트웨어 엔지니어가 참여했다는 증거를 발견했습니다. 대화 2022년 XNUMX월에 '세밀하게 조정된 코덱스를 통해' 데이터를 '세탁'하여 저작권법을 회피하는 방법에 대해 설명했습니다.”

IEEE 보고서의 공동 저자인 Marcus는 현재 비즈니스 관행에 대해 영국에서 규제 승인을 얻으려는 OpenAI의 노력에 대해 회의적인 입장을 표명했습니다.

“대략적인 번역: 도둑질을 허용하지 않으면 우리는 엄청나게 부자가 될 수 없으니 도둑질을 범죄로 만들지 마십시오!” 그는 소셜 미디어에 글을 썼다 게시. “우리한테 돈을 달라고 하지 마세요. 라이센스 수수료, 둘 중 하나! 물론 Netflix는 라이센스 비용으로 연간 수십억 달러를 지불할 수도 있지만 we 그러지 않아도 돼! 우리에게 더 많은 돈을 주세요!”

OpenAI는 기업 ChatGPT 및 API 고객에게 면책을 제안했습니다. 저작권 침해 주장에 반대단, 고객이나 고객의 최종 사용자가 "출력물이 침해했거나 침해할 가능성이 있음을 알았거나 알았어야 했던" 경우 또는 고객이 안전 기능을 우회한 경우에는 그렇지 않습니다. 다른 제한 사항 중. 따라서 DALL-E 3에 유명한 영화 장면(사용자가 알아야 할 저작권이 보호된다는 점을 알아야 함)을 재현하도록 요청하는 것은 면책 대상이 아닙니다.

미드저니는 정반대의 접근 방식을 취했다. 침해에 연루된 고객을 찾아 고소해 관련 소송으로 인해 발생하는 법적 비용을 회수하겠다고 약속했다.

"귀하가 고의로 다른 사람의 지적 재산권을 침해하고 이로 인해 비용이 발생하는 경우, 우리는 귀하를 찾아 귀하로부터 해당 돈을 회수할 것입니다." Midjourney's 서비스약관 상태. “우리는 법원에 법적 비용을 지불하도록 하는 등 다른 일도 할 수도 있습니다. 하지 마세요.” ®

spot_img

최신 인텔리전스

spot_img