제퍼넷 로고

다중 양식이 LLM 정렬을 더욱 어렵게 만드는 방법 – KDnuggets

시간

다중 양식이 LLM 정렬을 더욱 어렵게 만드는 방법
이미지로 게르트 알트만Pixabay
 

약 한 달 전 OpenAI는 ChatGPT가 이제 보고 듣고 말할 수 있다고 발표했습니다. 이는 모델이 더 많은 일상적인 작업에 도움이 될 수 있음을 의미합니다. 예를 들어, 냉장고에 있는 내용물의 사진을 업로드하고 가지고 있는 재료로 준비할 수 있는 식사 아이디어를 요청할 수 있습니다. 아니면 거실 사진을 찍고 ChatGPT에 예술 및 장식 팁을 요청할 수도 있습니다. 

이는 ChatGPT가 이미지와 텍스트 입력을 모두 수용할 수 있는 기본 모델로 멀티모달 GPT-4를 사용하기 때문에 가능합니다. 그러나 새로운 기능은 이 문서에서 논의할 모델 정렬 팀에 새로운 과제를 안겨줍니다. 

용어 "LLM 정렬”는 인간의 기대에 따라 행동하도록 모델을 훈련시키는 것을 의미합니다. 이는 종종 인간의 지시를 이해하고 유용하고 정확하며 안전하고 편견 없는 응답을 생성하는 것을 의미합니다. 모델에 올바른 동작을 가르치기 위해 감독 미세 조정(SFT)과 인간 피드백을 통한 강화 학습(RLHF)의 두 단계를 사용하여 예제를 제공합니다. 

SFT(감독 미세 조정)는 모델이 특정 지침을 따르도록 교육합니다. ChatGPT의 경우 이는 대화의 예를 제공하는 것을 의미합니다. 기본 기본 모델인 GPT-4는 챗봇과 같은 질문에 대답하는 것이 아니라 순차적으로 다음 단어를 예측하도록 훈련되었기 때문에 아직 그렇게 할 수 없습니다.

SFT는 ChatGPT에 '챗봇' 특성을 제공하지만 답변은 여전히 ​​완벽하지 않습니다. 따라서 답변의 진실성, 무해성, 유용성을 향상시키기 위해 RLHF(Reinforcement Learning from Human Feedback)가 적용됩니다. 기본적으로 명령 조정 알고리즘은 위에서 언급한 기준을 사용하여 사람이 순위를 매기는 몇 가지 답변을 생성하도록 요청받습니다. 이를 통해 보상 알고리즘은 인간의 선호도를 학습하고 SFT 모델을 재교육하는 데 사용됩니다. 

이 단계 후에 모델은 인간의 가치와 일치하거나 적어도 그렇게 되기를 바랍니다. 그런데 왜 다중 양식이 이 프로세스를 한 단계 더 어렵게 만드는가? 

다중 모드 LLM의 정렬에 대해 이야기할 때 이미지와 텍스트에 중점을 두어야 합니다. ¨에 대한 모든 새로운 ChatGPT 기능을 다루지는 않습니다.보고, 듣고, 말하다¨ 최신 두 가지 모델은 음성-텍스트 및 텍스트-음성 모델을 사용하고 LLM 모델에 직접 연결되지 않기 때문입니다.

그래서 상황이 좀 더 복잡해집니다. 이미지와 텍스트를 함께 사용하면 텍스트 입력에 비해 해석하기가 더 어렵습니다. 결과적으로 ChatGPT-4는 이미지에서 볼 수 있거나 볼 수 없는 물체와 사람에 대해 매우 자주 환각을 느낍니다. 

Gary Marcus는 훌륭한 글을 썼습니다. 기사 다양한 사례를 노출시키는 다중 모드 환각에 대해. 예 중 하나는 ChatGPT가 이미지에서 시간을 잘못 읽는 것을 보여줍니다. 주방 사진에서 의자 세기에 어려움을 겪기도 했고, 사진에서 시계를 차고 있는 사람을 알아보지도 못했다.

 

다중 양식이 LLM 정렬을 더욱 어렵게 만드는 방법
이미지 출처 : https://twitter.com/anh_ng8
 

입력으로서의 이미지는 또한 적의 공격을 위한 창을 열어줍니다. 이는 즉각적인 주입 공격의 일부가 되거나 모델을 탈옥하여 유해한 콘텐츠를 생성하는 지침을 전달하는 데 사용될 수 있습니다. 

Simon Willison은 이 문서에서 여러 가지 이미지 삽입 공격을 문서화했습니다. 게시. 기본 예 중 하나는 따라야 할 새로운 지침이 포함된 이미지를 ChatGPT에 업로드하는 것입니다. 아래 예를 참조하세요. 

 

다중 양식이 LLM 정렬을 더욱 어렵게 만드는 방법
이미지 출처 : https://twitter.com/mn_google/status/1709639072858436064
 

마찬가지로 사진의 텍스트는 모델이 증오심 표현이나 유해한 콘텐츠를 생성하도록 지시하는 내용으로 대체될 수 있습니다.

그렇다면 다중 모드 데이터를 정렬하기가 더 어려운 이유는 무엇일까요? 다중 모드 모델은 단일 모드 언어 모델에 비해 아직 개발 초기 단계에 있습니다. OpenAI는 GPT-4에서 다중 양식이 어떻게 달성되는지에 대한 세부 정보를 공개하지 않았지만 텍스트 주석이 달린 대량의 이미지를 제공한 것은 분명합니다. 

텍스트-이미지 쌍은 순수한 텍스트 데이터보다 소스를 확보하기 어렵고, 이러한 유형의 선별된 데이터 세트가 적으며, 인터넷에서 간단한 텍스트보다 자연스러운 예를 찾기가 더 어렵습니다. 

이미지-텍스트 쌍의 품질은 추가적인 과제를 제시합니다. 한 문장의 텍스트 태그가 포함된 이미지는 자세한 설명이 포함된 이미지만큼 가치가 없습니다. 후자를 갖기 위해 우리는 종종 필요합니다 인간 주석자 텍스트 주석을 제공하기 위해 신중하게 설계된 지침 세트를 따릅니다.

게다가 지침을 따르도록 모델을 훈련하려면 이미지와 텍스트를 모두 사용하는 충분한 수의 실제 사용자 프롬프트가 필요합니다. 유기적 예제는 접근 방식의 참신함으로 인해 다시 얻기 어렵고 훈련 예제는 종종 인간의 요구에 따라 생성되어야 합니다.

다중 모드 모델을 정렬하면 이전에는 고려할 필요조차 없었던 윤리적 문제가 발생합니다. 모델이 사람들의 외모, 성별, 인종에 대해 언급하거나 그들이 누구인지 인식할 수 있어야 합니까? 사진 위치를 추측해야 할까요? 텍스트 데이터에만 비해 정렬해야 할 측면이 훨씬 더 많습니다.

다중 양식은 모델을 사용할 수 있는 방법에 대한 새로운 가능성을 제공하지만 답변의 무해성, 진실성 및 유용성을 보장해야 하는 모델 개발자에게는 새로운 과제도 제공합니다. 다중 양식을 사용하면 정렬이 필요한 측면이 늘어나고 SFT 및 RLHF에 대한 우수한 교육 데이터를 소싱하는 것이 더욱 어렵습니다. 다중 모드 모델을 구축하거나 미세 조정하려는 기업은 고품질의 인간 피드백을 통합하는 개발 흐름을 통해 새로운 과제에 대비해야 합니다.
 
 

막달레나 콘키에비츠 빠르고 확장 가능한 AI 개발을 지원하는 글로벌 기업인 Toloka의 데이터 전도사입니다. 그녀는 에든버러 대학교에서 인공 지능 석사 학위를 취득했으며 유럽과 미국 기업에서 NLP 엔지니어, 개발자 및 데이터 과학자로 일했습니다. 그녀는 또한 데이터 과학자를 가르치고 멘토링하는 데 참여해 왔으며 정기적으로 데이터 과학 및 기계 학습 출판물에 기고하고 있습니다.

spot_img

최신 인텔리전스

VC 카페

VC 카페

spot_img