제퍼넷 로고

AI의 조상을 알아야 하는 이유

시간

해설

인공지능(AI)은 우리가 일하는 방식부터 정보를 수집하는 방식, 리더를 결정하는 방식까지 일상생활의 거의 모든 측면을 빠르게 변화시키고 있습니다. 모든 기술과 마찬가지로 AI는 비도덕적이지만 사회를 발전시키거나 해를 끼치다.

데이터는 AI 애플리케이션을 구동하는 유전자입니다. DNA와 RNA가 모두 하나로 포장되어 있습니다. 소프트웨어 시스템을 구축할 때 흔히 말하는 것처럼 "가비지 인/가비지 아웃"입니다. AI 기술은 그것이 의존하는 데이터 소스만큼 정확하고 안전하며 기능적입니다. AI가 약속을 이행하고 악몽을 피하도록 보장하는 열쇠는 쓰레기를 차단하고 수백만 개의 AI 애플리케이션에서 확산 및 복제되는 것을 방지하는 능력에 있습니다.

이를 데이터 출처라고 하며, AI 미래가 엄청난 쓰레기 더미가 되는 것을 방지하는 제어 기능을 구현하기 위해 하루 더 기다릴 수 없습니다.

잘못된 데이터는 사이버 보안 취약성, 잘못된 정보 및 기타 공격을 전 세계적으로 몇 초 만에 전파할 수 있는 AI 모델로 이어집니다. 오늘의 생성 적 AI (GenAI) 모델은 엄청나게 복잡하지만, 핵심적으로 GenAI 모델은 기존의 이전 데이터 세트를 바탕으로 출력할 가장 좋은 다음 데이터 덩어리를 단순히 예측합니다.

정확성 측정

ChatGPT 유형 모델은 원래 질문을 구성하는 단어 집합과 지금까지 모델 응답의 모든 단어를 평가하여 출력할 다음으로 가장 좋은 단어를 계산합니다. 충분한 응답을 제공했다고 판단할 때까지 이 작업을 반복적으로 수행합니다. 주제에 있고 일반적으로 대화와 관련이 있는, 문법적으로 올바른 문장을 구성하는 단어를 연결하는 모델의 능력을 평가한다고 가정해 보겠습니다. 그렇다면 오늘날의 모델은 정확도 측정 측면에서 놀랍도록 훌륭합니다.

더 자세히 알아보기 AI가 생성한 텍스트가 항상 "올바른" 정보를 전달하는지 여부 전달된 정보의 신뢰 수준을 적절하게 나타냅니다. 이는 평균적으로 매우 잘 예측하는 모델에서 발생하는 문제를 드러내지만, 엣지 케이스에서는 그렇게 잘 예측하지 못하여 견고성 문제를 나타냅니다. AI 모델의 열악한 데이터 출력이 온라인에 저장되어 이러한 모델과 다른 모델에 대한 향후 교육 데이터로 사용되면 문제가 더욱 복잡해질 수 있습니다.

열악한 출력은 우리가 본 적이 없는 규모로 복제되어 하향 AI 파멸 루프를 일으킬 수 있습니다.

악의적인 행위자가 이 프로세스를 도우려는 경우 의도적으로 추가 불량 데이터가 생성, 저장 및 전파되도록 장려할 수 있습니다. 이로 인해 챗봇에서 훨씬 더 많은 잘못된 정보가 나오거나 자동차 자동 조종 장치 모델이 필요하다고 결정하는 것처럼 사악하고 무서운 일이 발생할 수 있습니다. 물체가 앞에 특별히 제작된 이미지를 "본다"면(물론 가정적으로) 물체가 방해를 하고 있음에도 불구하고 자동차를 오른쪽으로 빠르게 방향을 틀 수 있습니다.

수십 년이 지난 후, 사이버보안 인프라 보안국(Cybersecurity Infrastructure Security Agency)이 이끄는 소프트웨어 개발 산업은 마침내 안전한 설계 뼈대. 안전한 설계 사이버 보안은 소프트웨어 개발 프로세스의 기초이며 핵심 원칙 중 하나는 모든 소프트웨어 개발 구성 요소의 목록 작성을 요구한다는 것입니다. 소프트웨어 자재 명세서(SBOM) — 보안과 탄력성을 강화합니다. 마지막으로 보안은 가장 중요한 시장 진출 요소로서 속도를 대체하고 있습니다.

AI 설계 보안

AI에게도 비슷한 것이 필요합니다. AI 피드백 루프는 맬웨어 서명 추적, 네트워크 리소스 주변 경계 구축, 사람이 작성한 코드의 취약점 검색과 같은 과거의 일반적인 사이버 보안 방어 기술을 방지합니다. 판도라의 상자가 열리기 훨씬 전에 AI를 안전하게 만들 수 있도록 기술 초기 단계에 안전한 AI 설계를 요구 사항으로 만들어야 합니다.

그렇다면 이 문제를 어떻게 해결합니까? 우리는 학계의 세계에서 한 페이지를 꺼내야 합니다. 우리는 교사 업계를 통해 고도로 선별된 교육 데이터를 해석하고 전달하여 학생들을 교육합니다. 우리는 성인을 가르치기 위해 이 접근 방식을 계속하지만 성인이 스스로 더 많은 데이터 큐레이션을 수행할 것으로 예상됩니다.

AI 모델 훈련에는 2단계로 선별된 데이터 접근 방식이 필요합니다. 우선, 기본 AI 모델은 덜 선별된 대량의 데이터 세트를 사용하는 현재 방법론을 사용하여 훈련됩니다. 이러한 기본 LLM(대형 언어 모델)은 신생아와 대략 유사합니다. 그러면 기본 수준 모델은 아이들이 성인이 되기 위해 교육받고 양육되는 방식과 유사하게 고도로 선별된 데이터 세트를 사용하여 훈련됩니다.

모든 유형의 목표에 대해 선별된 대규모 교육 데이터 세트를 구축하려는 노력은 적지 않을 것입니다. 이는 아이들이 (희망적으로) 기능하고 사회에 부가가치를 창출하는 기여자로 성장함에 따라 부모, 학교, 사회가 아이들에게 양질의 환경과 양질의 정보를 제공하기 위해 기울이는 모든 노력과 유사합니다. 이는 품질이 뛰어나고 제대로 작동하며 손상이 최소화된 AI 모델을 교육하기 위해 고품질 데이터 세트를 구축하는 데 필요한 노력 수준이며, AI 모델이 목표 작업을 잘 수행하도록 가르치기 위해 AI와 인간의 전체 산업이 협력할 수 있습니다. .

오늘날의 AI 훈련 프로세스 상태는 이러한 2단계 프로세스의 몇 가지 징후를 보여줍니다. 그러나 GenAI 기술과 업계의 초기 단계로 인해 너무 많은 교육이 덜 선별된 1단계 접근 방식을 취합니다.

AI 보안에 있어서 우리는 23년은 고사하고 한 시간도 기다릴 여유가 없습니다. AI에는 "알고리즘 계보"에 대한 전체 검토를 가능하게 하는 XNUMXandMe 애플리케이션이 필요합니다. 이를 통해 개발자는 AI의 "계열" 역사를 완전히 이해할 수 있어 만성적인 문제가 복제되어 우리가 매일 의존하는 중요한 시스템을 감염시키고 경제적, 사회적 피해를 초래하는 것을 방지할 수 있습니다. 그것은 되돌릴 수 없을 수도 있습니다.

우리의 국가 안보는 이에 달려 있습니다.

spot_img

최신 인텔리전스

spot_img