제퍼넷 로고

COVID는 모든 모델에 어떤 영향을 주었습니까?

시간

COVID는 모든 모델에 어떤 영향을 주었습니까?

변경 관리, 복잡성, 해석 가능성 및 AI가 인류를 장악 할 위험에 대해 Dean Abbott 및 John Elder와의 인터뷰.


By 헤더 파이 슨, 크나메

COVID는 모든 모델에 어떤 영향을 주었습니까?

후 KNIME 가을 정상, 공룡들은 집으로 돌아갔습니다… 음, 노트북의 전원을 껐습니다. 딘 애보트 과 존 엘더, 오랜 데이터 과학 전문가 인 Fall Summit에 마이클 토론에 그와 함께 데이터 과학의 미래 : 산업 공룡과의 노변 대화. 그 결과 데이터 과학 과제와 새로운 트렌드에 대한 흥미로운 대화가 나왔습니다. 스튜디오 조명을 끄고 나서 Rosaria 데이터 과학 세계에서 변경 관리, 복잡성, 해석 가능성 등에 대한 몇 가지 하이라이트를 추출하고 확장했습니다. 그것이 우리를 어디로 가져 왔는지 봅시다.

현실 변화와 모델을 업데이트해야 할 때 AI의 변경 관리에 대한 경험은 무엇입니까? COVID는 모든 모델에 어떤 영향을 주었습니까?

 
[학장] 머신 러닝 (ML) 알고리즘은 과거와 미래의 일관성을 가정합니다. 상황이 바뀌면 모델이 실패합니다. COVID는 우리의 습관과 데이터를 변화 시켰습니다. Pre-COVID 모델은 새로운 상황을 처리하는 데 어려움을 겪습니다.

[남자] 간단한 예는 Google지도의 교통 레이어입니다. 2020 년 폐쇄 조치가 국가별로 강타한 후 Google지도 트래픽 추정치는 한동안 매우 정확하지 않았습니다. 상당히 안정적인 훈련 데이터를 기반으로 구축되었지만 이제는 시스템이 완전히 엉망이되었습니다.

세상이 언제 바뀌고 모델이 더 이상 작동하지 않는지 어떻게 알 수 있습니까?

 
[학장] 제가 사용하는 약간의 트릭이 있습니다. 시간별로 데이터를 분할하고 레코드에 "이전"과 "이후"라는 레이블을 지정합니다. 그런 다음 모델이 사용하는 동일한 입력에서 "이후"와 "이전"을 구별하는 분류 모델을 구축합니다. 차별이 가능하다면“이후”는“이전”과 다르며 세상이 바뀌고 데이터가 변경되었으며 모델을 재교육해야합니다.

특히 수년 간의 사용자 정의 후 프로젝트에서 모델을 재교육하는 것이 얼마나 복잡합니까?

 
[남자] 훈련 모델은 일반적으로 가장 쉬운 단계입니다! 성공한 대부분의 프로젝트 주사위 구현 단계에서. 가장 큰 시간 데이터 정리 및 준비 단계에 사용됩니다. 그리고 가장 문제 비즈니스 이해 / 프로젝트 정의 단계에서 누락되거나 이루어집니다. 따라서 결함이 무엇인지 이해하고 새로운 데이터를 얻고 구현 프레임 워크를 마련 할 수 있다면 새로운 모델을 만드는 것은 비교적 간단합니다.

수십 년간의 경험을 바탕으로 실제로 작동하는 데이터 과학 애플리케이션을 구성하는 것이 얼마나 복잡합니까?

 
[남자] 물론 복잡성에 따라 다를 수 있습니다. 우리 프로젝트의 대부분은 최소한 몇 달 안에 작동하는 프로토 타입을 얻습니다. 그러나 모두에게 피드백의 중요성을 충분히 강조 할 수는 없습니다. 원하는 것보다 훨씬 더 자주 사람들과 대화해야합니다. 그리고 들어! 우리는 매번 비즈니스 문제, 데이터 또는 제약에 대해 새로운 것을 배웁니다. 우리 모두가 인간과 대화하는 데 능숙한 것은 아니기 때문에 종종 팀이 필요합니다. 그러나 모든 이해 관계자 팀은 동일한 언어를 말하는 법을 배워야합니다.

[학장] 비즈니스 담당자와 대화하는 것이 중요합니다. 사람들은 변화를 두려워하고 현재 상태를 바꾸고 싶어하지 않습니다. 한 가지 핵심 문제는 실제로 심리적입니다. 분석가는 종종 성가심으로 간주됩니다. 따라서 우리는 비즈니스 파트너와 분석 전문가 간의 신뢰를 구축해야합니다. 프로젝트 시작에는 항상 다음 단계가 포함되어야합니다. 도메인 전문가 / 프로젝트 관리자, 분석가, IT 및 인프라 (DevOps) 팀을 동기화하여 모든 사람이 프로젝트의 목표와 실행 방법을 명확하게 알 수 있도록합니다. 분석가는 매일 만나야하는 상위 11 명의 사람들 목록에서 10 위입니다! 데이터 과학자의 오만함을 구현하지 마십시오. "비즈니스는 우리 / 우리의 기술을 이해할 수 없지만 무엇이 가장 효과적인지 알고 있습니다." 그러나 우리가 이해하지 못하는 것은 도메인 전문가가 실제로 우리가 일하고있는 도메인의 전문가라는 것입니다! 데이터 과학 가정과 접근 방식을 도메인 전문가가 이해하는 언어로 번역하는 것이 핵심입니다!

현재 최신 트렌드는 딥 러닝으로 모든 것을 해결할 수 있습니다. 최근 한 학생으로부터 질문을 받았습니다. "딥 러닝이 데이터 과학 문제를 해결하기위한 최첨단 기술인 경우 다른 ML 알고리즘을 배워야하는 이유는 무엇입니까?"

 
[학장] 딥 러닝은 방 밖으로 많은 산소를 빨아 들였습니다. 1990 년대 초반 신경망이 비슷한 낙관주의로 상승한 느낌이 듭니다! 딥 러닝은 확실히 강력한 기술 세트이지만 구현 및 최적화하기가 어렵습니다. 나무의 앙상블 인 XGBoost도 강력하지만 현재는 더 주류입니다. 고급 분석을 사용하여 해결해야하는 대부분의 문제는 실제로 복잡한 솔루션이 필요하지 않으므로 간단하게 시작하십시오. 이러한 상황에서 딥 러닝은 과잉입니다. Occam의 면도기 원칙을 사용하는 것이 가장 좋습니다. 두 모델이 동일하게 작동하는 경우 가장 간단한 것을 채택하십시오.

복잡성에 대해. 딥 러닝과 반대되는 다른 추세는 ML 해석 가능성입니다. 여기에서 설명 할 수 있도록 모델을 크게 (과도하게?) 단순화합니다. 해석 가능성이 그토록 중요합니까?

 
[남자] 나는 종종 해석 가능성과 싸우고 있습니다. 물론 훌륭하지만 가장 중요한 모델 속성 인 신뢰할 수있는 정확도의 비용이 너무 많이 듭니다. 그러나 많은 이해 관계자가 해석 가능성이 필수적이라고 믿기 때문에 수용의 장벽이됩니다. 따라서 어떤 종류의 해석이 필요한지 알아내는 것이 중요합니다. 아마도 가장 중요한 변수가 무엇인지 아는 것일까 요? 이는 많은 비선형 모델에서 가능합니다. 신용 신청자에게 거절 된 이유를 설명하는 것처럼 한 번에 하나의 사례에 대한 결과를 해석하면 될까요? 주어진 점에 대한 선형 근사치를 만들 수 있습니다. 또는 블랙 박스 모델에서 데이터를 생성하고 해당 데이터에 맞는 복잡한 "해석 가능한"모델을 구축 할 수 있습니다.

마지막으로, 연구에 따르면 사용자가 모델을 가지고 놀 수있는 기회, 즉 입력 값의 시험 값으로 그것을 찌르고 그 결과물을보고 시각화 할 수있는 기회가 있다면, 그들은 해석 가능성에 대해 똑같은 따뜻한 느낌을 갖게됩니다. 전반적으로 모델 뒤에있는 사람과 기술에 대한 신뢰는 수용을 위해 필요하며, 이는 정기적 인 의사 소통과 모델의 최종 사용자를 모델링 프로세스의 빌드 단계와 결정에 포함시킴으로써 강화됩니다.

[학장] 그런데 KNIME 분석 플랫폼은 Random Forest에서 입력 변수의 중요성을 정량화하는 훌륭한 기능을 가지고 있습니다! 그만큼 랜덤 포레스트 학습자 노드는 후보 및 분할 변수의 통계를 출력합니다. Random Forest Learner 노드를 사용할 때 기억하십시오.

모델이하는 일에 대한 설명 요청이 증가하고 있습니다. 예를 들어, 일부 보안 등급의 경우 유럽 연합은 모델이해서는 안되는 작업을 수행하지 않는다는 확인을 요구하고 있습니다. 우리가 모든 것을 설명해야한다면 기계 학습은 갈 길이 아닙니다. 더 이상 기계 학습이 없으십니까?

 
[학장]  완전한 설명 가능성을 얻기가 너무 어려울 수 있지만 모델 입력에 대한 그리드 검색을 수행하여 모델이 수행하는 작업을 설명하는 점수 카드와 같은 것을 생성하여 진행 상황을 달성 할 수 있습니다. 이것은 하드웨어 및 소프트웨어 QA의 회귀 테스트와 같습니다. 모델이하는 일에 대한 공식적인 증명이 불가능하다면, 테스트하고 테스트하고 테스트합시다! 입력 셔플 및 대상 셔플은 모델 동작을 대략적으로 표현하는 데 도움이 될 수 있습니다.

[남자] 모델이하는 일을 이해하는 것에 대해 이야기하면서 과학에서 재현성 문제를 제기하고 싶습니다. 모든 분야의 저널 기사 중 65 ~ 90 %는 복제 할 수없는 것으로 여겨집니다. 이것은 과학의 진정한 위기입니다. 의학 논문은 결과를 재현하는 방법을 알려줍니다. ML 논문은 아직 재현성에 관심이없는 것 같습니다. 최근 연구에 따르면 AI 논문의 15 %만이 코드를 공유합니다.

기계 학습 편향에 대해 이야기 해 봅시다. 차별하지 않는 모델을 만들 수 있습니까?

 
[남자] (잠시 괴상한 말은 안타깝게도 오버로드. ML 세계 단어에서 "차별"하는 것이 바로 목표입니다. 두 클래스를 구분하는 것입니다. 그러나 실제 질문에 대해서는 데이터 (분석가가 데이터의 약점을 조정할 수있을만큼 영리한지 여부에 따라 다릅니다.) ) : 모델은 그 안에 반영된 정보를 데이터에서 꺼냅니다. 컴퓨터는 앞에있는 데이터를 제외하고는 세상에 대해 아무것도 모릅니다. 따라서 분석가는 데이터를 선별해야합니다. 현실을 반영하는 사례에 대해 책임을 져야합니다. 예를 들어 특정 유형의 사람들이 과소 대표되면 모델은 그들에게 덜 관심을 기울이고 앞으로 더 정확하지 않을 것입니다. 나는 "여기에 도달하기 위해 데이터가 무엇을 거쳐야 했습니까?"라고 묻습니다. (이 데이터 세트에 들어가기 위해) 프로세스를 진행하는 동안 다른 케이스가 어떻게 탈락했는지 (즉, 생존자 편향) 생각합니다. 숙련 된 데이터 과학자는 이러한 문제를 찾고이를 조정 / 수정하는 방법을 생각할 수 있습니다.

[학장] 편향은 알고리즘에 없습니다. 편향은 데이터에 있습니다. 데이터가 편향된 경우 우리는 편향된 세계관으로 작업하고 있습니다. 수학은 단순한 수학 일뿐 편견이 아닙니다.

AI가 인류를 장악할까요?!

 
[남자] 저는 AI가 단지 좋은 엔지니어링이라고 믿습니다. AI가 인간의 지능을 능가할까요? 내 경험상 40 세 미만은 누구나 그렇다고 믿는다. 이것은 불가피하며, 대부분 40 세 이상 (분명히 나처럼) : 아니오! AI 모델은 빠르고 충실하며 순종적입니다. 훌륭한 독일 셰퍼드 개처럼 AI 모델은 공을 가져 가지만 보여준 데이터 외에는 세상에 대해 아무것도 모릅니다. 상식이 없습니다. 특정 작업에 대한 훌륭한 조수이지만 실제로는 매우 어둡습니다.

[학장] 그 메모에서 나는 AI의 미래를 잘 설명하고 있다고 생각하는 AI의 시작부터 1961 년과 1970 년에 Marvin Minsky가 쓴 두 가지 인용문을보고하고 싶습니다.

“우리 생애 내에서 일부 기계는 일반적인 지능에서 우리를 능가 할 수 있습니다.” (1961)

"XNUMX 년에서 XNUMX 년 후에 우리는 인간의 지능을 가진 기계를 갖게 될 것입니다." (1970)

이러한 아이디어는 오랫동안 존재 해 왔습니다. AI가 모든 문제를 해결하지 못하는 한 가지 이유는 다음과 같습니다. 우리는 하나의 숫자, 하나의 숫자만을 기준으로 행동을 판단합니다! (모델 오류) 예를 들어, 오류 메트릭으로 제곱 평균 제곱근 오차를 사용하여 모델을 구축하여 예측 한 향후 XNUMX 년 동안의 주가 예측은 데이터가 실제로 수행하는 작업에 대한 전체 그림을 그릴 수 없으며 모델을 심각하게 방해합니다. 패턴을 유연하게 발견하는 능력. 우리 모두는 RMSE가 너무 거칠다는 것을 알고 있습니다. 딥 러닝 알고리즘은 계속해서 나아질 것이지만, 모델이 실제로 얼마나 좋은지 판단하는데도 더 잘해야합니다. 그래서 안돼! AI가 인류를 장악 할 것이라고 생각하지 않습니다.

인터뷰가 끝났습니다. 시간과 지식의 약에 대해 Dean과 John에게 감사드립니다. 곧 다시 만나길 바랍니다!

Dean Abbott 및 John Elder 정보

COVID는 모든 모델에 어떤 영향을 미쳤습니까? 딘 애보트 SmarterHQ의 공동 창립자이자 최고 데이터 과학자입니다. 그는 옴니 채널 고객 분석, 사기 탐지, 위험 모델링, 텍스트 마이닝 및 설문 분석에서 문제를 해결 한 2014 년의 경험을 가진 데이터 과학 및 예측 분석 분야에서 국제적으로 인정받는 전문가이자 혁신가입니다. 선구적인 데이터 과학자 및 데이터 과학자 목록에 자주 포함되는 그는 전 세계 컨퍼런스에서 인기있는 기조 연설자이자 워크숍 강사이며 UC / Irvine 예측 분석 및 UCSD 데이터 과학 인증 프로그램에 대한 자문위원회에서도 활동하고 있습니다. 그는 Applied Predictive Analytics (Wiley, 2013)의 저자이자 The IBM SPSS Modeler Cookbook (Packt Publishing, XNUMX)의 공동 저자입니다.


COVID는 모든 모델에 어떤 영향을 미쳤습니까? 존 엘더 1995 년 미국에서 가장 크고 경험이 풍부한 데이터 과학 컨설팅 회사 인 Elder Research를 설립했습니다. Charlottesville VA, Baltimore MD, Raleigh, NC, Washington DC 및 London에 지사를두고 실행 가능한 지식을 추출하여 상업 및 정부 고객을위한 수백 가지 문제를 해결했습니다. 모든 유형의 데이터에서. Elder 박사는 실용적인 데이터 마이닝, 앙상블 및 텍스트 마이닝에 관한 세 권의 책을 공동 집필했으며 그 중 두 권은 "올해의 책"상을 수상했습니다. John은 데이터 마이닝 도구를 만들었고 앙상블 방법의 발견 자였으며 국제 회의의 의장이며 인기있는 워크샵 및 기조 연설자입니다.


 
바이오 : 헤더 파이 슨 KNIME의 블로그 편집자입니다. 처음에는 이벤트 팀에서 그녀의 배경이 실제로 번역 및 교정에 있었기 때문에 2019 년 블로그로 이동하여 텍스트 작업에 대한 진정한 열정으로 돌아 왔습니다. PS 그녀는 항상 새로운 기사에 대한 당신의 아이디어를 듣고 싶어합니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://www.kdnuggets.com/2021/04/covid-do-all-our-models.html

spot_img

최신 인텔리전스

spot_img