제퍼넷 로고

데이터 과학은 10 년 안에 멸종되지 않습니다.

시간

데이터 과학은 10 년 안에 멸종되지 않습니다.

데이터 과학이 여전히 존재하는 4가지 이유와 귀하의 기술이 수요를 유지하도록 보장하기 위해 해야 할 일.


By 아마르 샤 박사, 과학자, 학자(의료 분야 데이터 과학)



님이 촬영 한 사진 마이클 포저 on Unsplash

 

10년 넘게 데이터 과학 분야에 종사하는 사람으로서, 사람들이 XNUMX년 안에 해당 분야가 어떻게 사라질 것인지 예언하는 것을 보면 답답합니다. 주어진 전형적인 이유는 다음과 같습니다. AutoML 도구를 사용하면 실무자가 자신의 알고리즘을 개발할 필요가 없어집니다.

나는 그러한 의견이 초보자가 데이터 과학에서 탁월할 만큼 진지하게 받아들이지 못하게 하기 때문에 특히 실망스럽다고 생각합니다. 솔직히 말해서, 수요가 더욱 증가할 분야에 대한 그러한 예언을 보는 것은 데이터 과학 커뮤니티에 해를 끼치는 것입니다!


제정신의 사람이 왜 곧 멸종될 것을 배우는 데 유한한 시간과 에너지를 투자하겠습니까?


너에게 뭐 하나 알려 줄께. 정말로 은퇴할 가능성이 가장 높은 분야가 있다면 그것은 바로 데이터 과학, 즉 기간입니다. 데이터 과학이 조만간 멸종되지 않는 네 가지 주요 이유를 알려 드리겠습니다. 그런 다음 귀하가 10년 후에도 데이터 과학의 올바른 위치에 머물 수 있도록 조언을 드리겠습니다.

데이터 과학이 멸종되지는 않겠지만, 그에 보조를 맞추지 못한다면 기술이 사라질 수도 있습니다. 뛰어 들어 봅시다.

1. 데이터 과학은 수세기 동안 존재해 왔습니다.

 
함께 시작하겠습니다. 과학. 과학이 수세기 동안 존재해 왔다는 사실을 여러분에게 설득할 필요는 없습니다. 과학의 본질은 데이터를 통해 학습하는 것입니다. 우리는 세상의 사물을 관찰(데이터 수집)한 다음 이러한 관찰을 요약하고 설명할 수 있는 모델(전통적으로 이론이라고 함)을 만듭니다. 우리는 문제 해결을 돕기 위해 이러한 모델을 만듭니다.

데이터 과학의 본질은 정확히 동일합니다. 데이터를 수집하고 모델을 만들어 학습한 다음 해당 모델을 사용하여 문제를 해결합니다. 수년에 걸쳐 다양한 분야에서 이를 수행하는 여러 도구를 개발하고 개선했습니다. 해당 분야의 초점이 무엇인지에 따라 이러한 도구 및 절차 세트를 설명하기 위해 다른 이름이 사용되었습니다. 하나 기간 현재 많은 관심을 받고 있는 것은 데이터 과학.

그러나 이전과 지금의 차이점은 데이터의 양과 우리가 사용할 수 있는 계산 능력입니다. 몇 개의 데이터 포인트와 몇 개의 차원만 있을 때 이를 종이에 적고 직선(회귀)을 맞추거나 패턴을 식별하는 것이 수동으로 가능했습니다. 이제 우리는 다양한 소스(다중 기능)로부터 방대한 양의 데이터를 저렴하게 수집할 수 있습니다. 매우 많은 수의 데이터 포인트와 차원이 있는 경우 직선(또는 클러스터)을 맞추는 것은 인간이 불가능하거나 실행 가능하지 않습니다.


데이터를 수집하고 이를 설명하기 위한 모델을 개발하는 관행이 수세기 동안 존재해 왔다면, 왜 그것이 향후 10년 안에 사라질 것이라고 생각합니까?


오히려 우리는 더욱 다양한 종류의 데이터를 수집하게 될 것이며, 이를 창의적으로 결합하여 문제를 해결하는 새로운 방법이 필요할 것입니다.

2. 모델 개발은 실제 프로젝트에서 매우 작은 부분입니다.

 
“라는 산하의 여러 도구자동화 된 기계 학습”가 주목을 받고 있으며 그 중 일부는 데이터 과학의 민주화로 이어질 가능성이 높습니다. 그러나 이러한 도구의 대부분은 다양한 알고리즘의 테스트 및 구현을 가속화하는 데 도움이 됩니다. 청소 데이터 입력.

그러나 깨끗한 데이터를 모델로 가져오는 능력은 전혀 사소한 것이 아닙니다.

실제로 여러 데이터 과학 관련 설문 조사에서는 모든 데이터 과학자가 데이터를 수집하고 정리하는 데 소요되는 시간이 불균형적이라는 사실을 지적했습니다. 예를 들어, 연례 조사 Anaconda(데이터 과학자가 사용하는 주요 배포판 중 하나)는 데이터 과학자가 데이터 로드, 정리 및 시각화에 시간의 66%를 소비하고 모델 훈련, 선택 및 점수 매기기에 시간의 23%만 소비한다고 밝혔습니다. 제가 XNUMX년 넘게 현장에서 일해 본 개인적인 경험도 비슷합니다.

알고리즘이 내부적으로 어떻게 작동하는지 배우고 그 뉘앙스를 이해하는 것은 결코 쉬운 일이 아니며 많은 온라인 강좌에서는 이를 설명하는 데 시간을 할애합니다. 그러나 알고리즘에 대한 이러한 초점은 마치 데이터 과학이 모델에 관한 것이라는 잘못된 환상을 낳을 뿐입니다. 경험이 풍부한 많은 실무자들은 데이터 정리를 희생하면서 모델을 지나치게 강조하는 것을 보기 시작했습니다. 해당 분야의 선도적인 전문가인 Andrew Ng는 데이터 과학 커뮤니티가 현재 데이터 과학 프로젝트에서 우리 대부분이 채택하고 있는 모델 중심 접근 방식이 아닌 데이터 중심 접근 방식으로 전환하도록 장려해 왔습니다. 그의 딥러닝 뉴스레터, 그는 다음과 같이 말합니다.


머신러닝의 80%가 실제로는 데이터 정리라는 말은 흔한 농담입니다. 마치 그 일이 덜 중요한 일인 것처럼 말이죠. 내 생각에는 우리 작업의 80%가 데이터 준비라면 데이터 품질을 보장하는 것이 기계 학습 팀의 중요한 작업이라는 것입니다.


이러한 상황은 다음과 같은 웹사이트로 인해 더욱 악화됩니다. 카글 참여자에게 깨끗한 데이터가 제공되고 사전 식별된 성과 지표를 최대화하려는 목표로 다양한 모델을 개발하는 작업이 제한됩니다. (Kaggle은 그 용도가 정말 훌륭합니다!)

실제 프로젝트는 주의 깊게 정리된 데이터나 정의된 문제에서 시작되지 않는 여러 가지 문제를 다룹니다. 대부분의 프로젝트에서 우리는 어떤 기능이 관련될지, 데이터를 얼마나 자주 수집할지, 대답해야 할 올바른 질문이 무엇인지 선험적으로 반드시 알 필요는 없습니다. 현실 세계에 오신 것을 환영합니다!

새로운 자동화 도구의 출현으로 다양한 모델의 구현이 쉽고 접근 가능해졌습니다. 그러나 실제 프로젝트에서 더 어려운 문제를 분류할 수는 없습니다. 이러한 문제 중 상당수는 상황에 따라 다르며 자동화하기에 적합하지 않습니다.

3. 실제 데이터 과학 프로젝트에는 반복적인 개발이 필요합니다

 
아마도 데이터 과학에 대한 과대 광고에 힘입어 사람들이 나에게 데이터가 있고 자신의 문제를 해결하기 위해 "데이터 과학"을 적용하기를 원한다고 말하는 상황에 처한 적이 있습니다(이 역시 명확하게 정의되지 않을 수도 있음). 데이터 과학자가 아닌 많은 사람들은 이를 일종의 마술(한 쪽에서는 데이터를 입력하고 다른 쪽에서는 출력을 얻는 데 사용할 수 있는 도구)로 생각할 것입니다.

그것과는 거리가 먼 실제 프로젝트에는 균형을 맞춰야 하는 절충안이 있습니다. 이를 위해서는 초기 모델을 먼저 배포한 다음 추가 개선을 위해 더 많은 데이터가 수집됨에 따라 성능을 모니터링하는 반복적인 접근 방식이 필요합니다.

배포된 모델은 의도한 대로 사용될 경우에만 유용합니다. 이는 보장되지 않습니다. 배포된 모델의 사용을 지속적으로 모니터링 및 진단하고 이를 개선하기 위한 적절한 솔루션을 제시할 수 있는 숙련된 인적 요소가 필요합니다. 그러나 모니터링 부분이 반드시 자동화되거나 정량적으로 수행되는 것은 아닙니다. 예측할 수 없는 매우 예상치 못한 이상한 일이 발생할 수 있습니다.

런던 메트로폴리탄 얼굴 인식 시스템

 
얼마 전 런던 경찰이 실시간으로 테스트를 했는데요. 얼굴 인식 시스템. 이 시스템에는 쇼핑몰과 광장에 있는 사람들을 스캔하고 다양한 얼굴 특징을 추출한 다음 이를 감시 목록의 용의자와 비교하는 카메라가 있었습니다. 그런 다음 시스템은 경찰이 용의자를 제지해야 하는지(어떤 경우에는 체포해야 하는지) 검토하고 결정할 수 있도록 일치하는 항목을 표시합니다. 독립적인 신고 시스템 운영에 대한 우려가 제기되었고 몇 가지 제한 사항이 강조되었습니다. 42번의 재판을 통해 확인된 6명의 용의자 중 단 8명(약 19%)만이 정확한 일치로 판명되었습니다.

문서화된 수많은 사례가 있습니다. 편향된 데이터 과학 알고리즘 부적절하고 추가 개발이 필요한 것으로 간주됩니다. 현재로서는 모델이 널리 배포되고 사용되는 단계조차 아닙니다. 따라서 우리는 그러한 도구를 더욱 자동화하기 위해 표류하거나 잘못된 모델의 사용 사례조차 충분하지 않습니다. 지금까지 우리가 가진 최선의 방법은 모델 배포 시 문제를 식별하는 것입니다(예: 은행건강 관리치안).

이것은 최첨단입니다. 우리는 모델을 개발하고 배포하지만 그 모델이 부적절하고 목적에 적합하지 않은 것으로 판명되었습니다. 우리는 적절하지 않은 모델을 사용한 초기 결과만 보고 있는 단계에 있습니다. 이 문제를 처리할 수 있는 자동화된 솔루션이 아직 있습니까? 없음!

수동으로도 우리는 도전을 받고 있습니다!

4. 데이터 과학은 이유가 있는 과학입니다

 
이것이 제가 가장 좋아하는 포인트입니다. 평범하고 반복적이며 비인지적으로 까다로운 작업은 한동안 자동화의 위험에 처해 있었습니다. 그러나 이러한 혼란은 인간의 창의성과 문제 해결을 요구하는 일자리의 증가로 이어질 뿐입니다. 우리의 기억력은 형편없지만, 문제를 해결하기 위해 패턴을 식별하는 데 있어서 우리 인간은 매우 뛰어납니다.


"당신의 마음은 아이디어를 갖는 것이 아니라 아이디어를 유지하는 것입니다." 데이비드 앨런


데이터 과학은 과학 이런 이유로. 문제를 해결하는 것입니다. 우리가 직면하고 있는 문제는 창의적이고 독창적인 해결책이 필요합니다. 우리는 바로 그 점, 매우 바람직한 기술에 빛을 발합니다. 데이터 과학의 활용 사례는 계속 늘어날 것입니다. 이는 우리가 더 많은 데이터를 수집하고 작은 칩에 복잡한 수학적 연산을 구현할 수 있는 더 많은 계산 능력을 갖고 있기 때문입니다.

요즘 가장 잘 알려진 머신러닝 알고리즘을 구현하는 것이 얼마나 터무니없이 사소한 일인지 보여드리겠습니다.

이미 입력 변수를 주의 깊게 정리했다고 상상해 보십시오(X) 및 출력 변수(Y), 모델에 들어갈 준비가 되었습니다. 사용 사이 킷 러닝 (Python의 잘 알려진 오픈 소스 기계 학습 라이브러리) 다음 두 줄의 코드를 사용하여 의사 결정 트리를 구현할 수 있습니다.

from sklearn import tree
tree.DecisionTreeClassifier.fit(X,Y)


다음 두 줄의 코드를 사용하여 서포트 벡터 머신을 구현할 수 있습니다.

from sklearn import svm
svm.SVC.fit(X,y)


패턴이 보이나요? 우리가 해야 할 일은 함수 이름을 변경하는 것뿐입니다. 그러면 거기에 모델이 있습니다. 실제 데이터 과학자들은 앉아서 이러한 알고리즘을 처음부터 다시 구현하지 않습니다. 결국 업계에서는 Scikit-learn과 같은 성숙한 라이브러리를 사용하게 될 것입니다.


하지만 실제로 대부분의 데이터 과학자가 이 일을 하고 있고 이 기술을 위해 채용된다고 생각하시나요? 모델에서 한 단어를 변경하고 실행을 누른 다음 결과를 보고하시겠습니까? 아니요!


그러나 이것이 데이터 과학자로서 당신이 집중하는 전부라면, 머지않아 이 기술에 대한 수요가 사라질 것입니다.

모델 구현은 도구를 알고 교육을 받기가 쉬운 경우 대부분의 사람들이 할 수 있는 작업입니다. 어려운 부분은 다음과 같습니다.

  • 특정 도구를 언제 사용해야 하는지 알기
  • 특정 도구가 제대로 작동하지 않는 이유
  • 성능 향상에 도움이 될 수 있는 단계
  • 주어진 문제에서 어떤 균형이 중요한지
  • 위의 모든 사항을 전체 목표와 연결하는 통찰력과 능력
  • 도메인 전문가와 소통할 수 있는 의사소통 능력 보유

앞서 언급한 기술은 실제적이고 도전적인 프로젝트에 참여함으로써 습득됩니다. 시간이 걸리고 학습 여정은 인지적으로 까다롭습니다. 그러나 우리가 훨씬 더 많은 데이터를 수집하고 더 많은 경쟁이 임박하면서 고유한 산업별 과제에 직면함에 따라 이러한 기술은 점점 더 중요해질 것입니다(지원 더 적은!).

위에 나열된 기술은 문제 해결 및 창의성이라는 시대를 초월한 영역과 관련이 있습니다. 이러한 기술은 자동화될 수 없기 때문에 계속해서 수요가 높아질 것입니다.

최종 생각

 
더 많은 경험을 쌓으면서 배우고, 능숙해지고, 모든 것을 이해할 수 있는 유용한 도구를 꼭 가지고 있어야 합니다. 하지만 창의적이고 문제 해결 능력을 발휘할 수 있는 도전적인 프로젝트에 참여할 수 있는 기회를 활용하세요.

데이터 과학이 조만간 사라질 것이라는 걱정을 버리십시오. 그러한 걱정은 여행의 즐거움을 방해할 뿐이며, 반신반의로 현장에 접근하게 될 것입니다. 그러한 종말 예언에 빠지면 유망한 기회를 얻지 못하고 기술이 정체됩니다. 그리고 실제로 귀하의 수요는 사라질 것입니다!


“당신이 할 수 있다고 생각하든, 할 수 없다고 생각하든, 당신이 옳습니다.” 헨리 포드


그러나 까다로운 데이터 과학 프로젝트(데이터 수집부터 모델 배포까지)를 계속 진행한다면 10년 후에는 현장의 오른쪽에 서게 될 것이며 수요는 더욱 늘어날 것입니다!

선택은 당신의 것입니다. 🙂

 
바이오 : 아마르 샤 박사 과학자이자 학자이다. Ahmar는 에든버러 대학교 에든버러 의과대학의 Usher Institute에 기반을 두고 의학 분야의 데이터 중심 혁신에 초점을 맞춘 학술 그룹을 이끌고 있습니다.

실물. 허가를 받아 다시 게시했습니다.

관련 :

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처: https://www.kdnuggets.com/2021/06/data-science-not-becoming-extinct-10-years.html

spot_img

최신 인텔리전스

spot_img