제퍼넷 로고

Microsoft 수석 데이터 과학자의 성공 사례

시간

개요

오늘날의 디지털 시대에 데이터의 힘은 ​​부인할 수 없으며 그 잠재력을 활용하는 기술을 보유한 사람들이 기술의 미래를 형성하는 데 앞장서고 있습니다. 이러한 선구자 중에는 Microsoft의 수석 데이터 과학자로 일하면서 세계 최고의 기술 대기업 중 한 곳에서 원동력이 된 데이터 과학 영역의 비전을 제시하는 Nirmal이라는 뛰어난 개인이 있습니다.

인내, 총명함, 변함없는 헌신의 화신 니르말 씨를 만나보세요. 소박하게 시작한 Nirmal 씨는 Microsoft의 선임 데이터 과학자로서의 경력의 정점으로 이끄는 변혁적인 여정에 착수했습니다. 그의 급격한 성장은 야심 찬 데이터 과학자뿐만 아니라 꿈과 위대함을 달성하려는 결의를 가진 모든 사람에게 영감을 주는 성공 스토리 역할을 합니다.

이 성공 사례 기사에서는 Nirmal 씨의 여정을 깊이 파고들어 그들의 놀라운 경력을 형성한 핵심 이정표, 도전 및 승리를 추적합니다. 우리는 그가 이끈 획기적인 프로젝트, 그가 만든 변혁적인 영향, 그 과정에서 배운 귀중한 교훈을 탐구합니다. Nirmal 씨의 이야기를 통해 우리는 끊임없이 진화하는 데이터 과학 세계에서 성공하는 데 필요한 특성과 마음가짐을 발견합니다.

Microsoft의 선임 데이터 과학자 | 데이터 과학

대화로 시작합시다!

AV: 경력 궤적, 학력, 첫 번째 데이터 과학자 직업을 얻는 데 어떻게 도움이 되었습니까?

니르말 씨: 내 경력 궤적은 결코 직선 경로가 아닙니다. 우리 모두는 각자의 이야기를 가지고 있으며 모두 흥미롭다고 확신합니다. 여기 제 것이 있습니다: 저는 네팔에서 IT 엔지니어링 학부 과정을 마쳤습니다. 저는 2007년에 석사 학위를 위해 미국으로 이주했습니다. 석사 과정을 마치고 미군에 입대했습니다. 예, 매우 드문 것 같습니다. 2009년경(제 졸업년도이기도 했던) 미국의 대불황으로 인해 취업 시장은 특히 유학생들에게 매우 나빴습니다. 미 육군에서 운영하는 특별 파일럿 프로그램이 있었고, 저는 군인이 되기 위해 필요한 모든 절차를 거쳤습니다. 자라면서 나는 군대에 가고 싶은 열정이 있었다. 그것을 이행하는 방법. 

군대에 있을 때 MBA를 마쳤습니다. 2014년 첫 입대 계약을 마치고 미군을 떠났다. 같은 해에 저는 사이버 보안 분석가로서 첫 번째 데이터 역할을 맡아 해군부에서 미국 연방 정부 직원으로 일했습니다. 저는 이 일을 하는 동안 데이터 과학에서 3번째 석사 학위를 마쳤습니다. 데이터 분석가로 일하면서 약간의 경험을 쌓고 데이터 과학에 대한 학력과 기술을 구축한 후 저는 2018년에 Wells Fargo Bank의 데이터 과학자 타이틀로 민간 산업으로 전환했습니다. 그 이후로 저는 데이터 분야에서 일해 왔습니다. 과학, 현재 Microsoft의 선임 데이터 과학자로 일하고 있습니다.

AV: 실제 문제를 해결하기 위해 데이터를 사용해야 했던 프로젝트와 그것이 비즈니스 또는 제품 전략에 미친 영향에 대해 말씀해 주시겠습니까?

니르말 씨: 예가 많습니다. 우선, 우리는 '데이터 과학자' 작업하고 데이터 문제를 해결할 수 있는 직함. 그런 오해가 있습니다. 우리는 데이터 분석가, 데이터 엔지니어, 비즈니스 분석가 또는 데이터를 다루는 모든 직책으로 일할 수 있습니다.  

저는 주로 사이버 보안 분야에서 일합니다. 우리의 두 가지 주요 초점 영역은 조사와 탐지입니다. 다룰 때 사이버 보안 문제, 매우 인기 있는 문제 공간 중 하나는 이상 감지입니다. 저는 데이터 과학 팀에서 일하면서 보안 분석가가 어떤 이벤트/경고에 집중해야 하는지 시간을 절약할 수 있도록 변칙 억류 시스템을 구축했습니다. 그 효과는 시간과 리소스를 절약하는 데 있습니다.

AV: 데이터 과학을 사용하여 해결한 가장 어려운 문제는 무엇이었습니까? 문제에 어떻게 접근했습니까? 그 결과는 어떠했습니까?

니르말 씨: 저에게 가장 어려운 문제는 아직 해결되지 않았습니다. 우리는 고도로 혁신적인 AI의 세계에 살고 있기 때문에 적이 그 어느 때보다 가장 발전된 도구를 가지고 있다는 사실을 항상 인식해야 합니다. 그러나 한 가지 흥미로운 문제를 언급해야 한다면 업계에서 UEBA로 널리 알려진 사용자 행동 분석 또는 사용자 엔터티 행동 분석 을 선택하겠습니다. UEBA는 정상적인 기준선을 벗어나는 사용자 활동을 식별하여 위협을 발견하는 일종의 사이버 보안 기능입니다.

하나의 간단한 예: A 위치에서 자주 로그인하는 사용자가 있는데 갑자기 B 위치에서 로그인 활동이 나타납니다. 이것은 여행과 관련하여 정상적인 것일 수 있지만 여전히 정상적인 동작에서 벗어난 것이므로 정상인지 확인하기 위해 살펴봐야 합니다. .악의. UEBA에서 가장 어려운 부분은 기준선을 이해하고 만드는 것입니다. 

데이터 기반 인사이트

데이터 과학 대 기계 학습 | Microsoft의 선임 데이터 과학자 | 데이터 과학

AV: 비기술적 이해관계자에게 복잡한 데이터 기반 인사이트를 전달해야 했던 시기에 대한 이야기를 들려주실 수 있나요? 그들이 비즈니스에 미치는 통찰력과 영향을 어떻게 이해했는지 확인했습니까?

니르말 씨: 데이터 과학자로서 우리는 이와 같은 여러 시나리오를 접하게 될 것입니다. 대부분의 비즈니스 이해 관계자는 문제와 의도된 솔루션에 정통합니다. 그러나 때로는 일부 솔루션이 의미가 있는 이유와 그렇지 않은 이유를 설명하기가 어렵습니다. 한 가지 예를 공유할 수 있습니다. 우리는 사기 탐지 모델, 사기 대 사기 거래가 아닌 이진 분류기였습니다. 사기 분석가는 자신의 영역을 잘 알고 있습니다. 그러나 모델 결과를 그들에게 다시 설명하는 것은 그것을 그들의 언어로 분해하는 것이 어려웠습니다.

모델 튜닝 및 하이퍼 매개변수 또는 교차 검증 또는 샘플링 방법과 같은 세부 정보를 공유하면 이러한 사항이 이해가 되지 않을 것입니다. 그러나 기능 순위를 기반으로 어떤 속성이 유용하다고 판단했는지, 클래스가 불균형한 경우 어떤 문제가 있는지와 같은 더 높은 수준으로 해석하면 이러한 사항이 이해가 될 것입니다. 따라서 데이터 과학자가 비즈니스 언어로 대화하는 것도 항상 중요합니다.

 

AV: 팀이 구축하는 기계 학습 모델이 특히 보안 및 위협 감지와 관련하여 최종 사용자에게 설명 가능하고 투명하다는 것을 어떻게 보장합니까?

니르말 씨: 앞선 예시에서 언급했듯이 모델 상호운용성은 비즈니스 파트너에게 다시 설명할 때 매우 중요합니다. 이것은 작업 중인 도메인에 관계없이 중요합니다. 보안 및 위협 탐지에서는 우리가 모델로 구축하는 모든 것이 위협 분석가에게 설명 가능하여 적절한 조치를 취할 수 있기 때문에 더욱 중요해집니다. 여기서 공유할 수 있는 한 가지 좋은 예는 Benign Positive의 개념입니다. 이 용어에 대해 처음 들었을 때 나는 참양성(true positive)과 거짓양성(false positive)만 알고 있었기 때문에 약간 혼란스러웠습니다. 그러나 보안 영역에서는 양성 긍정이 중요합니다. 다음은 해당 범주의 분석입니다.

  • 참 양성 (TP): 보안 도구에 의해 탐지된 악성 행위입니다.
  • 양성 진양성(B-TP): 침투 테스트 또는 승인된 응용 프로그램에서 생성된 알려진 활동과 같이 실제이지만 악의적이지 않은 보안 도구에 의해 탐지된 작업입니다.
  • 거짓 양성 (FP): 활동이 발생하지 않았음을 의미하는 거짓 경보입니다.

AV: 작업 중인 데이터가 지저분하거나 불완전한 상황에 직면한 적이 있습니까? 어떻게 대처했고, 결과는 어땠나요?

니르말 씨: 이것은 항상 발생합니다. 데이터 과학자가 작업할 깨끗한 데이터가 있다고 말하면 그것은 그/그녀에게 당첨된 복권과 같을 것입니다. 실제 프로젝트는 데이터가 대부분 csv 파일로 깔끔하게 제공되는 Kaggle 경쟁과 다릅니다. 우리는 데이터 계약, 데이터 수집을 위해 데이터 소유자와 협력하여 데이터 요구 사항에 더 많은 시간을 할애합니다. 이것들은 천주교 이전에도 오는 것들이다. 탐색 적 데이터 분석 (EDA)가 발생합니다.

대부분의 경우 스키마와 약간의 불일치가 있는 지저분한 데이터가 발생합니다. 올바른 데이터를 얻을 때까지 ETL 파이프라인을 오케스트레이션하기 위해 여러 번 반복할 때 각 데이터 버전을 추적하는 데이터 버전 관리가 중요합니다. 여기에서 언급한 것과 정확히 같은 것을 의미하는 데이터 관찰 가능성의 개념이 있습니다. 그것은 다룬다 올바른 데이터를 올바른 형식으로 올바른 목적지에 적시에 가져오는 것입니다. 

 

AV: 공동의 목표를 달성하기 위해 팀과 협력한 프로젝트에 대해 말씀해 주시겠습니까? 팀의 성공에 어떻게 기여했습니까? 그 경험에서 무엇을 배웠습니까?

니르말 씨: Microsoft에서는 'One Microsoft'라는 것을 따릅니다. 즉, 사일로 방식으로 작업하지 않고 팀 전체의 협업 문화를 수용하여 새로운 개념을 혁신하고 함께 작업할 수 있는 서비스 및 제품 개발에 중점을 둡니다. 제가 작업한 거의 모든 프로젝트는 다른 팀(엔지니어링 팀 또는 외부 팀일 수 있음)과 협력하고 있습니다. Microsoft 문화의 한 가지 좋은 점은 바퀴를 다시 발명하는 대신 기존 서비스 위에 시스템을 구축하는 데 집중할 수 있다는 것입니다. 이는 다른 팀과의 관계 구축을 촉진할 뿐만 아니라 회사의 시간과 리소스도 절약합니다. 개인적으로 저는 다른 팀과 함께 일하면서 많은 것을 배웠습니다.

데이터 보안 프로젝트

AV: 보안과 데이터 사이언스의 교차점에서 일하는 것을 좋아한다고 말씀하셨습니다. 보안 조치를 개선하거나 보안 위반을 방지하기 위해 데이터를 사용한 프로젝트에 대한 성공 사례를 공유할 수 있습니까? 프로젝트의 영향은 무엇이었습니까?

니르말 씨: 좋은 질문입니다. 올려주셔서 감사합니다. 데이터는 어디에나 있으므로 데이터 과학은 모든 영역에 적용할 수 있습니다. 나는 일반적으로 초기 경력 데이터 과학자들에게 여러 경로를 시도할 것을 제안합니다. 적어도 세 가지 관심 영역이 있으므로 기계 학습 모델을 교육하는 것처럼 시행착오를 할 수 있습니다. 경력 경로 선택은 경력 초기에 반복적인 프로세스입니다. 보안과 데이터 과학은 드물고 독특한 조합 중 하나입니다. 직업 시장은 수요가 많고 가혹한 경제에서 이 영역의 직업 안정성도 더 강합니다.

내 이야기를 나누자면 보안 분야에서 가장 좋은 점 중 하나는 끊임없이 진화하는 분야라는 것입니다. 해커들은 새로운 전략과 도구를 고안하고 있으며 우리는 즉시 이에 대응해야 합니다. 제가 참여했던 비즈니스 관점에서 간단하면서도 유용한 프로젝트 중 하나는 알림 분류입니다. 보안 연구원이 다양한 공격 패턴을 찾으면 보안 엔지니어가 탐지 규칙을 작성하는 데 도움을 주고 규칙과 일치하거나 적중하면 경고를 발생시킵니다. 그러나 문제는 모든 시스템이 경고로 변환되는 수천 개의 이벤트를 생성한다는 것입니다. 이러한 경고에 대한 오탐률이 높습니다.

보안과 효율성의 균형을 맞추기 위해 경고를 위험 점수로 순위가 매겨진 참 긍정, 양성 긍정 및 거짓 긍정으로 분류하는 ML 모델을 개발했습니다. 이를 통해 분석가는 대기열의 우선 순위를 지정하고 과도한 양의 경보를 피하면서 공격자가 감지되지 않고 빠져나갈 위험을 최소화할 수 있습니다.

예상치 못한 인사이트 처리에 대한 조언

AV: 데이터가 예상치 못하거나 놀라운 인사이트를 보여주는 상황에 직면한 적이 있습니까? 이러한 시나리오를 처리하기 위한 귀하의 제안은 무엇입니까?

니르말 씨: 탐색적 데이터 분석(EDA) 단계에서 놓치기 쉬운 것 중 하나는 데이터에 올바른 질문을 하지 않을 수 있다는 것입니다. EDA의 기본 단계인 기술 통계, 단변량 또는 다변량 분석, 상관 히트 맵 등을 수행하는 표준 프로세스만 따른다면 핵심 통찰력을 찾지 못할 가능성이 있습니다.

한 가지 예: 데이터에서 이상값을 발견했을 때 따라야 할 가장 일반적인 프로세스는 분포를 왜곡하기 때문에 이를 삭제하는 것입니다. 그러나 삭제하는 것이 항상 좋은 생각은 아니며 프로젝트에 따라 다릅니다. 이상 감지 프로젝트를 수행하는 경우 이상값은 우리가 찾으려는 이상일 수 있습니다. 이 경우 교육 데이터에서 삭제하는 것은 현명한 결정이 아닙니다. 누락된 데이터를 포함하여 모든 종류의 데이터를 삭제하기 전에 항상 도메인 전문가에게 확인하는 것이 좋습니다. 

성공적인 데이터 과학자가 되기 위한 조언

AV: Microsoft와 같은 기술 대기업에서 성공적인 데이터 과학자가 되고자 하는 사람에게 어떤 조언을 해주시겠습니까?

니르말 씨: 제 제안은 Microsoft에만 국한된 것이 아니라 일반적으로 모든 업계와 회사에 적용됩니다. 몇 가지로 요약해야 한다면:

  • 새로운 것을 배우기 위해 배고프다: 데이터 사이언스 산업은 항상 빠른 속도로 움직이고 있습니다. 이 분야에서는 지속적인 학습이 매우 중요합니다.
  • 네트워크 구축: 회의에 참석하고, 링크드인의 커뮤니티 채널에 참여하고, 매체와 같은 인기 있는 데이터 과학 플랫폼 또는 데이터 과학에 대한 기사를 작성하여 커뮤니티에 기여하십시오. 네트워킹은 많은 도움이 됩니다. 
  • 영향력 있는 프로젝트에 집중: 데이터 과학자라는 직함은 많은 책임을 맡을 수 있습니다. 일부는 데이터 엔지니어링 작업을, 일부는 데이터 분석가 작업을 수행합니다. 그럼에도 불구하고 저는 귀하의 기여를 보다 눈에 띄게 만들고 가시적인 결과로 측정할 수 있는 영향력이 큰 프로젝트에 집중할 것을 제안합니다.

결론

끝으로 Nirmal 씨의 성공 사례는 재능, 기회 및 확고한 헌신이 수렴될 때 달성할 수 있는 놀라운 높이의 빛나는 예입니다. Microsoft의 선임 데이터 과학자는 데이터의 힘이 탁월함과 목적으로 활용될 때 산업을 변화시키고 미래를 형성하며 다음 세대에 걸쳐 지속될 유산을 만들 수 있는 잠재력이 있음을 입증했습니다.

마지막으로 제 경험을 공유할 수 있는 기회를 주신 Analytics Vidhya에게 감사드립니다. 내 모든 청중에게 언제든지 나와 연결하십시오. 링크드인

spot_img

최신 인텔리전스

spot_img