제퍼넷 로고

22 년에 널리 사용되는 2020 가지 데이터 과학 및 기계 학습 도구

시간


살펴보기

  • 다양한 데이터 과학 도구가 있습니다. 어떤 도구를 선택해야합니까?
  • 다음은 데이터 과학 라이프 사이클의 여러 단계에 맞는 20 개 이상의 데이터 과학 도구 목록입니다.

개요

데이터 과학 작업을 수행하기위한 가장 좋은 도구는 무엇입니까? 그리고 어떤 도구가 당신 데이터 과학의 새로운 이민자로 픽업?

데이터 과학 여행의 어느 시점에서 이러한 질문을했거나 검색 한 것이 확실합니다. 이것들은 유효한 질문입니다! 업계에는 데이터 과학 도구가 부족하지 않습니다. 여행과 경력을 위해 하나를 선택하는 것은 까다로운 결정이 될 수 있습니다.

데이터_과학_도구

데이터 과학은 방대한 스펙트럼이며 각 도메인마다 고유 한 방식으로 데이터를 처리해야하므로 많은 분석가 / 데이터 과학자들이 혼란에 빠지게됩니다. 비즈니스 리더라면 장기적으로 영향을 줄 수 있으므로 귀사와 회사가 선택한 도구와 관련하여 중요한 질문을 받게됩니다.

다시 말하지만, 어떤 데이터 과학 도구를 선택해야합니까?

이 기사에서는 데이터 과학 공간에서 널리 사용되는 도구를 사용법과 장점으로 분류하여 나열하여 이러한 혼란을 해소하려고합니다. 이제 시작하겠습니다!

머신 러닝 및 / 또는 비즈니스 분석을 처음 접하거나 막 시작한 경우 Analytics Vidhya의 놀라운 이니셔티브를 활용하는 것이 좋습니다. 2020 잠금 해제. 두 가지 포괄적 인 프로그램 다루기 – 머신 러닝 스타터 프로그램 그리고 비즈니스 분석 스타터 프로그램 –이 이니셔티브는 시간이 오래 걸리므로 데이터 과학 커리어를 크게 향상 시키려면 최대한 빨리 등록해야합니다!

차례

  • 빅 데이터로의 다이빙 – 빅 데이터 처리 도구
    • 음량
    • 종류
    • 음량
  • 데이터 과학 도구
    • 보고 및 비즈니스 인텔리전스
    • 예측 모델링 및 기계 학습
    • 인공 지능

빅 데이터를위한 데이터 과학 도구

빅 데이터의 의미를 실제로 파악하려면 데이터를 빅 데이터로 정의하는 기본 원칙을 이해하는 것이 중요합니다. 이것을 3V의 빅 데이터라고합니다.

  • 음량
  • 종류
  • 속도

볼륨 처리 도구

이름에서 알 수 있듯이 volume은 규모와 데이터 양을 나타냅니다. 내가 말하는 데이터의 규모를 이해하려면 지난 90 년 동안 전 세계 데이터의 XNUMX % 이상이 생성되었다는 것을 알아야합니다!

XNUMX 년 동안 데이터 양이 증가함에 따라 기술도 향상되었습니다. 계산 및 스토리지 비용의 감소로 많은 양의 데이터를 수집하고 저장하는 것이 훨씬 쉬워졌습니다.

데이터의 양은 빅 데이터의 자격 여부를 정의합니다.

1Gb에서 약 10Gb 범위의 데이터를 보유한 경우 기존 데이터 과학 도구는 이러한 경우에 잘 작동하는 경향이 있습니다. 이 도구들은 무엇입니까?

  • Microsoft Excel에서 – Excel은 소량의 데이터를 처리하기위한 가장 쉽고 가장 인기있는 도구입니다. 지원하는 최대 행 수는 백만 개가 넘는 그늘이며 한 장에 한 번에 최대 1 개의 열만 처리 할 수 ​​있습니다. 이 숫자는 데이터 양이 클 때 충분하지 않습니다.

  • 마이크로 소프트 액세스 – 데이터 저장에 사용되는 Microsoft의 인기있는 도구입니다. 이 도구를 사용하면 최대 2Gb의 작은 데이터베이스를 원활하게 처리 할 수 ​​있지만 그 이상으로 크랙이 시작됩니다.

  • SQL – SQL은 1970 년대 이후로 가장 많이 사용 된 데이터 관리 시스템 중 하나입니다. 수십 년 동안 주요 데이터베이스 솔루션이었습니다. SQL은 여전히 ​​인기가 있지만 단점이 있습니다. – 데이터베이스가 계속 증가함에 따라 확장하기가 어렵습니다.

지금까지 몇 가지 기본 도구를 다루었습니다. 이제 큰 총을 발사 할 때입니다! 데이터가 10Tb +보다 큰 스토리지에 이르기까지 1Gb보다 큰 경우 아래에서 언급 한 도구를 구현해야합니다.

  • 하둡 – 빅 데이터의 데이터 처리 및 스토리지를 관리하는 오픈 소스 분산 프레임 워크입니다. 기계 학습 프로젝트를 처음부터 구축 할 때마다이 도구를 사용할 수 있습니다.

  • 하이브 – Hadoop 위에 구축 된 데이터웨어 하우스입니다. Hive는 Hadoop과 통합되는 다양한 데이터베이스 및 파일 시스템에 저장된 데이터를 쿼리하기 위해 SQL과 유사한 인터페이스를 제공합니다.

다양한 취급 도구

다양성은 다양한 유형의 데이터를 말합니다. 데이터 유형은 구조화 및 비 구조화 데이터 중 하나 일 수 있습니다.

다음과 같은 다양한 데이터 유형에 해당하는 예를 살펴 보겠습니다.

이 예제를 관찰하고 실제 데이터와 연관 시키십시오.

당신이 경우에 볼 수 있듯이 구조화 된 데이터, 이러한 데이터 유형에는 특정 순서와 구조가 있지만 비정형 데이터, 예제는 추세 나 패턴을 따르지 않습니다. 예를 들어 고객 피드백은 길이, 감정 및 기타 요소가 다를 수 있습니다. 또한 이러한 유형의 데이터는 방대하고 다양합니다.

이러한 유형의 데이터를 다루는 것은 매우 어려울 수 있으므로 시장에서 이러한 다양한 데이터 유형을 관리하고 처리하는 데 사용할 수있는 다양한 데이터 과학 도구는 무엇입니까?

가장 일반적인 두 데이터베이스는 SQL NoSQL. NoSQL이 등장하기 몇 년 전부터 SQL은 시장을 주도하는 기업이었습니다.

SQL의 예로는 Oracle, MySQL, SQLite가 있으며 NoSQL은 MongoDB, Cassandra 등과 같은 널리 사용되는 데이터베이스로 구성됩니다. 이러한 NoSQL 데이터베이스는 동적 데이터를 확장하고 처리 할 수있는 능력으로 인해 채택률이 매우 높습니다.

속도 처리 도구

세 번째이자 마지막 V는 속도를 나타냅니다. 이것은 데이터가 캡처되는 속도입니다. 여기에는 실시간 및 비 실시간 데이터가 모두 포함됩니다. 여기서는 주로 실시간 데이터에 대해 이야기 할 것입니다.

실시간 데이터를 캡처하고 처리하는 많은 예제가 있습니다. 가장 복잡한 것은 자율 주행 자동차가 수집 한 센서 데이터입니다. 자율 주행 차에 있다고 상상해보십시오. 차는 차선, 다른 차량과의 거리 등에 관한 데이터를 동시에 수집하고 처리해야합니다!

수집되는 실시간 데이터의 다른 예는 다음과 같습니다.

  • CCTV
  • 주식 거래
  • 신용 카드 거래를위한 사기 탐지
  • 네트워크 데이터 – 소셜 미디어 (Facebook, Twitter 등)

당신은 알고 계십니까?

뉴욕 증권 거래소에서 각 거래 세션 동안 1Tb 이상의 데이터가 생성됩니다!

이제 실시간 데이터를 처리하기 위해 일반적으로 사용되는 데이터 과학 도구 중 일부를 살펴 보겠습니다.

  • 아파치 카프카 – Kafka는 Apache의 오픈 소스 도구입니다. 실시간 데이터 파이프 라인을 구축하는 데 사용됩니다. Kafka의 장점은 다음과 같습니다. – 내결함성이 있고 매우 빠르며 많은 조직에서 생산에 사용됩니다.

  • 아파치 스톰 – Apache의이 도구는 거의 모든 프로그래밍 언어와 함께 사용할 수 있습니다. 초당 최대 1 백만 튜플을 처리 할 수 ​​있으며 확장 성이 뛰어납니다. 높은 데이터 속도를 고려하는 것이 좋습니다.
  • 아마존 키네 시스 – Amazon의이 도구는 Kafka와 유사하지만 가입비가 포함되어 있습니다. 그러나 즉시 사용 가능한 솔루션으로 제공되므로 조직에 매우 강력한 옵션입니다.

  • 아파치 플 링크 – Flink는 실시간 데이터에 사용할 수있는 Apache의 또 다른 도구입니다. Flink의 장점 중 일부는 고성능, 내결함성 및 효율적인 메모리 관리입니다.

이제 빅 데이터 작업에 일반적으로 사용되는 다양한 도구를 확실히 파악 했으므로 고급 머신 러닝 기술과 알고리즘을 적용하여 데이터를 활용할 수있는 세그먼트로 넘어 갑시다.

널리 사용되는 데이터 과학 도구

새로운 데이터 과학 프로젝트를 설정하는 경우 수많은 질문이 있습니다. 이는 데이터 과학자, 데이터 분석가, 프로젝트 관리자 또는 선임 데이터 과학 임원이든 상관없이 레벨에 관계없이 적용됩니다.

직면하게 될 몇 가지 질문은 다음과 같습니다.

  • 데이터 과학의 다른 영역에서 어떤 도구를 사용해야합니까?
  • 도구 용 라이센스를 구매하거나 오픈 소스 라이센스를 선택해야합니까?

이 섹션에서는 다양한 도메인에 따라 업계에서 사용되는 인기있는 데이터 과학 도구 중 일부에 대해 설명합니다.

데이터 과학은 그 자체로 광범위한 용어이며 다양한 도메인으로 구성되며 각 도메인마다 고유 한 비즈니스 중요성과 복잡성이 있으며 아래 이미지에서 아름답게 포착됩니다.

데이터 과학 스펙트럼은 다양한 도메인으로 구성되며 이러한 도메인은 상대적 복잡성과 제공하는 비즈니스 가치로 표시됩니다. 위의 스펙트럼에서 보여준 포인트 중 하나를 살펴 보겠습니다.

보고 및 비즈니스 인텔리전스

스펙트럼의 하단부터 시작하겠습니다. 조직은 중요한 전략적 결정을 내리기 위해 추세와 패턴을 식별 할 수 있습니다. MIS, 데이터 분석, 대시 보드에 이르는 분석 유형이 있습니다.

이러한 도메인에서 일반적으로 사용되는 도구는 다음과 같습니다.

  • 뛰어나다 – 피벗 테이블 및 차트를 포함하여 다양한 옵션을 제공하여 빠른 시간 내에 분석을 수행 할 수 있습니다. 간단히 말해, 데이터 과학 / 분석 도구의 스위스 군용 칼입니다
  • Qlik 보기 – 단 몇 번의 클릭으로 모든 데이터 소스를 통합, 검색, 시각화 및 분석 할 수 있습니다. 배우기 쉽고 직관적 인 도구로 인기가 높습니다.

  • Tableau – 오늘날 시장에서 가장 널리 사용되는 데이터 시각화 도구 중 하나입니다. 많은 양의 데이터를 처리 할 수 ​​있으며 Excel과 같은 계산 함수 및 매개 변수도 제공합니다. Tableau는 깔끔한 대시 보드 및 스토리 인터페이스로 인해 마음에 들었습니다.

  • 미량 전략 – 대시 보드, 자동 배포 및 기타 주요 데이터 분석 작업을 지원하는 또 다른 BI 도구입니다.

  • 파워BI – BI (Business Intelligence) 영역의 Microsoft 제품입니다. PowerBI는 Microsoft 기술과 통합되도록 제작되었습니다. 따라서 조직에 Sharepoint 또는 SQL 데이터베이스 사용자가 있으면이 도구를 사용하는 것이 좋습니다.

  • Google Analytics – Google Analytics가 어떻게이 목록에 올랐는지 궁금하십니까? 음, 디지털 마케팅은 비즈니스 혁신에 중요한 역할을하며 디지털 노력을 분석하는 데 이보다 더 좋은 도구는 없습니다.

예측 분석 및 기계 학습 도구

사다리 위로 올라 가면서 비즈니스 가치뿐만 아니라 복잡성 측면에서 지분이 높아졌습니다! 이것이 대부분의 데이터 과학자들의 빵과 버터가 나오는 영역입니다. 해결해야 할 몇 가지 유형의 문제는 통계 모델링, 예측, 신경망 및 딥 러닝입니다.

이 도메인에서 일반적으로 사용되는 도구를 이해하겠습니다.

  • Python –이 언어는 편리 성, 유연성, 오픈 소스 특성으로 인해 오늘날 업계에서 가장 널리 사용되는 데이터 과학 언어 중 하나입니다. ML 커뮤니티에서 빠른 인기와 수용을 얻었습니다.

  • R – 데이터 과학에서 매우 일반적으로 사용되고 존중되는 언어입니다. R은 번성하고 믿을 수없는 커뮤니티를 보유하고 있으며 대부분의 머신 러닝 작업을 지원하는 다양한 패키지 및 라이브러리와 함께 제공됩니다.

  • 아파치 스파크 – Spark는 2010 년 UC 버클리에 의해 오픈 소스되었으며 이후 빅 데이터에서 가장 큰 커뮤니티 중 하나가되었습니다. 유연성, 속도, 계산 능력 등과 같은 여러 가지 이점을 제공하므로 빅 데이터 분석의 스위스 군용 칼로 알려져 있습니다.

  • 줄리아 – 다가오는 언어이며 파이썬의 후계자로 선전되고 있습니다. 아직 초기 단계에 있으며 앞으로 어떻게 작동하는지 보는 것이 흥미로울 것입니다.

  • 주피터 수첩 –이 노트북은 Python 코딩에 널리 사용됩니다. 주로 Python에 사용되지만 Julia, R 등과 같은 다른 언어도 지원합니다.

지금까지 논의한 도구는 진정한 오픈 소스 도구입니다. 비용을 지불하거나 추가 라이센스를 구입할 필요가 없습니다. 정기적으로 업데이트를 유지 관리하고 배포하는 번성하고 활동적인 커뮤니티가 있습니다.

이제 업계 리더로 인정받는 몇 가지 프리미엄 도구를 살펴 보겠습니다.

  • SAS – 매우 대중적이고 강력한 도구입니다. 일반적으로 은행 및 금융 부문에서 사용됩니다. American Express, JP Morgan, Mu Sigma, Royal Bank of Scotland 등과 같은 민간 조직에서 매우 높은 점유율을 차지하고 있습니다.

  • SPSS – SPSS는 2009 년 IBM에 인수되었습니다. 고급 통계 분석, 광범위한 기계 학습 알고리즘 라이브러리, 텍스트 분석 등을 제공합니다.

  • Matlab – Matlab은 실제로 조직 환경에서 과소 평가되었지만 학계 및 연구 부서에서 널리 사용됩니다. 최근에는 Python, R 및 SAS와 같은 분야에서 많은 기반을 잃었지만, 특히 미국의 대학에서는 여전히 Matlab을 사용하여 많은 학부 과정을 가르치고 있습니다.

딥 러닝을위한 공통 프레임 워크

딥 러닝에는 높은 계산 리소스가 필요하며 이러한 리소스를 효과적으로 활용하려면 특별한 프레임 워크가 필요합니다. 이로 인해 GPU 또는 TPU가 필요할 것입니다.

이 섹션에서 딥 러닝에 사용되는 몇 가지 프레임 워크를 살펴 보겠습니다.

  • TensorFlow – 오늘날 업계에서 가장 널리 사용되는 도구입니다. 구글은 그것과 관련이 있을지도 모른다!
  • 파이 토치 –이 매우 유연한 딥 러닝 프레임 워크는 TensorFlow와 주요 경쟁을합니다. PyTorch는 최근 각광을 받고 페이스 북 연구원들이 개발했습니다
  • 케 라스CAFFE 딥 러닝 응용 프로그램을 구축하는 데 광범위하게 사용되는 다른 프레임 워크

인공 지능 도구

AutoML의 시대가 여기에 있습니다. 이러한 도구에 대해 들어 보지 못했다면 스스로 교육하는 것이 좋습니다! 이것은 데이터 과학자로서 가까운 장래에 함께 할 일이 될 수 있습니다.

가장 인기있는 AutoML 도구 중 일부는 AutoKeras, Google Cloud AutoML, IBM Watson, DataRobot, H20의 무인 AI, 아마존의 렉스. AutoML은 AI / ML 커뮤니티에서 다음 큰 일이 될 것으로 예상됩니다. 비즈니스 리더가 전략적 결정을 내릴 수 있도록 기술적 측면을 제거하거나 줄이는 것을 목표로합니다.

이러한 도구는 완전한 파이프 라인을 자동화 할 수 있습니다!

최종 메모

데이터 수집, 처리 및 저장을위한 파이프 라인을 달성하는 데 필요한 데이터 수집 엔진 및 도구에 대해 설명했습니다. 데이터 과학은 광범위한 도메인으로 구성되며 각 도메인에는 고유 한 도구 및 프레임 워크 세트가 있습니다.

데이터 과학 도구를 선택하면 종종 개인의 선택, 도메인 또는 프로젝트, 물론 조직에 따라 결정됩니다.

자주 사용하는 데이터 과학 도구 또는 프레임 워크에 대한 의견을 알려주십시오.

모바일 APP에서이 기사를 읽을 수도 있습니다. Google Play에서 그것을 얻을

관련 기사

출처 : https://www.analyticsvidhya.com/blog/2020/06/22-tools-data-science-machine-learning/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?