빅 데이터 및 Hadoop의 기초에 대한 초보자 가이드

I

이 기술 시대에 빅 데이터는 예기치 않게 성장하고 있기 때문에 혁명적임이 입증되었습니다. 설문 조사 보고서에 따르면 현재 데이터의 약 90%는 지난 XNUMX년 동안에 생성된 것입니다. 빅 데이터는 방대한 양의 데이터 세트에 불과합니다.

빅 데이터는 여러 회사가 제품과 서비스를 더 잘 알고 이에 대한 귀중한 통찰력을 생성하는 데 도움이 됩니다. Big Daechnology는 모든 분야에서 확장되고 있으며 업계의 마케팅 캠페인 및 기술을 개선하는 데 사용할 수 있을 뿐만 아니라 인공 지능(AI) 세그먼트 및 자동화의 확장을 돕고 있습니다.

오늘날 전 세계의 모든 비즈니스는 비즈니스 서비스를 간소화하고 관리하기 위해 빅 데이터 전문가에 대한 요구 사항을 찾고 있으므로 고용 기회는 엄청납니다. 고용주는 데이터와 시장에 대한 강한 지식과 관심을 보여줌으로써 쉽게 일자리를 구할 수 있습니다. Big Data는 Data Analyst, Data Scientist, Database administrator(DBA), Big Data Engineer(BDA), Hadoop Engineer 등 다양한 직책을 제공합니다.

학습 목표

빅 데이터를 이해하여 빅 데이터 분석가로서 강력한 경력을 쌓을 수 있습니다.
빅 데이터와 그 유형에 대한 깊은 지식을 가지고 있습니다.
빅 데이터의 필수 V와 그 중요성을 알 수 있습니다.
빅 데이터 및 Hadoop의 사용 사례 및 응용 프로그램에 대해 알아보십시오.
빅 데이터에서 Hadoop이 어떻게 사용되는지 이해합니다.

이 기사는 데이터 과학 Blogathon.

빅 데이터라는 용어의 이해
다양한 유형의 빅 데이터
빅 데이터의 5V
빅 데이터 및 Hadoop의 상위 3가지 사용 사례
4.1 넷플릭스
4.2 우버
4.3 월마트
빅 데이터에서 Hadoop 사용
결론

용어 이해: 빅 데이터

빅 데이터 기존의 관계형 데이터베이스가 처리할 수 없을 정도로 방대하고 종종 복잡한 데이터 세트와 연관됩니다. 방대한 데이터 수집 작업을 수행하려면 특별한 도구와 방법론이 필요합니다. 빅 데이터 오디오, 비디오, 사진, 웹사이트 등과 같은 정형, 반정형 및 비정형 데이터 세트로 구성됩니다. 이러한 데이터를 얻는 소스는 n개입니다. 일부 데이터 소스는 다음과 같습니다.

이메일 추적
서버 로그
스마트폰 및 스마트워치
인터넷 쿠키
소셜 미디어
의료 기록
기계 센서 및 IoT 장치
온라인 구매 거래 양식

기업은 이러한 비정형 원시 데이터 세트를 매일 수집하고 있으며 이 데이터를 관리하고 비즈니스를 더 잘 이해하려면 빅 데이터 기술이 필요합니다. 빅 데이터는 의미 있는 정보를 추출하여 데이터 세트를 관리하므로 업계에서 데이터를 기반으로 더 나은 비즈니스 의사 결정을 내릴 수 있습니다.

빅 데이터의 작동을 XNUMX단계 프로세스로 이해합시다!

완성: 다양한 이기종 소스에서 데이터를 수집하는 작업의 첫 번째 단계입니다. 수집된 데이터를 병합하여 비즈니스 통찰력을 제공하는 방식으로 분석할 수 있는 형식으로 만듭니다.
관리 : 수집 후에는 데이터를 신중하게 관리하여 귀중한 정보를 마이닝하고 실행 가능한 통찰력으로 변환해야 합니다. 방대한 양의 빅 데이터는 구조화되지 않았기 때문에 테이블 형식으로 데이터를 저장하는 기존의 관계형 데이터베이스에 저장할 수 없습니다.
분석: 이 분석 단계에서는 데이터를 마이닝하고 데이터 과학자는 종종 기계 학습, 딥 러닝 및 예측 모델링과 같은 고급 기술을 사용하여 대규모 데이터 세트를 검사하고 데이터를 더 깊이 이해합니다.

다양한 유형의 빅 데이터

세 가지 유형의 빅 데이터는 정형, 반정형 및 비정형입니다. 하나하나 알아봅시다!

정형 데이터와 비정형 데이터

출처: devopedia.org

구조화된 데이터: 이름에서 알 수 있듯이 데이터는 데이터를 저장하고 처리하기 위해 특정 형식을 따르는 고도로 조직화된 데이터입니다. 휴대폰 번호, 주민등록번호, PIN 코드, 직원 세부 정보, 지정 세부 정보 및 급여와 같은 속성이 정렬되어 있으므로 데이터를 쉽게 검색할 수 있습니다. RDBMS(Relational Database Management)에 저장된 데이터는 구조화된 데이터의 한 예이며, 우리는 SQL (Structured Query Language)는 이러한 종류의 데이터를 처리하고 관리합니다.

구조화되지 않은 데이터: 이름에서 알 수 있듯이 비정형 데이터 데이터를 저장하고 처리하기 위해 특정 구조나 형식을 따르지 않는 고도로 조직화되지 않은 데이터입니다. RDBMS에 저장할 수 없고, 구조화된 형식으로 변환되기 전에는 분석조차 할 수 없습니다. 비정형 데이터는 매일 가장 많이 생성되는 데이터로, 이미지, 오디오, 비디오, 소셜 미디어 게시물, 감시 데이터, 온라인 쇼핑 데이터 등 다양한 형식으로 제공됩니다. 전문가에 따르면 조직 내 데이터의 약 80%가 구조화되지 않았습니다.

반구조화된 데이터: 반구조화된 데이터는 특정 형식이 없지만 관련된 분류 특성이 있는 구조화된 데이터와 구조화되지 않은 데이터의 조합입니다. 예를 들어 비디오 및 이미지에는 장소, 날짜 또는 촬영자와 관련된 내부 시맨틱 태그 또는 메타데이터 또는 표시가 포함될 수 있지만 그 안에 있는 정보에는 구조가 없습니다. XML 또는 JSON 파일은 반구조화된 데이터의 일반적인 예입니다.

빅 데이터의 5V

빅 데이터에서 5V라는 용어는 다음을 나타냅니다.

빅 데이터 개요

출처: timesofmalta.com

음량: 볼륨은 빠른 속도로 증가하는 엄청난 양의 데이터에 불과합니다. 오늘날 데이터 볼륨은 테라바이트, 페타바이트 또는 그 이상입니다. 이 엄청난 양의 데이터는 창고에 저장되며 검사 및 처리가 필요합니다. 데이터가 너무 방대해서 관계형 데이터베이스에 저장할 수 없습니다. Hadoop과 같은 분산 시스템이 필요합니다. MongoDB의 데이터의 일부를 여러 위치에 저장하고 소프트웨어로 함께 가져옵니다.
Velocity : 속도는 방대한 양의 데이터가 생성, 저장 및 분석되는 속도입니다. Velocity는 데이터가 실시간으로 생성되는 속도를 보여줍니다. 매초마다 오디오, 비디오, 게시물 등을 생성하는 소셜 미디어를 예로 들 수 있습니다. 따라서 구조화되지 않은 데이터는 전 세계적으로 빛의 속도로 증가하고 있습니다.
종류: 다양성이란 우리가 매일 사용하는 다양한 유형의 데이터를 의미합니다. 과거에는 데이터가 매우 단순했고 구조화된 형식(이름, 휴대폰 번호, 주소, 이메일 ID 등)으로 저장될 수 있었지만 지금은 데이터가 매우 다릅니다. 이제 우리는 다양한 소스에서 수집된 구조화, 비구조화 및 반구조화될 수 있는 다양한 데이터를 보유하고 있습니다. 텍스트, 오디오, 비디오 등과 같은 다양한 형식의 데이터를 처리하기 위해 혁신적이고 적합한 알고리즘을 갖춘 특정 분석 및 처리 기술이 필요합니다.
정확성: 진실성은 사용 가능한 데이터의 품질 또는 신뢰성에 지나지 않습니다. 데이터 진실성은 분석된 데이터의 정확성과 확실성을 다룹니다. 예를 들어, 트위터 해시태그, 철자, 약어, 오타 등으로 초당 게시물을 생성하고 있으며 데이터의 정확성과 품질을 신뢰할 수 없다면 이 엄청난 양의 데이터는 쓸모가 없습니다.
값 : 원시 데이터는 매일 생성되지만 쓸모가 없습니다. 유용한 정보를 추출하기 위해 가치 있는 것으로 변환해야 합니다. 의미 있는 투자 수익을 창출한다면 데이터를 가치 있는 것으로 간주할 수 있습니다.

빅 데이터를 다루는 다양한 접근 방식

빅 데이터 경쟁사보다 비즈니스에 탁월한 경쟁 무기임이 입증되었습니다. 기업은 빅 데이터의 기능을 활용하는 방법을 결정할 수 있습니다. 조직은 목표에 따라 다양한 비즈니스 활동을 간소화하고 요구 사항에 따라 빅 데이터의 잠재력을 사용할 수 있습니다.

빅 데이터를 다루는 기본 접근 방식은 비즈니스의 요구 사항과 사용 가능한 예산 조항을 기반으로 합니다. 먼저 우리는 어떤 문제를 해결하고 있는지, 어떤 종류의 데이터가 필요한지, 데이터에서 답을 얻고자 하는 것이 무엇인지, 그리고 이를 통해 무엇을 달성하고 싶은지 결정해야 합니다. 그런 다음 빅 데이터 처리를 위해 아래 접근 방식을 사용할 수 있습니다.

일괄 처리: 일괄 처리에서는 유사한 데이터를 수집하고 그룹화(일괄이라고 함)하고 처리를 위해 분석 시스템에 피드합니다. 대량의 데이터를 처리해야 하고 데이터 크기가 알려져 있고 유한한 경우 일괄 처리를 사용할 수 있습니다.
스트림 처리: 스트림 처리에서 우리는 연속적인 데이터 스트림을 생성되는 즉시 처리하며 처리는 일반적으로 실시간으로 수행됩니다. 데이터 스트림이 연속적이고 즉각적인 응답이 필요하고 데이터 크기를 알 수 없고 무한할 때 스트림 처리를 사용할 수 있습니다.

빅 데이터 및 Hadoop의 상위 3가지 사용 사례

넷플릭스

Netflix는 사용자에게 고품질 주문형 스트리밍 비디오를 제공하는 세계적으로 유명한 엔터테인먼트 회사입니다.

Netflix는 사용자가 즐기는 정확한 콘텐츠를 제공함으로써 시장의 속도를 높이고 있습니다. 하지만 넷플릭스가 당신이 좋아하는 것을 어떻게 아는지 아십니까? 답은 Big Data Analytics를 사용하면 분명합니다.

넷플릭스 빅데이터 분석을 활용하여 고도로 정확한 추천 시스템을 구축하고 사용자의 요구를 만족시키고 있습니다.

어떻게 생각하니?

Netflix는 우리가 시청하거나 검색하는 것에 대한 데이터를 분석하여 고객이 시청하는 타이틀, 좋아하는 장르, 재생 중지 빈도, 등급 부여 등과 같은 데이터 포인트를 추출하고 이를 Netflix에 제공합니다. 추천 시스템. 이를 통해 고객의 요구 사항을 가정(대부분의 회사에서 수행)하는 것보다 고객의 요구 사항을 파악한다는 측면에서 의사 결정이 원활하고 확고해집니다.

이 프로세스에서 사용되는 주요 데이터 구조에는 Hadoop, Hive, Pig 및 기타 기존 비즈니스 인텔리전스가 포함됩니다.

넷플릭스

출처: www.muvi.com/

동네 짱

오늘날 우리는 Uber가 없는 삶을 상상할 수 없습니다. 우리가 가고 싶은 곳이 어디든지 클릭 한 번으로 Uber를 이용할 수 있으며 Uber를 사용하여 상품을 보낼 수도 있습니다.

이제 Uber가 우리의 데이터를 어떻게 사용하는지 또는 Uber에서 빅 데이터의 역할에 대해 생각하고 계실 것입니다.

그럼 먼저 생각해 봅시다. 같은 장소에 자주 갔지만 매번 같은 금액을 지불했습니까? 대답은 분명히 '아니오'입니다.

이것이 Uber가 우리 데이터를 사용하는 방식입니다. Uber는 제공되는 서비스의 가격을 관리하기 위해 서비스에 대한 수요와 공급에 초점을 맞춥니다.

Surge Pricing은 Uber가 가져온 빅 데이터의 주요 이점입니다. 예를 들어, 기차역이나 공항으로 가는 택시를 찾고 있다면 원하는 금액을 지불할 준비가 되어 있으며 Uber는 이러한 시간의 중요성을 이해하고 가격을 인상합니다. 또는 축제일에도 가격이 인상될 것입니다.

월마트

Walmart는 2개국에 걸쳐 20,000만 명 이상의 직원과 28개의 매장을 보유한 세계 최대의 소매업체이자 수익 거인입니다.

Walmart는 "빅 데이터"라는 용어를 몰랐을 때에도 수년 동안 빅 데이터 분석을 사용해 왔습니다. 데이터 패턴을 발굴하여 상품을 추천하고 고객의 요구사항을 분석하여 데이터 마이닝.

월마트

출처: www.slideshare.net

이러한 분석 사용은 Walmart가 고객 전환율을 높이고 쇼핑 경험을 최적화하며 동급 최고의 전자상거래 기술을 제공하여 우수한 고객 경험을 제공하는 데 도움이 됩니다.

Walmart는 다음과 같은 기술을 사용합니다. NoSQL Hadoop은 효과적인 사용을 위해 다양한 소스에서 수집되고 중앙 집중화된 실시간 데이터에 대한 액세스를 내부 사용자에게 제공합니다.

빅 데이터에서 Hadoop 사용

빅데이터는 다양한 유형의 데이터 볼륨으로 구성되며, 이는 고속으로 생성되는 비정형 및 정형 데이터일 수 있습니다. 빅 데이터는 자산으로 간주될 수 있으며 해당 자산을 처리할 도구가 필요합니다. Hadoop은 빅 데이터를 저장, 처리 및 분석하는 문제를 처리하는 데 사용되는 도구입니다. Hadoop은 복잡한 비정형 데이터 세트를 처리, 저장 및 분석하고 상용 하드웨어 클러스터에서 애플리케이션을 실행하는 데 사용되는 오픈 소스 소프트웨어 프로그램입니다. 모든 데이터에 대한 대용량 스토리지를 제공하며 여러 시스템에 분산되어 병렬로 처리되므로 쉽게 사용할 수 있습니다.

Hadoop이 빅 데이터를 더 나은 방식으로 처리하는 방법을 이해하기 위해 일반적으로 사용되는 Hadoop 명령 중 일부에 대해 논의해 보겠습니다.

1. Hadoop의 Mkdir 명령

mkdir은 "메이크 디렉토리"를 의미합니다. 이 명령은 Hadoop 클러스터의 지정된 경로에 지정된 이름으로 새 디렉토리를 생성합니다. 유일한 제약 조건은 디렉터리가 이미 존재하지 않아야 한다는 것입니다. 같은 이름의 디렉터리가 클러스터에 있으면 디렉터리의 존재를 나타내는 오류가 생성됩니다.

통사론:-

하둡 fs -Mkdir /path_name/directory_name

2. Hadoop의 "Touchz" 명령

Hadoop의 "Touchz" 명령은 Hadoop 클러스터의 지정된 경로에 지정된 이름으로 새로운 빈 파일을 생성하는 데 사용됩니다. 이 명령은 지정된 디렉토리가 존재하는 경우에만 작동하며 파일을 생성하지 않고 대신 클러스터에 디렉토리가 없음을 나타내는 오류를 표시합니다.

통사론:-

하둡 fs -touchz/directory_name/file_name

3. Hadoop의 LS 명령

LS는 Hadoop의 목록을 의미합니다. 이 명령은 지정된 디렉토리 또는 경로에서 사용 가능한 파일/콘텐츠 목록을 표시합니다. ls 명령으로 다양한 옵션을 추가하여 파일에 대한 자세한 정보를 얻거나 필터링된 형식으로 정보를 얻을 수 있습니다. 예를 들면 다음과 같습니다.

-c: "ls" 명령과 함께 "-c" 옵션을 사용하여 파일 또는 디렉토리의 전체 주소를 얻을 수 있습니다.
-R: 이 옵션은 재귀 순서로 디렉토리의 내용을 원할 때 사용됩니다.
-S: 이 옵션은 크기에 따라 디렉토리의 파일을 정렬합니다. 따라서 크기가 가장 크거나 가장 작은 파일을 원할 때마다 이 기능을 사용할 수 있습니다.
-t: 수정 시간을 기준으로 파일을 정렬하기 때문에 "ls" 명령과 함께 가장 일반적으로 사용되는 옵션이기도 합니다. 즉, 가장 최근에 사용한 파일을 목록의 첫 번째 위치에 놓습니다.

통사론:-

하둡 fs -ls/path_name

4. Hadoop에서 테스트 명령

이름에서 알 수 있듯이 이 명령은 Hadoop 클러스터에 파일이 있는지 테스트하는 데 사용되며 경로가 클러스터에 있는 경우에만 "1"을 반환합니다. 이 명령은 “[defsz]”와 같은 여러 옵션을 사용합니다. 이해해 봅시다!

통사론:-

하둡 fs -테스트 -[defsz]

옵션 :-

-d: 이 옵션은 사용자가 제공한 경로가 디렉토리인지 여부를 테스트하고 경로가 디렉토리이면 "0"을 반환합니다.
-e: 이 옵션은 사용자가 제공한 경로가 존재하는지 여부를 테스트하고 해당 경로가 클러스터에 존재하는 경우 "0"을 반환합니다.
-f: 이 옵션은 사용자가 제공한 경로가 파일인지 여부를 테스트하고 주어진 경로가 파일이면 "0"을 반환합니다.
-s: 이 옵션은 사용자가 제공한 경로가 비어 있는지 여부를 테스트하고 경로가 비어 있지 않으면 “0”을 반환합니다.
-r: 이 옵션은 사용자가 제공한 경로가 존재하는지 여부와 읽기 권한이 부여되었는지 여부를 테스트합니다. 경로가 존재하고 읽기 권한도 부여된 경우에만 "0"을 반환합니다.
-w: 이 옵션은 사용자가 제공한 경로가 존재하는지, 서면 허가를 받았는지 여부를 테스트합니다. 경로가 존재하고 쓰기 권한도 부여된 경우에만 "0"을 반환합니다.
-z: 이 옵션은 주어진 파일의 크기가 0바이트인지 여부를 테스트하고 파일 크기가 XNUMX바이트이면 "XNUMX"을 반환합니다.

5. Hadoop에서 명령 찾기

이름에서 알 수 있듯이 이 명령은 Hadoop 클러스터에 있는 파일을 검색하는 데 사용됩니다. 클러스터의 모든 파일과 함께 명령에 지정된 표현식을 스캔하고 정의된 표현식과 일치하는 파일을 반환합니다. 경로를 명시적으로 지정하지 않으면 기본적으로 현재 작업 디렉터리를 사용합니다.

통사론:-

하둡 fs - 찾기 ..

6. Hadoop의 텍스트 명령

Hadoop의 text 명령은 주로 zip 파일을 디코딩하고 소스 파일의 내용을 텍스트 형식으로 표시하는 데 사용됩니다. 소스 파일을 인코딩하고 처리한 다음 최종적으로 콘텐츠를 일반 텍스트 형식으로 디코딩합니다.

통사론:-

하둡 fs -텍스트

7. Hadoop의 Count 명령

이름에서 알 수 있듯이 이 명령은 지정된 경로 아래에 있는 파일, 디렉터리 및 바이트 수를 계산합니다. 다양한 옵션과 함께 count 명령을 사용하여 요구 사항에 따라 출력을 수정할 수 있습니다. 예를 들면 다음과 같습니다.

-q – 이 옵션은 할당량을 표시하는 데 사용되며, 이는 개별 디렉터리에 사용되는 총 이름 수와 공간 사용량에 대한 제한을 의미합니다.
-u – 이 옵션은 할당량과 사용량만 표시합니다.
-h – 이 옵션은 사람이 읽을 수 있는 형식으로 파일 크기를 표시합니다.
-v – 이 옵션은 헤더 행을 표시하는 데 사용됩니다.

통사론:-

Hadoop fs -count [옵션]

8. Hadoop의 GetMerge 명령

이름에서 알 수 있듯이 Getmerge 명령은 Hadoop 클러스터의 지정된 디렉토리에 있는 하나 이상의 파일을 로컬 파일 시스템의 단일 로컬 파일로 병합합니다. 구문에서 "src_dest" 및 "local_dest"라는 단어는 소스 및 로컬 대상을 나타냅니다.

통사론:-

하둡 fs -Getmerge

9. Hadoop의 AppendToFile 명령

이 셸 명령은 단일 또는 여러 로컬 파일의 내용을 Hadoop 클러스터의 제공된 대상 파일에 단일 파일로 추가하는 데 사용됩니다. 이 명령을 실행하는 동안 지정된 로컬 소스 파일은 명령에 지정된 파일 이름을 기반으로 대상 소스에 추가됩니다. 또한 대상 파일이 디렉토리에 없으면 해당 이름으로 새 파일을 만듭니다.

통사론:-

하둡 fs -AppendToFile

결론

이 블로그에서는 빅 데이터 분석 분야에서 경력을 시작하는 데 도움이 되는 몇 가지 중요한 빅 데이터 주제를 다룹니다. 이러한 초보 주제를 참고하여 빅 데이터 및 Hadoop의 개념을 더 잘 이해할 수 있으므로 인터뷰를 준비하고 데이터 분석가, Hadoop 개발자, 데이터 과학자 등이 되기 위한 속도를 설정하는 데 도움이 됩니다. 데이터 블로그는 다음과 같습니다.

빅 데이터는 주로 기업과 조직에서 제품이나 서비스를 이해하고 그로부터 귀중한 통찰력을 얻기 위해 사용하는 비전통적인 전략입니다.
소셜 미디어 게시물, 이메일, 휴대폰, 신용 카드 등과 같은 여러 소스에서 생성된 다양한 데이터 유형에 대해 논의했습니다.
다음을 포함하는 빅 데이터의 5V에 대해 논의했습니다.

볼륨:- 보유하고 있는 데이터의 양.
속도:- 데이터가 생성, 이동 또는 액세스되는 속도입니다.
다양성:- 우리가 가지고 있는 다양한 유형의 데이터 소스.
진실성:- 데이터를 얼마나 신뢰할 수 있습니까?
가치:- 데이터가 투자에 대해 제공하는 의미 있는 수익.

또한 빅 데이터의 스트림 및 일괄 처리에 대해서도 논의했습니다.
방대한 양의 데이터를 최적으로 처리하는 데 사용되는 Java로 작성된 프레임워크인 Hadoop에 대해 약간 논의했습니다.
마지막으로 우리는 일반적으로 사용되는 Hadoop 명령 중 일부를 해당 구문과 함께 논의했습니다.

이 기사에 표시된 미디어는 Analytics Vidhya의 소유가 아니며 작성자의 재량에 따라 사용됩니다.

생성 데이터 인텔리전스

빅 데이터 및 Hadoop의 기본 사항에 대한 초보자 가이드

I

용어 이해: 빅 데이터

다양한 유형의 빅 데이터

빅 데이터의 5V

빅 데이터를 다루는 다양한 접근 방식

빅 데이터 및 Hadoop의 상위 3가지 사용 사례

넷플릭스

동네 짱

월마트

빅 데이터에서 Hadoop 사용

결론

관련

Quantum News Brief: 24년 2024월 XNUMX일: Xanadu 및 Chicago Quantum Exchange의 뉴스 • Wolfram 및 Classiq • 콜로라도 주지사 Jared Polis • ICFO...

비는 수력 호수에 안도감을 가져다줍니다

최신 인텔리전스

Beyond Oil and Gas Alliance 탈퇴 계획 없음: Simon Watts

Brandon Aversano, 합금 시장의 창시자

사운드 및 비전: 싱크로트론 통찰력으로 결정 핵 생성 및 성장 조명 – Physics World

Bitsler의 Jackpot 30% 레이크백으로 큰 승리를 거두세요 | 비트코인체이서

코인스토어, 두바이에서 프리미어 브랜드 컨퍼런스 마무리, 새로운 암호화폐 이니셔티브 선보여 | 비트피나스

코인스토어, 두바이에서 프리미어 브랜드 컨퍼런스 마무리, 새로운 암호화폐 이니셔티브 선보여 | 비트피나스

우리와 함께 채팅