제퍼넷 로고

머신 러닝의 이상 감지: 비즈니스 기능 최적화를 위한 이상값 찾기 - IBM 블로그

시간


머신 러닝의 이상 감지: 비즈니스 기능 최적화를 위한 이상값 찾기 - IBM 블로그



화이트보드 앞에 있는 사람

조직이 비즈니스 활동에 대한 잠재적인 통찰력을 갖춘 대규모 데이터 세트를 수집함에 따라 이러한 데이터 세트에서 비정상적인 데이터 또는 이상값을 감지하는 것은 비효율성, 드문 이벤트, 문제의 근본 원인 또는 운영 개선 기회를 발견하는 데 필수적입니다. 그러면 이상 현상이란 무엇이며 이를 감지하는 것이 왜 중요한가요?

이상 징후의 유형은 기업 및 비즈니스 기능에 따라 다릅니다. 이상 감지 단순히 비즈니스 기능과 목표를 기반으로 "정상적인" 패턴과 지표를 정의하고 운영의 정상적인 동작을 벗어나는 데이터 포인트를 식별하는 것을 의미합니다. 예를 들어, 특정 기간 동안 웹사이트나 애플리케이션의 트래픽이 평균보다 높으면 사이버 보안 위협이 있는 경우 사기 탐지 경고를 자동으로 실행할 수 있는 시스템이 필요할 것입니다. 이는 특정 마케팅 계획이 효과가 있다는 신호일 수도 있습니다. 이상 현상이 본질적으로 나쁜 것은 아니지만 이를 인식하고 상황에 맞는 데이터를 보유하는 것은 비즈니스를 이해하고 보호하는 데 필수적입니다.

데이터 과학 분야에서 일하는 IT 부서의 과제는 확장되고 끊임없이 변화하는 데이터 포인트를 이해하는 것입니다. 이 블로그에서는 인공 지능으로 구동되는 머신 러닝 기술을 활용하여 지도 이상 탐지, 비지도 이상 탐지, 준지도 이상 탐지라는 세 가지 이상 탐지 방법을 통해 변칙 행위를 탐지하는 방법을 살펴보겠습니다.

감독 학습

지도 학습 기술은 실제 입력 및 출력 데이터를 사용하여 이상 현상을 감지합니다. 이러한 유형의 이상 탐지 시스템에서는 데이터 분석가가 훈련 데이터로 사용하기 위해 데이터 포인트에 정상 또는 비정상 라벨을 지정해야 합니다. 레이블이 지정된 데이터로 훈련된 기계 학습 모델은 제공된 예를 기반으로 이상값을 감지할 수 있습니다. 이러한 유형의 기계 학습은 알려진 이상값 감지에 유용하지만 알려지지 않은 이상값을 발견하거나 향후 문제를 예측할 수는 없습니다.

지도 학습을 위한 일반적인 기계 학습 알고리즘은 다음과 같습니다.

  • KNN(K-최근접 이웃) 알고리즘: 이 알고리즘은 이상 탐지에 사용되는 밀도 기반 분류기 또는 회귀 모델링 도구입니다. 회귀 모델링은 레이블이 지정된 데이터와 변수 데이터 간의 관계를 찾는 데 사용되는 통계 도구입니다. 이는 유사한 데이터 포인트가 서로 근처에서 발견된다는 가정을 통해 작동합니다. 데이터 포인트가 밀집된 포인트 섹션에서 더 멀리 나타나는 경우 이는 이상 현상으로 간주됩니다.
  • 지역적 특이점 요인(LOF): 로컬 이상치 요인은 밀도 기반 알고리즘이라는 점에서 KNN과 유사합니다. 주요 차이점은 KNN이 가장 가까운 데이터 포인트를 기반으로 가정을 하는 반면 LOF는 가장 멀리 떨어져 있는 포인트를 사용하여 결론을 도출한다는 것입니다. 

감독되지 않은 학습

비지도 학습 기술에는 레이블이 지정된 데이터가 필요하지 않으며 더 복잡한 데이터 세트를 처리할 수 있습니다. 비지도 학습은 다음을 통해 구동됩니다. 깊은 학습신경망 또는 생물학적 뉴런이 서로 신호를 보내는 방식을 모방하는 자동 인코더. 이러한 강력한 도구는 입력 데이터에서 패턴을 찾고 어떤 데이터가 정상으로 인식되는지 가정할 수 있습니다.

이러한 기술은 알려지지 않은 이상 현상을 발견하고 대규모 데이터 세트를 수동으로 선별하는 작업을 줄이는 데 큰 도움이 될 수 있습니다. 그러나 데이터 과학자는 비지도 학습을 통해 수집된 결과를 모니터링해야 합니다. 이러한 기술은 입력되는 데이터에 대해 가정을 하기 때문에 이상 항목에 잘못 레이블을 지정하는 것이 가능합니다.

기계 학습 구조화되지 않은 데이터에 대한 알고리즘은 다음과 같습니다.

K-의미: 이 알고리즘은 유사한 데이터 포인트를 클러스터링하려는 의도로 데이터 포인트를 수학적 방정식을 통해 처리하는 데이터 시각화 기술입니다. "평균" 또는 평균 데이터는 다른 모든 데이터와 관련된 클러스터 중심의 지점을 나타냅니다. 데이터 분석을 통해 이러한 클러스터를 사용하여 패턴을 찾고 평범하지 않은 것으로 밝혀진 데이터에 대해 추론할 수 있습니다. 

격리 포리스트: 이러한 유형의 이상 탐지 알고리즘은 비지도 데이터를 사용합니다. 레이블이 지정된 정상 데이터 포인트에서 작동하는 감독된 이상 탐지 기술과 달리 이 기술은 첫 번째 단계로 이상을 격리하려고 시도합니다. “와 유사하다랜덤 포레스트”를 사용하면 데이터 포인트를 매핑하고 분석할 영역을 무작위로 선택하는 “의사결정 트리”가 생성됩니다. 이 프로세스가 반복되고 각 포인트는 다른 포인트와의 위치를 ​​기준으로 0에서 1 사이의 이상 점수를 받습니다. 5 미만의 값은 일반적으로 정상으로 간주되는 반면, 해당 임계값을 초과하는 값은 비정상일 가능성이 더 높습니다. 격리 포리스트 모델은 Python용 무료 기계 학습 라이브러리에서 찾을 수 있습니다. 사이 킷 학습.

단일 클래스 지원 벡터 머신(SVM): 이 이상 탐지 기술은 훈련 데이터를 사용하여 정상으로 간주되는 것 주위에 경계를 만듭니다. 설정된 경계 내의 클러스터된 포인트는 정상으로 간주되고 외부의 포인트는 이상으로 표시됩니다.

준지도 학습

준지도 이상 징후 탐지 방법은 이전 두 가지 방법의 이점을 결합합니다. 엔지니어는 비지도 학습 방법을 적용하여 기능 학습을 자동화하고 구조화되지 않은 데이터로 작업할 수 있습니다. 그러나 이를 인간 감독과 결합함으로써 모델이 어떤 종류의 패턴을 학습하는지 모니터링하고 제어할 수 있는 기회를 갖게 됩니다. 이는 일반적으로 모델의 예측을 더 정확하게 만드는 데 도움이 됩니다.

선형 회귀: 이 예측 기계 학습 도구는 종속 변수와 독립 변수를 모두 사용합니다. 독립변수는 일련의 통계방정식을 통해 종속변수의 값을 결정하는 기초로 사용됩니다. 이러한 방정식은 정보 중 일부만 알려진 경우 레이블이 지정된 데이터와 레이블이 없는 데이터를 사용하여 향후 결과를 예측합니다.

이상 탐지 사용 사례

이상 탐지는 다양한 산업 전반에 걸쳐 비즈니스 기능을 유지하는 데 중요한 도구입니다. 지도 학습, 비지도 학습, 준지도 학습 알고리즘의 사용은 수집되는 데이터 유형과 해결하려는 운영 문제에 따라 달라집니다. 이상 탐지 사용 사례의 예는 다음과 같습니다. 

지도 학습 사용 사례:

소매

전년도 총 판매액에서 레이블이 지정된 데이터를 사용하면 향후 판매 목표를 예측하는 데 도움이 될 수 있습니다. 또한 과거 성과와 전반적인 회사 요구 사항을 기반으로 특정 영업 직원에 대한 벤치마크를 설정하는 데 도움이 될 수 있습니다. 모든 판매 데이터가 알려져 있으므로 패턴을 분석하여 제품, 마케팅 및 계절성에 대한 통찰력을 얻을 수 있습니다.

일기 예보

지도 학습 알고리즘은 과거 데이터를 사용하여 날씨 패턴을 예측하는 데 도움을 줄 수 있습니다. 기압, 온도 및 풍속과 관련된 최근 데이터를 분석하면 기상학자는 변화하는 조건을 고려하여 보다 정확한 예측을 생성할 수 있습니다.

비지도 학습 사용 사례:

침입 탐지 시스템

이러한 유형의 시스템은 네트워크 트래픽을 모니터링하여 보안 위반이나 악의적인 활동의 징후를 확인하는 소프트웨어 또는 하드웨어 형태로 제공됩니다. 기계 학습 알고리즘을 훈련하여 네트워크에 대한 잠재적인 공격을 실시간으로 감지하고 사용자 정보와 시스템 기능을 보호할 수 있습니다.

이러한 알고리즘은 시계열 데이터를 기반으로 정상적인 성능을 시각화하여 장기간 설정된 간격으로 데이터 포인트를 분석할 수 있습니다. 네트워크 트래픽의 급증이나 예상치 못한 패턴은 잠재적인 보안 위반으로 표시되고 검사될 수 있습니다.

제조

기계가 제대로 작동하는지 확인하는 것은 제품 제조, 품질 보증 최적화 및 공급망 유지에 매우 중요합니다. 비지도 학습 알고리즘은 장비에 부착된 센서에서 레이블이 지정되지 않은 데이터를 가져와 잠재적인 오류나 오작동에 대해 예측함으로써 예측 유지 관리에 사용할 수 있습니다. 이를 통해 기업은 심각한 고장이 발생하기 전에 수리를 수행하여 기계 가동 중지 시간을 줄일 수 있습니다.

준지도 학습 사용 사례:

의료

의료 전문가는 기계 학습 알고리즘을 사용하여 알려진 질병이나 장애가 포함된 이미지에 라벨을 붙일 수 있습니다. 그러나 이미지는 사람마다 다르기 때문에 우려할 만한 잠재적인 원인을 모두 분류하는 것은 불가능합니다. 일단 학습되면 이러한 알고리즘은 환자 정보를 처리하고 레이블이 지정되지 않은 이미지에서 추론을 수행하며 잠재적인 우려 이유를 표시할 수 있습니다.

사기 감지

예측 알고리즘은 사기를 탐지하기 위해 레이블이 지정된 데이터와 레이블이 없는 데이터가 모두 필요한 준지도 학습을 사용할 수 있습니다. 사용자의 신용 카드 활동에는 라벨이 지정되므로 비정상적인 지출 패턴을 감지하는 데 사용할 수 있습니다.

그러나 사기 탐지 솔루션은 이전에 사기로 분류된 거래에만 의존하지 않습니다. 또한 현재 위치, 로그인 장치 및 레이블이 지정되지 않은 데이터가 필요한 기타 요소를 포함한 사용자 행동을 기반으로 가정을 할 수도 있습니다.

이상 탐지의 관찰 가능성

이상 탐지는 성능 데이터에 대한 더 큰 관찰 가능성을 제공하는 솔루션과 도구를 통해 구동됩니다. 이러한 도구를 사용하면 이상 현상을 빠르게 식별하여 문제를 예방하고 해결하는 데 도움이 됩니다. IBM® Instana™ Observability는 인공 지능과 기계 학습을 활용하여 모든 팀 구성원에게 성능 데이터에 대한 상세하고 상황에 맞는 그림을 제공하여 오류를 정확하게 예측하고 사전에 문제를 해결하도록 돕습니다.

IBM watsonx.ai™는 대규모 데이터 세트를 분석하여 의미 있는 통찰력을 추출할 수 있는 강력한 생성 AI 도구를 제공합니다. 빠르고 포괄적인 분석을 통해 IBM watson.ai는 현재 이상 현상을 감지하고 미래 이상값을 예측하는 데 사용할 수 있는 패턴과 추세를 식별할 수 있습니다. Watson.ai는 다양한 비즈니스 요구에 따라 산업 전반에 걸쳐 사용될 수 있습니다.

IBM Instana 관찰 가능성 살펴보기

IBM watsonx.ai 살펴보기


자동화에서 더 많은 것




중국에서 Global Anycast DNS를 사용하면 안되는 이유

3 분 읽기 - 애니캐스트는 모든 권한 있는 DNS 서비스의 표준 테이블 스테이크 기능입니다. 타당합니다. 인바운드 쿼리는 항상 사용 가능한 최상의 서버, 즉 일반적으로 지리적으로 가장 가까운 서버로 라우팅되어야 합니다. 그러나 한 가지 눈에 띄는 예외가 있습니다. 바로 중국입니다. 중국 본토의 인터넷은 나머지 세계와 차단되어 있습니다. 중국 본토로 들어오거나 나가는 모든 DNS 쿼리는 해결을 위해 전달되기 전에 일련의 필터와 기타 제어 장치를 통과해야 합니다.…




DNS Insights로 네트워크 문제 해결

4 분 읽기 - DNS 데이터를 사용하여 네트워크에 문제가 있는지 확인하는 것은 비교적 간단합니다. NXDOMAIN 응답이나 기타 오류의 급증은 일반적으로 무언가 잘못되었다는 명확한 표시로 사용됩니다. 문제의 원인을 진단하고 실제로 해당 오류에 대해 조치를 취하는 다음 단계는 더 무거운 작업인 경우가 많습니다. 데이터 문제입니다. 그만한 가치가 있는 권위 있는 DNS 제공업체는 귀하가 받고 있는 NXDOMAIN 응답 수를 보여줍니다. 그러나…




NS1 트래픽 조정으로 애플리케이션 성능을 최적화하는 방법

2 분 읽기 - "지금 갖고 싶어!" - 이것은 버릇없는 아이들이 부르는 단순한 문구가 아닙니다. 링크를 클릭하거나 비디오 콘텐츠를 스트리밍하거나 온라인 애플리케이션에 액세스할 때마다 우리가 요구하는 것입니다. 인터넷 트래픽의 양과 복잡성이 증가함에 따라 우리가 사용하는 서비스와 콘텐츠의 더 빠른 응답 시간에 대한 기대도 높아지고 있습니다. 즉각적인 결과가 제공되지 않으면 클릭하는 경우가 많습니다. 애플리케이션과 서비스를 제공하는 기업의 경우 "지금"이라는 절박함이 물류상의 골칫거리입니다. 인터넷 트래픽은 서로 다른 방향으로 이동해야 합니다…




Rum 데이터란 무엇이며 왜 중요한가요?

3 분 읽기 - RUM 데이터란 무엇입니까? 생각과는 달리 RUM 데이터는 Captain Morgan, 쿠바 관광 또는 디즈니 영화 프랜차이즈에 대한 성과 지표가 아닙니다. RUM(Real User Monitoring) 데이터는 사람들이 온라인 애플리케이션 및 서비스와 상호 작용하는 방식에 대한 정보입니다. 사용자가 온라인에서 무엇을 경험하는지에 대한 상시 실시간 설문조사라고 생각하세요. RUM 데이터는 온라인 애플리케이션 및 서비스의 성능을 최적화하는 데 중요한 구성 요소입니다. 사용자가 어디로 가는지 정보를 분석하여…

IBM 뉴스레터

새로운 트렌드에 대한 최신 사고 리더십과 통찰력을 제공하는 뉴스레터와 주제 업데이트를 받아보세요.

지금 가입

더 많은 뉴스 레터

spot_img

최신 인텔리전스

spot_img