제퍼넷 로고

DataHour 개요: AI를 사용한 텍스트 기반 분류

시간

AI를 활용한 텍스트 기반 분류 개요

Analytics Vidhya는 오랫동안 커뮤니티에 데이터 과학 지식을 전달하는 데 앞장서 왔습니다. 데이터 과학 학습을 커뮤니티에 더욱 적극적으로 참여시키려는 의도로 우리는 다음과 같은 새로운 이니셔티브로 시작했습니다.데이터 시간".

DataHour는 업계 최고의 전문가들이 데이터 과학 지식을 가르치고 대중화하는 웹 세미나 시리즈입니다. 23년 2022월 XNUMX일에 우리는 다음과 같이 합류했습니다. 미스 리아 나그 DataHour 세션의 경우 “인공지능, AI를 활용한 텍스트 기반 분류” 

Ria는 데이터 과학 및 기계 학습 분야의 리더이자 멘토입니다. 그녀는 지난 XNUMX년 동안 Oracle에서 데이터 과학자로 일하면서 엔드투엔드 개발 개발과 Oracle Construction Intelligent Cloud Services 출시를 주도해 왔습니다. 오라클 건설 지능형 클라우드 서비스 엔지니어링 및 건설 업계에서 정보에 입각한 프로젝트 결정을 내릴 수 있도록 지원하는 새로운 인공 지능, AI 및 분석 애플리케이션 제품군입니다. 그녀는 기계 학습 및 NLP 분야에서 여러 개의 미국 특허를 보유하고 있습니다. 그녀는 AnalyticsIndia Magazine under 40 데이터 과학자 상을 수상했습니다.

세션 녹음은 다음과 같습니다. 

[포함 된 콘텐츠]

인공지능의 세계를 더 깊이 탐구하고 싶으신가요? 우리는 당신을 보호했습니다. 이번 세션의 주요 하이라이트는 다음과 같습니다. 인공지능을 활용한 텍스트 기반 분류. 

개요

인공 지능에 관한 텍스트 기반 분류 세션에서는 다음 내용에 중점을 둡니다.

  • 텍스트 기반 분류란 무엇입니까(그것도 AI를 사용함)?
  • 이 방법론(텍스트 기반 분류)을 사용할 실제 사용 사례입니다.

먼저 텍스트 분류를 살펴보겠습니다.

텍스트 분류 개방형 텍스트에 사전 정의된 범주 세트를 할당하는 기계 학습 기술입니다. 감정 분석, 주제 라벨링, 스팸 탐지, 의도 탐지 등 광범위한 응용 분야를 갖춘 자연어 처리(NLP)의 기본 작업 중 하나입니다. 모든 개방형 텍스트/입력은 텍스트 분류 모델에 제공되며, 모델은 특정 카테고리로 텍스트에 레이블을 지정한 다음 모든 텍스트와 연관된 다양한 카테고리의 출력으로 UI(사용자 인터페이스)에 표시됩니다.

다음 학습 내용은 다음과 같습니다.

텍스트 분류에 AI를 사용하는 이유는 무엇입니까?

수동 분류는 사람이 텍스트의 모든 기록을 살펴보고 텍스트에 할당할 레이블이나 범주를 이해해야 하는 시간과 비용이 많이 듭니다. 따라서 장기적으로 보면 비용이 매우 많이 듭니다. 또한 확장성이 없습니다.

반면, AI 기반 분류는 확장 가능하고 일관되며 빠릅니다. 따라서 텍스트 분류에는 이 방법을 더 선호합니다.

AI 기반 텍스트 분류에는 세 가지 유형이 있습니다.

  • 규칙 기반 시스템 
  • 머신 러닝 기반 시스템  
  • 하이브리드 시스템 

규칙 기반 시스템: 알고리즘이 개방형 텍스트를 특정 카테고리 또는 라벨로 분류하는 규칙 세트가 있습니다.

머신 러닝 기반 시스템: 여기서 분류자는 레이블이 지정된 데이터 세트에 대해 훈련됩니다. 이 분류자를 구축해야 하며, 그러면 이 분류자가 모든 텍스트 레코드에 레이블을 지정합니다.

하이브리드 시스템: 규칙 기반 시스템과 머신러닝 기반 시스템을 결합한 시스템입니다.

분류기 훈련을 위한 인기 있는 데이터 세트

분류기를 훈련하기 위해 고려해야 할 몇 가지 데이터 세트가 있으며 다음과 같습니다.

(A) 주제 분류: 분류자는 모든 레코드에 특정 주제를 할당합니다. 여기에서 다음을 사용할 수 있습니다. 

  • Reuters 뉴스 데이터세트: 이는 아마도 텍스트 분류에 가장 널리 사용되는 데이터세트 중 하나일 것입니다. 여기에는 정치, 경제, 스포츠, 비즈니스 등 주제에 따라 21,578개 카테고리로 분류된 로이터 통신의 뉴스 기사 135개가 포함되어 있습니다.  
  • 20개의 뉴스그룹: 20,000개의 다양한 주제에 걸쳐 최대 20개의 문서로 구성된 또 다른 인기 데이터 세트입니다. 

(B) 감정 분석: 여기서는 감정이나 별표 분석을 위한 분류자를 구축합니다. 이를 위해 다음을 사용할 수 있습니다.

  • Amazon 제품 리뷰: 143년 1월부터 5년 1996월까지 약 2014억 XNUMX만 개의 리뷰와 별점(별 XNUMX~XNUMX개)이 포함된 잘 알려진 데이터세트입니다. 여기에서 Amazon 제품 리뷰에 대한 대체 데이터세트를 얻을 수 있습니다. 
  • IMDB 리뷰: 인터넷 영화 데이터베이스(IMDB)에서 긍정적 및 부정적으로 분류된 25,000개의 영화 리뷰가 포함된 훨씬 작은 데이터세트입니다.

머신러닝에 가장 널리 사용되는 프로그래밍 언어는 무엇입니까?

이들은 다음과 같습니다

  • Python: Scikit-learn, NLTK, Spacy 및 딥 러닝 라이브러리(예: Keras, TensorFlow 및 PyTorch)와 같은 몇 가지 라이브러리가 있으며, 이러한 라이브러리는 다양한 카테고리에 대해 텍스트를 분류하는 분류기를 구축하는 데 널리 사용됩니다.
  • R: ML에 사용되는 또 다른 프로그래밍 언어입니다. 이 언어에서 가장 많이 사용되는 라이브러리는 캐럿 라이브러리 text-to-work 등입니다.
  • 자바: 일부 ML 전문가도 이 언어를 사용합니다.

분류자를 구축하는 데 어떤 언어를 사용할지는 전적으로 귀하에게 달려 있습니다. 

사용 사례

건설 산업의 건강 및 안전 위험을 식별하기 위한 ML 적용

참고: (Lattice Journal)에서 이 사례 연구를 살펴볼 수 있습니다. 이 저널의 링크는 다음과 같습니다 래티스 데이터 과학자 협회

초점이나 문제 설명 여기 있습니다:

건설 산업에서 발생하는 건강 및 안전 문제와 사고는 다음과 같은 결과를 초래합니다.

  •  예산 및 비용 초과
  •  프로젝트 납품 일정 지연 
  •  노동자, 조직, 사회, 국가에 해를 끼친다.

따라서 나중에 심각한 사고가 발생할 위험을 줄이려면 초기 단계에서 이러한 문제를 완화하는 것이 중요합니다. 이를 위해 우리는 개방형 텍스트 데이터와 관련하여 건강 및 안전 문제가 발생할 경우 이를 식별할 수 있는 솔루션을 개발하려고 노력할 것입니다. 우리는 이러한 건강 및 안전 문제를 첫 번째 인스턴스 자체에서 감지하여 결과적으로 향후 대형 사고 가능성을 줄이는 분류기를 구축하려고 노력할 것입니다.

해법 같은 내용은 다음과 같이 요약될 수 있습니다.

  • 이를 위해 NLP 기반의 최첨단 머신러닝(ML) 모델을 적용하여 텍스트로 작성된 건설 상해 보고서의 텍스트 데이터와 건설 프로젝트 참여자 간의 서신 데이터를 분류했습니다. 
  • 건강 및 안전 위험 감지 하위 시스템은 텍스트 데이터가 (임박한) 위험과 연관되어 있는지 여부를 매우 정확하게 예측할 수 있습니다.

접근 방식은 다음과 같습니다 사용 사례에서:

크리스프-DM (데이터 관리를 위한 산업간 표준 관행)

  •  학습 및 테스트를 위한 레이블이 지정된 텍스트 데이터 세트 준비 
  •  데이터 준비 및 정리
  •  모델 구축 
  •  모델 평가

출처: Ria Naag 씨의 프레젠테이션 

참고: 이는 사례별 연구이므로 다양한 분류자에 대해 다양한 종류의 평가 지표를 사용해야 합니다. 

유스케이스에 사용된 방법:

데이터 준비

  • 여기에는 40,000개 이상의 건강 및 안전 위험 관련 레이블이 지정된 데이터 세트가 있으며 약 6,000개의 비위험 관련 텍스트 데이터 세트를 준비합니다. 
  • 중지 단어, 구두점, 숫자 및 HTML 태그를 제거하여 각 레코드의 대응 텍스트를 정리하고 모든 단어는 모두 소문자로 구성된 루트 단어에서 유래합니다.
  • 우리는 다음을 사용하여 각 대응을 7k 특징의 벡터 크기로 벡터화할 것입니다. Gensim의 Python Doc2Vec 각 행은 고유한 대응 관계를 나타내고 각 열은 벡터 공간의 특징을 나타내는 문서 임베딩 행렬입니다. 이렇게 하는 이유는 서로 매우 가까운 텍스트 데이터가 벡터 공간에서 가깝게 나타나기 때문입니다. 반대로 서로 유사하지 않거나 가깝지 않은 텍스트 데이터는 벡터 공간에서 서로 분리되어 나타납니다.

주의 사항: 데이터를 분류기에 직접 공급할 수 없기 때문에 데이터를 벡터화해야 합니다. 이를 숫자 데이터 세트로 변환해야 합니다. 동일한 작업을 수행하는 방법에는 두 가지가 있습니다.

  1. 주파수 역 문서 주파수 행렬 회전
  2. 문서 삽입(여기서는 이것을 사용했습니다)

교육 및 테스트: 여기서는 훈련용으로 90%, 테스트용으로 10%를 설정했으며 클래스는 훈련 및 테스트 데이터세트와 동일한 비율입니다. 우리는 Scaled document embedding 행렬인 훈련된 데이터 세트를 기반으로 세 가지 기계 학습(ML) 모델을 개발했습니다. 이는 모든 기능이 동일한 규모가 되도록 모든 기능을 확장하는 데 필요하며, 규모의 차이로 인해 어떤 기능도 최종 제품에 차별적인 영향을 미치지 않도록 하는 데 필요합니다.

XNUMXD덴탈의 확장된 문서 임베딩 매트릭스 3개의 기본 분류기를 구축하는 데 사용되었습니다.

  • L1 정규화를 사용한 로지스틱 회귀: L1 정규화는 기여도가 낮은 변수의 계수를 XNUMX으로 축소하므로 자동 기능 선택을 수행합니다.
  • Xgboost를 이용한 그래디언트 부스팅 알고리즘.
  • 랜덤 포레스트 분류기: 지니 지수 또는 엔트로피에 큰 변화를 일으키는 기능만 사용합니다.

앙상블 다수 투표 분류:

이것은 우리가 XNUMX개의 기본 분류기(최근 논의됨)를 통해 구성할 앙상블 분류기이며 이러한 모든 기본 분류기는 편향과 중복을 피하기 위해 서로 다른 이론적 배경을 가지고 있습니다. 앙상블 모델은 각 기본 분류기 다수 투표를 기반으로 모델에 건강 및 안전 문제가 관련되어 있는지 여부를 예측합니다.

앙상블 모델은 세 가지 기본 분류자 중 두 가지가 레코드를 건강 및 안전 위험으로 분류하는 경우 txt 레코드가 위험할 것으로 예측합니다.  

결과

텍스트 기반 분류를 사용하여 설명된 사용 사례 요약| 일체 포함
출처: Ria Naag 씨의 프레젠테이션

최고의 앙상블 모델을 배포한 후 고객은 예측을 사용할 수 있습니다. 이는 대시보드, 경고, 권장 사항 등의 형태로 제공됩니다. 이는 특정 기간에 과거에 있었던 모든 위험을 설명합니다. 이제 모델 예측에 동의할지 여부는 고객에게 달려 있습니다. 고객이 사례 이해에 따라 태그를 추가하거나 그 반대로 태그를 추가하는 새로운 라벨 세트를 생성합니다. 시스템에 피드백 루프를 생성하는 검사가 있습니다. 결과적으로 최상의 예측/결과에 도달할 때까지 모든 변경 사항이 다시 업데이트됩니다.

AI 사용에 대한 향후 사례 요구 사항:

  • 각 건강 및 안전 위험 메일을 위험 강도에 따라 높음, 중간, 낮음으로 분류합니다. 예를 들어 갑작스런 화재.
  • 또한 NLP 기반 최첨단 머신러닝(ML) 모델을 사용하여 건설 산업과 관련된 다른 유형의 위험을 식별하는 분류자를 개발하고 싶습니다. 

텍스트 분류에 AI를 사용하는 것에 대한 결론

텍스트 기반 분류가 무엇인지, 텍스트 분류에 AI를 활용하는 방법에 대해 충분히 이해하셨기를 바랍니다. 그런 다음 사용 사례를 통해 개념이 더욱 명확하고 단순해졌습니다. 이해하신 대로 실시간으로 추가 적용해 보세요.

거기에서 만나자.

spot_img

최신 인텔리전스

spot_img

라이프사이VC

VC 카페

VC 카페

라이프사이VC