제퍼넷 로고

언어 모델을 이용한 문서 자동 요약 기술 | 아마존 웹 서비스

시간

요약은 상당한 양의 정보를 간결하고 의미 있는 형태로 압축하는 기술로, 정보가 풍부한 시대에 효율적인 의사소통의 초석이 됩니다. 데이터가 가득한 세상에서 긴 텍스트를 간단한 요약으로 요약하면 시간이 절약되고 정보에 입각한 결정을 내리는 데 도움이 됩니다. 요약은 정보를 간결하고 일관되게 제시하여 내용을 압축하고 시간을 절약하며 명확성을 향상시킵니다. 요약은 의사 결정과 대용량 콘텐츠 관리에 매우 중요합니다.

요약 방법에는 다음과 같은 다양한 목적을 제공하는 광범위한 응용 프로그램이 있습니다.

  • 뉴스 집계 - 뉴스 집계 뉴스 기사를 미디어 산업을 위한 뉴스레터로 요약하는 작업이 포함됩니다.
  • 법률 문서 요약 - 법률 문서 요약 법률 전문가가 이용 약관, 계약서 등의 긴 문서에서 주요 법률 정보를 추출하는 데 도움이 됩니다.
  • 학술 연구 – 요약은 학술 논문의 중요한 정보에 주석을 달고, 색인화하고, 압축하고, 단순화합니다.
  • 블로그 및 웹사이트를 위한 콘텐츠 큐레이션 – 특히 마케팅 분야에서 독자를 위한 흥미롭고 독창적인 콘텐츠 요약을 만들 수 있습니다.
  • 재무 보고서 및 시장 분석 – 추출할 수 있습니다 재정적 인사이트 금융 업계의 투자자 프레젠테이션을 위한 보고서를 작성하고 요약본을 작성합니다.

자연어 처리(NLP), 언어 모델, 생성 AI의 발전으로 다양한 길이의 텍스트를 요약하는 것이 더욱 쉬워졌습니다. 다음과 같은 도구 랭체인, LLM(대형 언어 모델)과 결합 아마존 기반암 or Amazon SageMaker 점프스타트, 구현 프로세스를 단순화합니다.

이 게시물에서는 다음과 같은 요약 기술을 살펴봅니다.

  • BERT 추출 요약기를 사용한 추출 요약
  • 특수 요약 모델 및 LLM을 사용한 추상 요약
  • 두 가지 다단계 요약 기술:
    • 추출-추상 콘텐츠 요약 전략(EACSS)을 사용한 추출-추상 요약
    • Map Reduce 및 Map ReRank를 사용한 추상-추상 요약

텍스트 요약 기법

전체 코드 샘플은 다음에서 찾을 수 있습니다. GitHub 레포. 당신은 할 수 있습니다 이 솔루션을 실행하세요 in 아마존 세이지 메이커 스튜디오.

여기를 클릭하여 AWS 콘솔을 열고 따라해 보세요.

요약 유형

텍스트를 요약하는 데는 여러 가지 기술이 있으며, 이는 크게 두 가지 주요 접근 방식으로 분류됩니다. 추출물추상적인 요약. 또한 다단계 요약 방법론에는 추출 기술과 추상 기술을 결합하는 일련의 단계가 포함되어 있습니다. 이러한 다단계 접근 방식은 LLM의 한계보다 긴 토큰이 포함된 텍스트를 처리할 때 유리하며 복잡한 내러티브를 이해할 수 있습니다.

추출적 요약

추출적 요약은 NLP 및 텍스트 분석에서 핵심 문장을 추출하여 요약을 작성하는 데 사용되는 기술입니다. 추출적 요약에서는 추상적인 요약처럼 새로운 문장이나 내용을 생성하는 대신 원본 텍스트에서 가장 관련성이 높고 유익한 부분을 식별하고 추출하여 압축된 버전을 만드는 데 의존합니다.

추출적 요약은 원본 내용을 보존하고 원본 텍스트에서 중요한 문장을 직접 뽑아 가독성을 높이는 장점이 있지만 한계가 있습니다. 창의성이 부족하고, 새로운 문장을 생성할 수 없으며, 미묘한 세부 사항을 간과하여 중요한 정보를 놓칠 수 있습니다. 더욱이, 긴 요약을 생성할 수 있으며 때로는 과도하고 원치 않는 정보로 독자를 압도할 수도 있습니다. 다음과 같은 추출적 요약 기술이 많이 있습니다. 텍스트랭크렉스랭크. 이번 포스팅에서는 BERT 추출 요약기에 초점을 맞췄습니다.

BERT 추출 요약기

XNUMXD덴탈의 BERT 추출 요약기 BERT 언어 모델을 사용하여 텍스트에서 가장 중요한 문장을 추출하는 일종의 추출 요약 모델입니다. BERT 텍스트 요약을 포함한 다양한 작업에 맞게 미세 조정할 수 있는 사전 훈련된 언어 모델입니다. 먼저 BERT를 사용하여 텍스트에 문장을 삽입하는 방식으로 작동합니다. 이는 각 문장의 의미와 맥락을 포착하는 벡터 표현을 생성합니다. 그런 다음 모델은 클러스터링 알고리즘을 사용하여 문장을 클러스터로 그룹화합니다. 각 클러스터의 중심에 가장 가까운 문장을 선택하여 요약을 구성합니다.

LLM과 비교할 때 BERT 추출 요약기의 장점은 모델을 훈련하고 배포하는 것이 상대적으로 간단하고 설명이 더 쉽다는 것입니다. 단점은 요약이 창의적이지 않고 문장을 생성하지 않는다는 것입니다. 원문에서 문장만 선택합니다. 이로 인해 복잡하거나 미묘한 텍스트를 요약하는 능력이 제한됩니다.

추상적 요약

추상 요약은 NLP 및 텍스트 분석에서 단순히 소스 텍스트에서 문장이나 구를 추출하는 것 이상의 요약을 생성하는 데 사용되는 기술입니다. 추상적인 요약은 기존 콘텐츠를 선택하고 재구성하는 대신 원본 텍스트의 핵심 의미와 주요 아이디어를 보다 압축되고 일관된 형태로 포착하는 새로운 문장이나 구를 생성합니다. 이 접근 방식을 사용하려면 모델이 텍스트의 내용을 이해하고 원본 자료에 반드시 존재하지 않는 방식으로 이를 표현해야 합니다.

전문화된 요약 모델

이러한 사전 훈련된 자연어 모델은 다음과 같습니다. 바트페가수스는 텍스트 요약 작업에 맞게 특별히 맞춤화되었습니다. 인코더-디코더 아키텍처를 사용하며 해당 제품에 비해 매개변수가 더 작습니다. 이렇게 크기가 줄어들면 더 작은 인스턴스에서 쉽게 미세 조정하고 배포할 수 있습니다. 그러나 이러한 요약 모델에는 더 작은 입력 및 출력 토큰 크기도 함께 제공된다는 점에 유의하는 것이 중요합니다. 보다 일반적인 용도의 모델과 달리 이러한 모델은 요약 작업용으로만 설계되었습니다. 결과적으로 이러한 모델에 필요한 입력은 요약해야 하는 텍스트뿐입니다.

큰 언어 모델

A 대형 언어 모델 일반적으로 대규모의 자기 지도 학습을 통해 광범위하고 다양한 데이터 세트에 대한 교육을 거치고 광범위한 특정 다운스트림 작업에 맞게 미세 조정할 수 있는 모든 모델을 의미합니다. 이러한 모델은 매개변수 크기가 더 크고 작업 성능이 더 좋습니다. 특히, 입력 토큰 크기가 훨씬 더 큽니다. 100,000까지, Anthropic과 같은 클로드. 이러한 모델 중 하나를 사용하기 위해 AWS는 완전관리형 서비스인 Amazon Bedrock을 제공합니다. 모델 개발 수명 주기를 더 효과적으로 제어해야 하는 경우 SageMaker를 통해 LLM을 배포할 수 있습니다.

다재다능한 특성을 고려할 때 이러한 모델에는 입력 텍스트를 통해 제공되는 특정 작업 지침이 필요합니다. 신속한 엔지니어링. 이 창의적인 프로세스는 모델 유형과 입력 텍스트에 따라 다양한 결과를 낳습니다. 모델 성능과 프롬프트 품질의 효율성은 모델 출력의 최종 품질에 큰 영향을 미칩니다. 엔지니어링에서 요약을 요구할 때 다음은 몇 가지 팁입니다.

  • 요약할 텍스트를 포함하세요. – 요약해야 할 텍스트를 입력합니다. 이는 요약의 원본 자료로 사용됩니다.
  • 작업 정의 – 목표가 텍스트 요약임을 분명히 명시합니다. 예: "다음 텍스트를 요약하세요: [입력 텍스트]."
  • 컨텍스트 제공 – 요약해야 하는 해당 텍스트에 대한 간략한 소개나 맥락을 제공합니다. 이는 모델이 내용과 맥락을 이해하는 데 도움이 됩니다. 예를 들어, "인공 지능과 의료 분야에서의 역할에 대한 다음 기사가 제공됩니다: [입력 텍스트]."
  • 요약 요청 – 제공된 텍스트의 요약을 생성하도록 모델에 프롬프트를 표시합니다. 원하는 요약 길이나 형식을 명확히 하세요. 예를 들어, "인공 지능과 의료 분야에서의 역할에 관한 해당 기사에 대한 간결한 요약을 생성하십시오: [입력 텍스트]."
  • 제약 조건 또는 길이 지침 설정 – 선택적으로 원하는 단어 수, 문장 수 또는 문자 제한을 지정하여 요약 길이를 안내합니다. 예를 들어, "50단어 이하의 요약을 생성하십시오: [입력 텍스트]."

생성된 요약이 정확하고 관련성이 있으며 의도한 요약 작업과 일치하는지 확인하려면 효과적인 프롬프트 엔지니어링이 중요합니다. 실험과 반복을 통해 최적의 요약 결과를 얻으려면 프롬프트를 개선하세요. 프롬프트의 효율성을 확립한 후에는 다음을 사용하여 프롬프트를 재사용할 수 있습니다. 프롬프트 템플릿.

다단계 요약

추출적이고 추상적인 요약은 짧은 텍스트에 유용합니다. 그러나 입력 텍스트가 모델의 최대 토큰 한도를 초과하면 다단계 요약이 필요해집니다. 다단계 요약에는 여러 계층의 요약 프로세스를 적용하여 긴 텍스트를 효과적으로 압축하기 위해 추출 및 추상 방법과 같은 다양한 요약 기술의 조합이 포함됩니다. 이 섹션에서는 추출-추상 요약과 추상-추상 요약이라는 두 가지 다단계 요약 기술에 대해 설명합니다.

추출-추상 요약

추출-추상 요약은 먼저 텍스트의 추출 요약을 생성하여 작동합니다. 그런 다음 추상적인 요약 시스템을 사용하여 추출된 요약을 구체화하여 더욱 간결하고 유익하게 만듭니다. 이는 추출 방법만 사용했을 때보다 더 많은 정보를 제공하는 요약을 제공하여 정확성을 향상시킵니다.

추출-추상 콘텐츠 요약 전략

EACSS 기술은 다음 다이어그램에 설명된 것처럼 추출 단계를 위한 BERT 추출 요약기와 추상 단계를 위한 LLM이라는 두 가지 강력한 기술의 장점을 결합합니다.

추출적 추상 텍스트 요약

EACSS는 중요한 정보 보존, 향상된 가독성 및 적응성을 포함하여 여러 가지 이점을 제공합니다. 그러나 EACSS를 구현하는 것은 계산 비용이 많이 들고 복잡합니다. 잠재적인 정보 손실 위험이 있으며 요약 품질은 기본 모델의 성능에 크게 좌우되므로 최적의 결과를 얻으려면 신중한 모델 선택과 조정이 필수적입니다. 구현에는 다음 단계가 포함됩니다.

  1. 첫 번째 단계는 책과 같은 큰 문서를 더 작은 섹션으로 나누는 것입니다. 덩어리. 이러한 덩어리는 요약에 필요한 세분성에 따라 문장, 단락 또는 장으로 정의됩니다.
  2. 추출 단계에서는 BERT 추출 요약기를 사용합니다. 이 구성 요소는 각 청크 내에 문장을 삽입한 다음 클러스터링 알고리즘을 사용하여 클러스터의 중심에 가장 가까운 문장을 식별하는 방식으로 작동합니다. 이 추출 단계는 각 청크에서 가장 중요하고 관련 있는 콘텐츠를 보존하는 데 도움이 됩니다.
  3. 각 청크에 대한 추출 요약을 생성한 후 추상 요약 단계로 넘어갑니다. 여기에서는 일관되고 상황에 맞게 관련 있는 요약을 생성하는 능력으로 알려진 LLM을 활용합니다. 이러한 모델은 추출된 요약을 입력으로 사용하여 가독성과 일관성을 보장하면서 원본 문서의 본질을 포착하는 추상적인 요약을 생성합니다.

추출적 요약 기술과 추상적 요약 기술을 결합함으로써 이 접근 방식은 책과 같은 긴 문서를 요약하는 효율적이고 포괄적인 방법을 제공합니다. 간결하고 사람이 읽을 수 있는 요약을 생성하는 동시에 중요한 정보가 추출되도록 보장하므로 문서 요약 영역의 다양한 응용 프로그램에 유용한 도구가 됩니다.

추상-추상 요약

추상-추상 요약은 요약을 추출하고 생성하는 데 추상 방법을 사용하는 접근 방식입니다. 향상된 가독성, 일관성, 요약 길이와 세부 사항을 조정할 수 있는 유연성 등 주목할 만한 이점을 제공합니다. 이는 언어 생성에 탁월하여 의역을 허용하고 중복을 방지합니다. 그러나 단점이 있습니다. 예를 들어, 계산 비용이 많이 들고 리소스 집약적이며 품질은 기본 모델의 효율성에 크게 좌우됩니다. 기본 모델이 잘 훈련되지 않거나 다재다능하지 않으면 생성된 요약의 품질에 영향을 미칠 수 있습니다. 모델 선택은 이러한 문제를 완화하고 고품질 추상 요약을 보장하는 데 중요합니다. 추상-추상 요약을 위해 Map Reduce와 Map ReRank라는 두 가지 전략을 논의합니다.

LangChain을 사용하여 지도 축소

이 XNUMX단계 프로세스는 다음으로 구성됩니다. Map 단계와 Reduce 단계, 다음 다이어그램에 설명된 대로. 이 기술을 사용하면 모델의 입력 토큰 제한보다 긴 입력을 요약할 수 있습니다.

추상적인 텍스트 요약 맵리듀스

이 프로세스는 세 가지 주요 단계로 구성됩니다.

  1. 말뭉치는 LLM의 토큰 제한에 맞는 작은 덩어리로 분할됩니다.
  2. Map 단계를 사용하여 각 구절에서 중요한 정보를 모두 추출하는 LLM 체인을 개별적으로 적용하고 그 출력을 새로운 구절로 사용합니다. 말뭉치의 크기와 구조에 따라 이는 포괄적인 주제 또는 짧은 요약의 형태일 수 있습니다.
  3. Reduce 단계는 Map 단계 또는 Reduce 단계의 출력 경로를 결합하여 토큰 제한에 맞고 LLM에 공급합니다. 이 과정은 최종 출력이 단일 구절이 될 때까지 반복됩니다.

이 기술을 사용하면 확장성과 병렬화가 가능하다는 장점이 있습니다. 각 단계의 모든 처리는 서로 독립적이므로 분산 시스템 또는 서버리스 서비스를 활용하고 컴퓨팅 시간을 단축합니다.

LangChain을 사용하여 ReRank 매핑

이 체인은 작업 완료를 시도할 뿐만 아니라 답변이 얼마나 확실한지에 대한 점수를 제공하는 초기 프롬프트를 각 문서에서 실행합니다. 가장 높은 점수를 받은 응답이 반환됩니다.

이 기술은 Map Reduce와 매우 유사하지만 전체 호출 수가 적고 요약 프로세스가 간소화된다는 장점이 있습니다. 그러나 여러 문서의 정보를 병합할 수 없다는 한계가 있습니다. 이러한 제한은 단일 문서에서 단일하고 간단한 답변이 필요한 시나리오에서 가장 효과적이므로 여러 소스가 포함되는 더 복잡하거나 다면적인 정보 검색 작업에는 적합하지 않습니다. 특정 요약 요구 사항에 대한 이 방법의 적합성을 결정하려면 데이터의 맥락과 성격을 신중하게 고려하는 것이 필수적입니다.

Cohere ReRank는 키워드 관련성을 넘어 사용자 쿼리의 의미를 맥락화하는 의미 기반 재순위 시스템을 사용합니다. 벡터 저장소 시스템 및 키워드 기반 검색 엔진과 함께 사용되어 유연성을 제공합니다.

요약 기술 비교

각 요약 기술에는 고유한 장점과 단점이 있습니다.

  • 추출적 요약은 원본 내용을 보존하고 높은 가독성을 보장하지만 창의성이 부족하고 긴 요약이 생성될 수 있습니다.
  • 추상적인 요약은 창의성을 제공하고 간결하고 유창한 요약을 생성하는 반면 의도하지 않은 콘텐츠 수정, 언어 정확성 문제 및 리소스 집약적인 개발의 위험이 따릅니다.
  • 추출-추상 다단계 요약은 대규모 문서를 효과적으로 요약하고 모델의 추출 부분을 미세 조정하는 데 더 나은 유연성을 제공합니다. 그러나 비용이 많이 들고 시간이 많이 걸리며 병렬화가 부족하여 매개변수 조정이 어렵습니다.
  • 추상-추상 다단계 요약은 대용량 문서를 효과적으로 요약하고 가독성과 일관성을 높이는 데에도 탁월합니다. 그러나 계산 비용이 많이 들고 리소스 집약적이며 기본 모델의 효율성에 크게 의존합니다.

이 접근 방식에서 문제를 완화하고 고품질 추상 요약을 보장하려면 신중한 모델 선택이 중요합니다. 다음 표에는 각 요약 유형의 기능이 요약되어 있습니다.

양상 추출 요약 추상적 요약 다단계 요약
창의적이고 흥미로운 요약 생성 아니 가능 가능
원본 콘텐츠 보존 가능 아니 아니
정보 보존과 창의성의 균형 아니 가능 가능
짧고 객관적인 텍스트에 적합(모델의 최대 토큰보다 작은 입력 텍스트 길이) 가능 가능 아니
책과 같은 길고 복잡한 문서에 효과적입니다(모델의 최대 토큰보다 큰 입력 텍스트 길이). 아니 아니 가능
추출과 콘텐츠 생성을 결합합니다. 아니 아니 가능

다단계 요약 기술은 입력 텍스트 길이가 모델의 토큰 제한을 초과하는 길고 복잡한 문서에 적합합니다. 다음 표에서는 이러한 기술을 비교합니다.

기술 장점 단점
EACSS(추출-추상) 중요한 정보를 보존하고 모델의 추출 부분을 미세 조정하는 기능을 제공합니다. 계산 비용이 많이 들고 정보 손실 가능성이 있으며 병렬화가 부족합니다.
맵 축소(추상-추상) 더 적은 컴퓨팅 시간으로 확장성과 병렬화가 가능합니다. 창의적이고 간결한 요약을 생성하는 최고의 기술입니다. 메모리 집약적인 프로세스.
Map ReRank(추상-추상) 의미 기반 순위를 통한 간소화된 요약. 제한된 정보 병합.

텍스트 요약 시 팁

텍스트를 요약할 때 다음 모범 사례를 고려하세요.

  • 총 토큰 크기에 유의하세요. – 모델의 토큰 제한을 초과하는 경우 텍스트를 분할할 준비를 하거나 LLM을 사용할 때 여러 수준의 요약을 사용합니다.
  • 데이터 소스의 유형과 수를 알고 있어야 합니다. – 여러 소스의 정보를 결합하려면 변환, 명확한 구성 및 통합 전략이 필요할 수 있습니다. 랭체인 물건 다양한 데이터 소스에 통합되어 있으며 문서 유형. 이 기술을 사용하면 다양한 문서 및 데이터 소스의 텍스트를 결합하는 프로세스가 단순화됩니다.
  • 모델 전문화에 유의하세요. – 일부 모델은 특정 유형의 콘텐츠에서는 탁월하지만 다른 콘텐츠에서는 어려움을 겪을 수 있습니다. 귀하의 텍스트 영역에 더 적합하도록 미세 조정된 모델이 있을 수 있습니다.
  • 큰 텍스트 본문에는 다단계 요약 사용 – 토큰 제한을 초과하는 텍스트의 경우 다단계 요약 접근 방식을 고려하세요. 높은 수준의 요약으로 시작하여 주요 아이디어를 파악한 다음, 더 자세한 통찰력을 얻기 위해 하위 섹션이나 장을 점진적으로 요약합니다.
  • 주제별로 텍스트 요약 – 이 접근 방식은 논리적 흐름을 유지하고 정보 손실을 줄이는 데 도움이 되며 중요한 정보의 보존을 우선시합니다. LLM을 사용하는 경우 전체 텍스트 대신 특정 주제를 요약하도록 모델을 안내하는 명확하고 구체적인 프롬프트를 작성하세요.

결론

요약은 정보가 풍부한 시대에 중요한 도구로, 광범위한 정보를 간결하고 의미 있는 형태로 효율적으로 추출할 수 있도록 해줍니다. 이는 다양한 영역에서 중추적인 역할을 하며 수많은 이점을 제공합니다. 요약은 긴 문서에서 필수 내용을 신속하게 전달하여 시간을 절약하고, 중요한 정보를 추출하여 의사 결정을 돕고, 교육 및 콘텐츠 큐레이션에 대한 이해도를 높여줍니다.

이 게시물에서는 추출, 추상 및 다단계 접근 방식을 포함한 다양한 요약 기술에 대한 포괄적인 개요를 제공했습니다. LangChain 및 언어 모델과 같은 도구를 사용하면 요약의 힘을 활용하여 의사소통을 간소화하고 의사결정을 개선하며 방대한 정보 저장소의 잠재력을 최대한 활용할 수 있습니다. 이 게시물의 비교표는 프로젝트에 가장 적합한 요약 기술을 식별하는 데 도움이 될 수 있습니다. 또한 게시물에 공유된 팁은 텍스트 요약을 위해 LLM을 실험할 때 반복적인 오류를 방지하는 귀중한 지침 역할을 합니다. 이 실용적인 조언을 통해 얻은 지식을 적용하여 프로젝트에서 성공적이고 효율적인 요약을 보장할 수 있습니다.

참고자료


저자 소개

닉 비소 AWS Professional Services의 기계 학습 엔지니어입니다. 그는 데이터 과학 및 엔지니어링을 사용하여 복잡한 조직 및 기술 문제를 해결합니다. 또한 그는 AWS 클라우드에서 AI/ML 모델을 구축하고 배포합니다. 그의 열정은 여행과 다양한 문화 경험에 대한 성향으로까지 확장됩니다.

수하스 차우다리 존날라가다 AWS 글로벌 서비스의 데이터 과학자입니다. 그는 기업 고객이 AI/ML의 힘으로 가장 복잡한 문제를 해결할 수 있도록 돕는 데 열정을 쏟고 있습니다. 그는 고객이 금융, 의료, 금융, 전자상거래, 미디어, 광고, 마케팅 등 다양한 산업 분야에서 비즈니스 솔루션을 혁신할 수 있도록 지원해 왔습니다.

태비 워드 고객을 마이그레이션하고 애플리케이션 워크로드와 서비스를 AWS로 현대화하는 광범위한 경험을 갖춘 수석 클라우드 설계자/전략 기술 고문입니다. 25년 넘게 소프트웨어를 개발하고 설계한 경험을 바탕으로 그녀는 심층적인 능력은 물론 다양한 기술 스택과 클라우드 제공업체 전반에 걸쳐 아키텍처와 솔루션을 설계하는 데 있어 고객과 파트너의 신뢰를 능숙하게 얻은 것으로 인정받고 있습니다.

샴 데사이 AWS의 빅 데이터 및 기계 학습 서비스를 위한 클라우드 엔지니어입니다. 그는 소프트웨어 엔지니어링 전문 지식과 데이터 과학을 결합하여 엔터프라이즈 수준의 빅 데이터 애플리케이션과 고객을 지원합니다. 그는 인공 지능을 위한 컴퓨터 비전 및 이미징 응용 프로그램은 물론 생물 의학 및 생물 정보학 응용 분야에 대한 광범위한 지식을 보유하고 있습니다.

spot_img

최신 인텔리전스

spot_img