Zephyrnet Logo

Como Logikcull da Reveal usou o Amazon Comprehend para detectar e redigir PII de documentos legais em grande escala | Amazon Web Services

Data:

Hoje, informação pessoalmente identificável (PII) está em toda parte. PII está em e-mails, mensagens do Slack, vídeos, PDFs e assim por diante. Refere-se a quaisquer dados ou informações que possam ser usados ​​para identificar um indivíduo específico. As PII são de natureza sensível e incluem vários tipos de dados pessoais, como nome, informações de contato, números de identificação, informações financeiras, informações médicas, dados biométricos, data de nascimento e assim por diante.

Encontrar e redigir PII é essencial para proteger a privacidade, garantir a segurança dos dados, cumprir as leis e regulamentos e manter a confiança dos clientes e partes interessadas. É um componente crítico das práticas modernas de gerenciamento de dados e segurança cibernética. Mas encontrar PII no meio do pântano de dados eletrónicos pode apresentar desafios para uma organização. Estes desafios surgem devido ao grande volume e variedade de dados, fragmentação de dados, encriptação, partilha de dados, conteúdo dinâmico, falsos positivos e negativos, compreensão contextual, complexidades jurídicas, restrições de recursos, dados em evolução, conteúdo gerado pelo utilizador e ameaças adaptativas. No entanto, a falha em detectar e redigir PII com precisão pode levar a consequências graves para as organizações. As consequências podem incluir penalidades legais, ações judiciais, danos à reputação, custos de violação de dados, investigações regulatórias, interrupção operacional, erosão da confiança e sanções.

No sistema jurídico, descoberta é o processo legal que rege o direito de obter e a obrigação de produzir matéria não privilegiada relevante para as reivindicações ou defesas de qualquer parte em litígio. A descoberta eletrônica, também conhecida como eDiscovery, é o aspecto eletrônico de identificação, coleta e produção de informações armazenadas eletronicamente (ESI) em resposta a uma solicitação de produção em uma ação judicial ou investigação. No domínio jurídico, muitas vezes é necessário identificar, coletar e produzir ESI durante uma ação judicial ou investigação. Se as organizações estão lidando com o eDiscovery para litígios sobre respostas a intimações, provavelmente estão preocupadas com o compartilhamento acidental de PII. Muitas organizações, incluindo agências governamentais, distritos escolares e profissionais jurídicos, enfrentam o desafio de detectar e redigir PII com precisão e em grande escala. Especialmente se fizerem parte de um grupo governamental, a redação de PII através da Lei de Liberdade de Informação e da Lei de Serviços Digitais é crucial para proteger a privacidade individual, garantir a conformidade com as leis de proteção de dados, prevenir o roubo de identidade e manter a confiança e a transparência no governo e no setor digital. Serviços. Estabelece um equilíbrio entre transparência e privacidade, ao mesmo tempo que mitiga riscos jurídicos e de segurança.

As organizações podem pesquisar PII usando métodos como pesquisas por palavras-chave, correspondência de padrões, ferramentas de prevenção contra perda de dados, aprendizado de máquina (ML), análise de metadados, software de classificação de dados, reconhecimento óptico de caracteres (OCR), impressão digital de documentos e criptografia.

Agora parte da plataforma de eDiscovery alimentada por IA da Reveal, Logikcull é uma solução de autoatendimento que permite aos profissionais jurídicos processar, revisar, etiquetar e produzir documentos eletrônicos como parte de uma ação judicial ou investigação. Esta oferta exclusiva ajuda os advogados a descobrir informações valiosas relacionadas ao assunto em questão, ao mesmo tempo que reduz custos, acelera resoluções e mitiga riscos.

Nesta postagem, os especialistas do Reveal mostram como usaram Amazon Comprehend em seu pipeline de processamento de documentos para detectar e redigir partes individuais de PII. O Amazon Comprehend é um serviço de processamento de linguagem natural (PNL) totalmente gerenciado e continuamente treinado que pode extrair insights sobre o conteúdo de um documento ou texto. Você pode usar os recursos do Amazon Comprehend ML para detectar e editar PII em e-mails de clientes, tíquetes de suporte, análises de produtos, mídias sociais e muito mais.

Visão geral da solução

O objetivo geral da equipe de engenharia é detectar e redigir PII de milhões de documentos legais para seus clientes. Usando a solução Logikcull da Reveal, a equipe de engenharia implementou dois processos, ou seja, detecção de PII na primeira passagem e detecção e redação de PII na segunda passagem. Esta solução de duas passagens foi possível usando o ContémPiiEntities e Detectar PiiEntities APIs.

Primeira passagem na detecção de PII

O objetivo da detecção de PII na primeira passagem é encontrar os documentos que possam conter PII.

  1. Os usuários carregam os arquivos nos quais gostariam de realizar a detecção e redação de PII por meio do site público da Logikcull em uma pasta do projeto. Esses arquivos podem estar na forma de documentos de escritório, arquivos .pdf, e-mails ou um arquivo .zip contendo todos os tipos de arquivos suportados.
  2. Logikcull armazena essas pastas de projeto com segurança dentro de um Serviço de armazenamento simples da Amazon (Amazon S3) balde. Os arquivos então passam pelo pipeline de processamento massivamente paralelo do Logikcull hospedado em Amazon Elastic Compute Cloud (Amazon EC2), que processa os arquivos, extrai os metadados e gera artefatos em formato de texto para revisão dos dados. O pipeline de processamento do Logikcull suporta extração de texto para uma ampla variedade de formulários e arquivos, incluindo arquivos de áudio e vídeo.
  3. Depois que os arquivos estiverem disponíveis em formato de texto, o Logikcull passa o texto de entrada junto com o modelo de idioma, que é o inglês, através do Amazon Comprehend, fazendo o ContémPiiEntities Chamada de API. Os servidores de pipeline de processamento hospedados no Amazon EC2 tornam o Amazon Comprehend ContainsPiiEntities Chamada de API passando os parâmetros da solicitação como texto e código de idioma. O ContainsPiiEntities A chamada de API analisa o texto de entrada quanto à presença de PII e retorna os rótulos dos tipos de entidade PII identificados, como nome, endereço, número de conta bancária ou número de telefone. A resposta da API também inclui uma pontuação de confiança que indica o nível de confiança que o Amazon Comprehend atribuiu à precisão da detecção. A pontuação de confiança tem um valor entre 0 e 1, com 1 significando 100 por cento de confiança. Logikcull usa essa pontuação de confiança para atribuir a tag PII Detected aos documentos. Logikcull atribui esta tag apenas a documentos que possuem uma pontuação de confiança superior a 0.75.
  4. Os documentos marcados com PII detectados são alimentados no cluster de índice de pesquisa do Logikcull para que seus usuários identifiquem rapidamente documentos que contêm entidades PII.

Detecção e redação de PII de segunda passagem

O primeiro processo de detecção de PII restringe o escopo do conjunto de dados, identificando quais documentos contêm informações de PII. Isso acelera o processo de detecção de PII e também reduz o custo geral. O objetivo da detecção de PII na segunda passagem é identificar as instâncias individuais de PII e redigi-las dos documentos marcados na primeira passagem.

  1. Os usuários pesquisam documentos no site da Logikcull que contenham PII usando o recurso de filtros de pesquisa avançados da Logikcull.
  2. A solicitação é tratada pelos servidores de aplicativos da Logikcull hospedados em Amazon EC2 e os servidores se comunicam com o cluster de índice de pesquisa para localizar os documentos.
  3. Os servidores de aplicativos Logikcull são capazes de identificar as instâncias individuais de PII, fazendo o Detectar PiiEntities Chamada de API. Os servidores fazem a chamada da API passando o texto e o idioma dos documentos de entrada. O DetectPiiEntities A ação da API inspeciona o texto de entrada para entidades que contêm PII. Para cada entidade, a resposta fornece o tipo de entidade, onde o texto da entidade começa e termina, e o nível de confiança que o Amazon Comprehend tem em sua detecção.
  4. Os usuários então selecionam as entidades específicas que desejam editar usando a interface web do Logikcull. O servidor de aplicativos envia essas solicitações para o pipeline de processamento do Logikcull. A seguir está uma captura de tela de um PDF que foi carregado no aplicativo Logikcull. Na captura de tela abaixo, você pode ver que diferentes entidades PII, como nome, endereço, número de telefone, endereço de e-mail e assim por diante, foram destacadas.

  1. A redação de PII é aplicada com segurança dentro do pipeline de processamento do Logikcull usando lógica de negócios personalizada. Na captura de tela a seguir, você pode ver que os usuários podem selecionar tipos de entidade PII específicos ou todos os tipos de entidade PII que desejam redigir e, em seguida, com um clique de um único botão, redigir todas as informações PII.

Resultados

Logikcull, uma tecnologia Reveal, processa atualmente mais de 20 milhões de documentos por semana e foi capaz de restringir o escopo da detecção usando o ContainsPiiEntities API e exibir instâncias individuais de entidades PII para seus clientes usando o DetectPiiEntities API.

“Com o Amazon Comprehend, a Logikcull conseguiu implantar rapidamente recursos avançados de PNL em uma fração do tempo que uma solução personalizada exigiria.”

– Steve Newhouse, vice-presidente de produto da Logikcull.

Conclusão

Amazon Comprehend permite que a tecnologia Logikcull da Reveal execute detecção de PII em grande escala por um custo relativamente baixo usando o Amazon Comprehend. O ContainsPiiEntities A API é usada para fazer uma verificação inicial de milhões de documentos. O DetectPiiEntities A API é usada para executar uma análise detalhada de milhares de documentos e identificar partes individuais de PII em seus documentos.

Dê uma olhada em todos os Recursos do Amazon Comprehend. Experimente os recursos e envie-nos comentários por meio do Fórum da AWS  para Amazon Comprehend ou por meio de seus contatos de suporte usuais da AWS.


Sobre os autores

Aman Tiwari é arquiteto de soluções gerais e trabalha com vendas comerciais mundiais na AWS. Ele trabalha com clientes do segmento Digital Native Business e os ajuda a projetar soluções inovadoras, resilientes e econômicas usando serviços da AWS. Ele possui mestrado em Redes de Telecomunicações pela Northeastern University. Fora do trabalho, ele gosta de jogar tênis e ler livros.

Jeff Newburn é Gerente Sênior de Engenharia de Software liderando a equipe de Engenharia de Dados da Logikcull – A Reveal Technology. Ele supervisiona as iniciativas de dados da empresa, incluindo data warehouses, visualizações, análises e aprendizado de máquina. Com experiência em desenvolvimento e gerenciamento em áreas que vão desde compartilhamento de viagens até sistemas de dados, ele gosta de liderar equipes de engenheiros brilhantes para produtos interessantes.

Søren Blond Daugaard é engenheiro de equipe na equipe de engenharia de dados da Logikcull – A Reveal Technology. Ele implementa soluções de IA e ML altamente escaláveis ​​no produto Logikcull, permitindo que nossos clientes façam seu trabalho com mais eficiência e maior precisão. Sua experiência abrange pipelines de dados, sistemas baseados na Web e sistemas de aprendizado de máquina.

Kevin Lufkin é engenheiro de software sênior na equipe de engenharia de pesquisa da Logikcull – A Reveal Technology, onde se concentra no desenvolvimento de recursos voltados para o cliente e relacionados à pesquisa. Sua ampla experiência em UI/UX é complementada por uma experiência em desenvolvimento web full-stack, com forte foco em dar vida às visões de produtos.

local_img

Inteligência mais recente

local_img