Logo Zephyrnet

Logikcull của Reveal đã sử dụng Amazon Comprehend như thế nào để phát hiện và loại bỏ PII khỏi các tài liệu pháp lý trên quy mô lớn | Dịch vụ web của Amazon

Ngày:

Hôm nay, thông tin cá nhân (PII) có mặt ở khắp mọi nơi. PII có trong email, tin nhắn chậm, video, tệp PDF, v.v. Nó đề cập đến bất kỳ dữ liệu hoặc thông tin nào có thể được sử dụng để nhận dạng một cá nhân cụ thể. PII có bản chất nhạy cảm và bao gồm nhiều loại dữ liệu cá nhân khác nhau, chẳng hạn như tên, thông tin liên hệ, số nhận dạng, thông tin tài chính, thông tin y tế, dữ liệu sinh trắc học, ngày sinh, v.v.

Việc tìm kiếm và sắp xếp lại PII là điều cần thiết để bảo vệ quyền riêng tư, đảm bảo an ninh dữ liệu, tuân thủ luật pháp và quy định cũng như duy trì niềm tin với khách hàng và các bên liên quan. Đây là một thành phần quan trọng của thực tiễn quản lý dữ liệu và an ninh mạng hiện đại. Nhưng việc tìm ra PII giữa đống dữ liệu điện tử có thể đặt ra những thách thức cho một tổ chức. Những thách thức này phát sinh do khối lượng lớn và sự đa dạng của dữ liệu, phân mảnh dữ liệu, mã hóa, chia sẻ dữ liệu, nội dung động, dương tính và âm tính giả, hiểu biết theo ngữ cảnh, sự phức tạp về pháp lý, hạn chế về tài nguyên, dữ liệu đang phát triển, nội dung do người dùng tạo và các mối đe dọa thích ứng. Tuy nhiên, việc không phát hiện và xử lý chính xác PII có thể dẫn đến hậu quả nghiêm trọng cho các tổ chức. Hậu quả có thể bao gồm các hình phạt pháp lý, kiện cáo, tổn hại danh tiếng, chi phí vi phạm dữ liệu, điều tra theo quy định, gián đoạn hoạt động, xói mòn lòng tin và các biện pháp trừng phạt.

Trong hệ thống pháp luật, khám phá là quy trình pháp lý điều chỉnh quyền thu được và nghĩa vụ đưa ra vấn đề không có đặc quyền liên quan đến khiếu nại hoặc biện pháp bào chữa của bất kỳ bên nào trong vụ kiện tụng. Khám phá điện tử còn được gọi là Khám phá điện tử là khía cạnh điện tử của việc xác định, thu thập và tạo ra thông tin được lưu trữ điện tử (ESI) để đáp ứng yêu cầu cung cấp trong một vụ kiện hoặc điều tra. Trong lĩnh vực pháp lý, việc xác định, thu thập và cung cấp ESI trong một vụ kiện hoặc điều tra thường được yêu cầu. Nếu các tổ chức đang xử lý eDiscovery về các vụ kiện tụng liên quan đến phản hồi của trát đòi hầu tòa thì có thể họ lo ngại về việc vô tình chia sẻ PII. Nhiều tổ chức bao gồm các cơ quan chính phủ, khu học chánh và chuyên gia pháp lý phải đối mặt với thách thức trong việc phát hiện và xử lý PII một cách chính xác trên quy mô lớn. Đặc biệt nếu họ là thành viên của một nhóm chính phủ, việc biên soạn lại PII thông qua Đạo luật Tự do Thông tin và Đạo luật Dịch vụ Kỹ thuật số là rất quan trọng để bảo vệ quyền riêng tư cá nhân, đảm bảo tuân thủ luật bảo vệ dữ liệu, ngăn chặn hành vi trộm cắp danh tính cũng như duy trì sự tin cậy và minh bạch trong chính phủ và kỹ thuật số. dịch vụ. Nó tạo ra sự cân bằng giữa tính minh bạch và quyền riêng tư đồng thời giảm thiểu rủi ro pháp lý và bảo mật.

Các tổ chức có thể tìm kiếm PII bằng các phương pháp như tìm kiếm từ khóa, khớp mẫu, công cụ ngăn ngừa mất dữ liệu, học máy (ML), phân tích siêu dữ liệu, phần mềm phân loại dữ liệu, nhận dạng ký tự quang học (OCR), lấy dấu vân tay tài liệu và mã hóa.

Hiện là một phần của nền tảng Khám phá điện tử được hỗ trợ bởi AI của Reveal, logikcull là một giải pháp tự phục vụ cho phép các chuyên gia pháp lý xử lý, xem xét, gắn thẻ và tạo ra các tài liệu điện tử như một phần của vụ kiện hoặc cuộc điều tra. Ưu đãi độc đáo này giúp luật sư khám phá thông tin có giá trị liên quan đến vấn đề đang có, đồng thời giảm chi phí, đẩy nhanh quá trình giải quyết và giảm thiểu rủi ro.

Trong bài đăng này, các chuyên gia của Reveal giới thiệu cách họ sử dụng Amazon hiểu trong quy trình xử lý tài liệu của họ để phát hiện và xử lý lại các phần PII riêng lẻ. Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên (NLP) được đào tạo liên tục và được quản lý toàn phần, có thể rút ra thông tin chuyên sâu về nội dung của tài liệu hoặc văn bản. Bạn có thể sử dụng khả năng ML của Amazon Comprehend để phát hiện và sắp xếp lại PII trong email của khách hàng, phiếu hỗ trợ, đánh giá sản phẩm, mạng xã hội, v.v.

Tổng quan về giải pháp

Mục tiêu bao trùm của nhóm kỹ thuật là phát hiện và loại bỏ PII từ hàng triệu tài liệu pháp lý cho khách hàng của họ. Bằng cách sử dụng giải pháp Logikcull của Reveal, nhóm kỹ thuật đã triển khai hai quy trình, đó là phát hiện PII vượt qua lần đầu tiên và phát hiện và xử lý PII vượt qua lần thứ hai. Giải pháp hai bước này được thực hiện bằng cách sử dụng ChứaPiiEntitiesPhát hiện PiiThực thể API.

Phát hiện PII vượt qua lần đầu tiên

Mục tiêu của việc phát hiện PII vượt qua lần đầu là tìm các tài liệu có thể chứa PII.

  1. Người dùng tải lên các tệp mà họ muốn thực hiện phát hiện và xử lý PII thông qua trang web công cộng của Logikcull vào một thư mục dự án. Các tệp này có thể ở dạng tài liệu văn phòng, tệp .pdf, email hoặc tệp .zip chứa tất cả các loại tệp được hỗ trợ.
  2. Logikcull lưu trữ các thư mục dự án này một cách an toàn bên trong một Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) Gầu múc. Sau đó, các tệp sẽ đi qua quy trình xử lý song song ồ ạt của Logikcull được lưu trữ trên Đám mây điện toán đàn hồi Amazon (Amazon EC2), xử lý các tệp, trích xuất siêu dữ liệu và tạo các tạo phẩm ở định dạng văn bản để xem xét dữ liệu. Quy trình xử lý của Logikcull hỗ trợ trích xuất văn bản cho nhiều biểu mẫu và tệp khác nhau, bao gồm cả tệp âm thanh và video.
  3. Sau khi các tệp có sẵn ở định dạng văn bản, Logikcull chuyển văn bản đầu vào cùng với mô hình ngôn ngữ là tiếng Anh thông qua Amazon Comprehend bằng cách tạo ChứaPiiEntities Cuộc gọi API. Các máy chủ quy trình xử lý được lưu trữ trên Amazon EC2 tạo nên Amazon Comprehend ContainsPiiEntities Lệnh gọi API bằng cách chuyển các tham số yêu cầu dưới dạng văn bản và mã ngôn ngữ. Các ContainsPiiEntities Lệnh gọi API phân tích văn bản đầu vào để tìm sự hiện diện của PII và trả về nhãn của các loại thực thể PII đã xác định, chẳng hạn như tên, địa chỉ, số tài khoản ngân hàng hoặc số điện thoại. Phản hồi API cũng bao gồm điểm tin cậy cho biết mức độ tin cậy mà Amazon Comprehend đã ấn định cho độ chính xác của việc phát hiện. Điểm tin cậy có giá trị từ 0 đến 1, với 1 biểu thị độ tin cậy 100%. Logikcull sử dụng điểm tin cậy này để gán thẻ PII được phát hiện cho tài liệu. Logikcull chỉ gán thẻ này cho các tài liệu có điểm tin cậy trên 0.75.
  4. Các tài liệu được gắn thẻ PII được phát hiện sẽ được đưa vào cụm chỉ mục tìm kiếm của Logikcull để người dùng nhanh chóng xác định các tài liệu có chứa thực thể PII.

Phát hiện và xử lý PII vượt qua lần thứ hai

Quá trình phát hiện PII vượt qua lần đầu tiên thu hẹp phạm vi của tập dữ liệu bằng cách xác định tài liệu nào chứa thông tin PII. Điều này tăng tốc quá trình phát hiện PII và cũng giảm chi phí tổng thể. Mục tiêu của việc phát hiện PII vượt qua lần thứ hai là xác định các phiên bản PII riêng lẻ và loại bỏ chúng khỏi các tài liệu được gắn thẻ trong lần vượt qua đầu tiên.

  1. Người dùng tìm kiếm tài liệu thông qua trang web của Logikcull có chứa PII bằng tính năng bộ lọc tìm kiếm nâng cao của Logikcull.
  2. Yêu cầu được xử lý bởi các máy chủ ứng dụng của Logikcull được lưu trữ trên Amazon EC2 và các máy chủ liên lạc với cụm chỉ mục tìm kiếm để tìm tài liệu.
  3. Các máy chủ ứng dụng Logikcull có thể xác định các phiên bản riêng lẻ của PII bằng cách tạo Phát hiện PiiThực thể Cuộc gọi API. Máy chủ thực hiện lệnh gọi API bằng cách chuyển văn bản và ngôn ngữ của tài liệu đầu vào. Các DetectPiiEntities Hành động API kiểm tra văn bản đầu vào để tìm các thực thể có chứa PII. Đối với mỗi thực thể, phản hồi cung cấp loại thực thể, nơi văn bản thực thể bắt đầu và kết thúc cũng như mức độ tin cậy mà Amazon Comprehend có trong khả năng phát hiện của nó.
  4. Sau đó, người dùng chọn các thực thể cụ thể mà họ muốn sắp xếp lại bằng giao diện web của Logikcull. Máy chủ ứng dụng gửi những yêu cầu này đến quy trình xử lý của Logikcull. Sau đây là ảnh chụp màn hình của tệp PDF đã được tải lên ứng dụng của Logikcull. Từ ảnh chụp màn hình bên dưới, bạn có thể thấy các thực thể PII khác nhau như tên, địa chỉ, số điện thoại, địa chỉ email, v.v., đã được đánh dấu.

  1. Việc xử lý PII được áp dụng một cách an toàn bên trong quy trình xử lý của Logikcull bằng logic nghiệp vụ tùy chỉnh. Từ ảnh chụp màn hình sau đây, bạn có thể thấy rằng người dùng có thể chọn loại thực thể PII cụ thể hoặc tất cả các loại thực thể PII mà họ muốn loại bỏ và sau đó, chỉ bằng một cú nhấp chuột, loại bỏ tất cả thông tin PII.

Kết quả

Logikcull, một công nghệ Reveal, hiện đang xử lý hơn 20 triệu tài liệu mỗi tuần và có thể thu hẹp phạm vi phát hiện bằng cách sử dụng ContainsPiiEntities API và hiển thị các phiên bản riêng lẻ của thực thể PII cho khách hàng của họ bằng cách sử dụng DetectPiiEntities API.

“Với Amazon Comprehend, Logikcull đã có thể triển khai nhanh chóng các khả năng NLP mạnh mẽ trong khoảng thời gian mà một giải pháp xây dựng tùy chỉnh cần có.”

– Steve Newhouse, Phó Giám đốc Sản phẩm của Logikcull.

Kết luận

Amazon hiểu cho phép công nghệ Logikcull của Reveal chạy tính năng phát hiện PII ở quy mô lớn với chi phí tương đối thấp bằng cách sử dụng Amazon Comprehend. Các ContainsPiiEntities API được sử dụng để thực hiện quét ban đầu hàng triệu tài liệu. Các DetectPiiEntities API được sử dụng để chạy phân tích chi tiết hàng nghìn tài liệu và xác định từng phần PII riêng lẻ trong tài liệu của chúng.

Hãy xem tất cả Các tính năng toàn diện của Amazon. Hãy dùng thử các tính năng và gửi phản hồi cho chúng tôi thông qua Diễn đàn AWS  cho Amazon Computing hoặc thông qua các liên hệ hỗ trợ AWS thông thường của bạn.


Về các tác giả

Aman Tiwari là Kiến trúc sư giải pháp chung làm việc với bộ phận Bán hàng thương mại toàn cầu tại AWS. Anh làm việc với khách hàng trong phân khúc Doanh nghiệp bản địa kỹ thuật số và giúp họ thiết kế các giải pháp sáng tạo, linh hoạt và tiết kiệm chi phí bằng cách sử dụng dịch vụ AWS. Ông có bằng thạc sĩ về Mạng Viễn thông của Đại học Đông Bắc. Ngoài công việc, anh ấy thích chơi quần vợt trên sân cỏ và đọc sách.

Jeff Newburn là Giám đốc Kỹ thuật Phần mềm Cấp cao, lãnh đạo nhóm Kỹ thuật Dữ liệu tại Logikcull – A Reveal Technology. Ông giám sát các sáng kiến ​​dữ liệu của công ty, bao gồm kho dữ liệu, trực quan hóa, phân tích và học máy. Với kinh nghiệm phát triển và quản lý trong các lĩnh vực từ chia sẻ chuyến đi đến hệ thống dữ liệu, anh ấy thích dẫn dắt đội ngũ kỹ sư xuất sắc cho đến những sản phẩm thú vị.

Soren tóc vàng Daugaard là Kỹ sư nhân viên trong nhóm Kỹ thuật dữ liệu tại Logikcull – A Reveal Technology. Anh ấy triển khai các giải pháp AI và ML có khả năng mở rộng cao vào sản phẩm Logikcull, cho phép khách hàng của chúng tôi thực hiện công việc của mình hiệu quả hơn và có độ chính xác cao hơn. Chuyên môn của anh bao gồm các đường dẫn dữ liệu, hệ thống dựa trên web và hệ thống máy học.

Kevin Lufkin là Kỹ sư phần mềm cao cấp trong nhóm Kỹ thuật tìm kiếm tại Logikcull – A Reveal Technology, nơi anh tập trung vào phát triển các tính năng liên quan đến tìm kiếm và hướng tới khách hàng. Chuyên môn sâu rộng của anh ấy về UI/UX được bổ sung bởi nền tảng về phát triển web toàn diện, tập trung mạnh vào việc đưa tầm nhìn sản phẩm vào cuộc sống.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img