Logo Zephyrnet

Cải thiện độ chính xác của quá trình xử lý hóa đơn với Nanonet và ChatGPT

Ngày:

Tôi sẽ không phóng đại nếu tôi nói trung bình một người gửi/nhận ít nhất 10 hóa đơn mỗi tuần. Với tốc độ số hóa ngày càng tăng, các doanh nghiệp đang phải xử lý khối lượng hóa đơn khổng lồ mỗi ngày. Theo truyền thống, việc xử lý hóa đơn là một quy trình thủ công và tốn thời gian, cần nguồn lực đáng kể và dễ xảy ra lỗi.

Với sự ra đời của AI và Xử lý ngôn ngữ tự nhiên, việc xử lý hóa đơn giờ đây có thể được tự động hóa và sắp xếp hợp lý, dẫn đến hiệu quả và độ chính xác được cải thiện. GPT là viết tắt của "Generative Pre-training Transformer" và đề cập đến một nhóm các mô hình xử lý ngôn ngữ mạnh mẽ được phát triển bởi OpenAI. Các mô hình GPT được đào tạo trước trên một lượng lớn dữ liệu văn bản và sau đó có thể được tinh chỉnh cho các tác vụ cụ thể, bao gồm cả xử lý hóa đơn.

Hãy xem trường hợp xử lý hóa đơn cho các đơn đặt hàng của một cửa hàng sách, một hóa đơn mẫu được hiển thị trong hình ảnh bên dưới. Hóa đơn này có thông tin về Vận chuyển, Thanh toán, mặt hàng và giá cả. Hãy tưởng tượng bạn phải thu thập dữ liệu từ hàng nghìn hóa đơn theo cách thủ công! May mắn thay, chúng tôi có các công cụ AI giúp tăng tốc quá trình.

Trong blog này, tôi sẽ hướng dẫn bạn các bước để xử lý hóa đơn của bạn bằng GPT-4 và Nanonets. Lấy một tách cà phê và chuẩn bị!

Bước 1: Tạo tài khoản Nanonets và tải hình ảnh lên

Bước đầu tiên là trích xuất dữ liệu văn bản từ hình ảnh hóa đơn của chúng tôi. Kỹ thuật OCR (Nhận dạng ký tự quang học) sử dụng thuật toán nhận dạng mẫu để xác định và chuyển đổi ký tự thành văn bản trên hình ảnh hoặc tài liệu được quét. Nền tảng trí tuệ nhân tạo (AI) dựa trên đám mây Nanonets cung cấp các công cụ OCR được quản lý cho các tác vụ cụ thể, bao gồm cả OCR hóa đơn. Bạn chỉ cần đăng ký tại đây và truy cập miễn phí công cụ Invoice OCR của họ.

Khi bạn đăng nhập và nhấp vào Hóa đơn OCR, bạn có thể tìm thấy tùy chọn “Tải tệp lên”. Nanonets rất thân thiện với người dùng và cho phép bạn tải tệp lên từ hơn 6 ứng dụng.

Tôi đã tải lên hóa đơn mẫu từ Cửa hàng sách Agatha tại đây. Quá trình trích xuất sẽ hoàn tất sau vài phút và bạn sẽ nhận được kết quả đã loại bỏ như được hiển thị. Ở đây, một mô hình học sâu được đào tạo trước được sử dụng để trích xuất các thực thể và giá trị của chúng.

Tất cả các trường văn bản được xác định bởi Nanonets được giới hạn bởi các hộp riêng biệt. Bạn có thể xem các giá trị được trích xuất cho các trường này trong tab ' KẾT QUẢ CUỐI CÙNG ' ở bên phải. Quá trình trích xuất thực thể này được thực hiện bởi Nanonets, có thể được tăng cường bằng cách sử dụng GPT-4. Nanonets cũng cung cấp các tùy chọn để thêm hoặc sửa đổi tên trường, giúp nâng cao khả năng tùy chỉnh và trải nghiệm người dùng cho khách hàng.


Tìm cách tự động hóa các Quy trình AP thủ công của bạn? Đặt trước bản demo trực tiếp 30 phút để xem Nanonets có thể giúp nhóm của bạn triển khai end-to-end như thế nào Tự động hóa AP.

Bước 2: Tải xuống dữ liệu văn bản OCR

Dữ liệu văn bản OCR được trích xuất có thể được tải xuống dưới nhiều hình thức. Kiểm tra GIF bên dưới để xem minh họa tải dữ liệu hóa đơn xuống tệp Excel hoặc CSV. Trong tệp CSV, tất cả tên trường dữ liệu/thực thể được lưu trữ dưới dạng cột và giá trị của chúng nằm trong các hàng tương ứng.

Chúng tôi sao chép và dán dữ liệu từ CSV đã tải xuống và lấy văn bản do OCR tạo. Đây là văn bản tôi đã tải xuống từ hóa đơn mẫu của chúng tôi trong Nanonets.

Văn bản do OCR tạo có thể được cải tiến bằng Chat GPT3 với các bước tiếp theo.

Việc trích xuất thực thể có thể được nâng cấp để hỗ trợ các truy vấn khác nhau nếu chúng tôi sử dụng các mô hình GPT4 trên văn bản được xử lý của Nanonet. Bạn có thể đăng ký tài khoản Open AI từ tại đây và có quyền truy cập vào các mô hình ngôn ngữ lớn. Khi bạn thiết lập tài khoản của mình, bạn sẽ nhận được một khóa API duy nhất. Nó dành cho các biện pháp bảo mật, để xác thực và ủy quyền cho các yêu cầu được gửi tới máy chủ của OpenAI. Nhập gói OpenAI và đặt giá trị khóa API.

Thiết kế lời nhắc theo cách rõ ràng, có cấu trúc là bí quyết để mở khóa sức mạnh của các mô hình ngôn ngữ lớn. Để trích xuất trường dữ liệu hoặc thực thể và giá trị của chúng, chúng ta có thể sử dụng lời nhắc bên dưới.

#xác định lời nhắc của bạn

prompt_text= Đây là văn bản hóa đơn được tạo OCR cho các đơn đặt hàng tại cửa hàng sách” +ocr_generated_text” + “Trích xuất các thực thể và giá trị của chúng dưới dạng một cặp khóa-giá trị từ văn bản OCR được cung cấp và xuất ra ở định dạng khóa: giá trị”

Sau khi nhận được lời nhắc, bạn có thể chuyển lời nhắc đó tới bất kỳ mẫu OpenAI đã được đào tạo trước nào và nhận được phản hồi thông qua “ hàm openai.Completion.create()”. Có một vài tham số bạn có thể chọn để có được đầu ra tốt nhất.

Các thông số của GPT:

  • động cơ: Tham số này cho phép bạn chọn một mô hình ngôn ngữ lớn (LLM) được đào tạo trước cụ thể để sử dụng để tạo văn bản. Nó có thể được đặt thành một mô hình được đào tạo trước hoặc một mô hình tinh chỉnh tùy chỉnh. Text Davinci là một lựa chọn mạnh mẽ và hiệu quả.
  • nhắc nhở:  Đây là lời nhắc văn bản ban đầu để cung cấp cho mô hình để bắt đầu tạo văn bản. Trong trường hợp của chúng tôi, biến “prompt_text” mà chúng tôi đã xác định trước đó.
  • Max_token:  Biểu thị số lượng mã thông báo tối đa mà mô hình có thể tạo cho một lời nhắc nhất định. Bạn có thể kiểm soát độ dài của văn bản được tạo thông qua điều này.
  • Nhiệt độ: Sử dụng nó để kiểm soát mức độ ngẫu nhiên hoặc sáng tạo trong văn bản được tạo. Giá trị nhiệt độ thấp tạo ra đầu ra thận trọng hơn và có thể dự đoán được, trong khi giá trị nhiệt độ cao dẫn đến đầu ra sáng tạo và đa dạng hơn. Giá trị nhiệt độ nằm trong khoảng từ 0 đến 1, với 1 là sáng tạo nhất.

Bây giờ bạn đã quen thuộc với các tham số GPT, hãy viết mã để tạo đầu ra bằng cách chuyển văn bản lời nhắc cùng với các tham số khác.

Chúng tôi đã nhận được đầu ra là:

Các thực thể và giá trị của chúng đã được trích xuất nhanh chóng chỉ trong vài bước!

Bước 4: Cải thiện hiệu chỉnh dữ liệu

Giữa hàng nghìn hóa đơn đang được luân chuyển tại bất kỳ doanh nghiệp nào, việc dữ liệu khách hàng không thống nhất, sai sót nhỏ là điều khó tránh khỏi. Ví dụ: một số khách hàng có thể đã cung cấp định dạng email hoặc số liên lạc không hợp lệ hoặc ngày có thể ở các định dạng khác. Với Nanonets và GPT-4, bạn có thể dễ dàng xác định các sự cố này và thực hiện chỉnh sửa dữ liệu. Chúng tôi có thể triển khai xác thực dựa trên quy tắc, để xác minh tính chính xác và định dạng, đồng thời kiểm tra sự không nhất quán.

Tôi nhắc GPT thực hiện xác thực ngày và email cho chúng tôi.

prompt_text= “Trong dữ liệu thực thể được trích xuất ở trên, xác thực xem định dạng ngày (DD/MM/YYYY) và email có đúng không?”

LLM cung cấp mã Python sử dụng các biểu thức chính quy để kiểm tra định dạng, như trong hình bên dưới. Trong một biểu thức chính quy, chúng tôi tìm kiếm một mẫu cụ thể và khớp với mẫu đó. Các thực thể được trích xuất được lưu trữ trong một từ điển và các chức năng được xác định riêng để xác thực email và ngày của hóa đơn.

Sau khi xác định, người ta có thể chuyển bất kỳ ngày nào, chẳng hạn như ('Ngày hóa đơn'), ID email của người bán hoặc người mua cho các chức năng này để nhận kết quả.

GPT còn giúp bạn chỉnh sửa, thay đổi dữ liệu một cách nhanh chóng và thuận tiện. Lưu ý rằng trong hóa đơn của chúng tôi, ngày là '02/05/2023'. Tôi đưa ra lời nhắc bên dưới để chuyển đổi ngày sang định dạng “MM/DD/YY”.

prompt=” thay đổi định dạng của dữ liệu trong các thực thể được trích xuất thành 'MM/DD/YY'. Chỉ giữ lại 2 số cuối của năm”

Ở đầu ra, dữ liệu đã được sửa chữa như mong muốn. Chúng tôi có thể đưa ra lời nhắc tương tự để kiểm tra xem số liên lạc có 10 chữ số hay không, địa chỉ có ở định dạng mong muốn hay không và cũng kiểm tra các giá trị dữ liệu bị thiếu.


Thiết lập quy trình làm việc AP không cần chạm và hợp lý hóa quy trình Tài khoản phải trả trong vài giây. Đặt bản demo trực tiếp 30 phút ngay bây giờ.

Bước 5: Kiểm tra các vấn đề về dữ liệu

Bất kỳ sự không nhất quán nào trong dữ liệu đều có thể được xác định bằng GPT-4 một cách dễ dàng. Trong ví dụ của chúng tôi, bạn có thể kiểm tra xem tổng số tiền đến hạn không khớp với tổng giá của từng mặt hàng hay không. Hãy cung cấp một lời nhắc cho nó.

prompt=”Kiểm tra xem tổng số dư phải trả trong hóa đơn có khớp với số lượng & giá mặt hàng trong hóa đơn hay không”

GPT-4 đưa ra một hàm trong Python để tính toán tổng giá của tất cả các đơn đặt hàng, bằng cách nhân số lượng và giá của từng mặt hàng. Trong trường hợp tổng số dư không phù hợp với số tiền ghi trên hóa đơn, hóa đơn cụ thể sẽ bị đánh dấu và điều tra. Điều này có thể giúp các doanh nghiệp tránh mọi sai sót, sai lệch và xác thực dữ liệu tài chính của họ.

Nếu có tập dữ liệu lớn về hóa đơn, bạn cũng có thể kiểm tra tính nhất quán giữa nhiều hóa đơn. Ví dụ: bạn có thể so sánh thông tin người bán và người mua trên nhiều hóa đơn để xác định bất kỳ sự khác biệt hoặc bất thường nào.

Bước 6: Truy vấn với GPT

Khi bạn đã trích xuất các thực thể, GPT cũng có thể được sử dụng để nhận câu trả lời cho các truy vấn cụ thể từ toàn bộ thông tin. Ví dụ: nếu bạn muốn biết thông tin về chi tiết vận chuyển của một số hóa đơn cụ thể thì sao.

Hãy tạo một lời nhắc cho nó:

#xác định lời nhắc của bạn

prompt_text= “Trích xuất chi tiết về vận chuyển từ các cặp khóa-giá trị của Thực thể”

Việc hoàn thành được tạo cho lời nhắc này là:

>> Chắc chắn! Dựa trên dữ liệu OCR được cung cấp, chúng tôi có thể trích xuất thông tin vận chuyển và thông tin thanh toán thành hai nhóm như sau:

Thông tin vận chuyển:

“số_hóa_đơn”: “3522”

ship_to_name: Gayathri Natarajan

ship_to_address: 600053 No.22B , Chetpet , Chennai , Tamil Nadu , Ấn Độ: Tanaya Pakahale

Một truy vấn tương tự cũng có thể được thực hiện để lấy thông tin chi tiết về người bán. Đây là thông tin được trích xuất về người bán từ dữ liệu được cung cấp:

  • seller_name: NHÀ SÁCH AGATHA
  • seller_address: Số 13 , đại lộ 2 , Indiranagar, Bangalore , Karnataka , Ấn Độ , 721302
  • người bán_điện thoại: 6783456723

Khi làm việc với nhiều tài liệu, chúng tôi cũng có thể tìm kiếm và lọc các hóa đơn có tổng số dư lớn hơn 5000 Rupee để phân tích các đơn đặt hàng số lượng lớn. Vì GPT có khả năng lưu lại các lời nhắc trong quá khứ trong bộ nhớ, nên nó mang lại sự dễ sử dụng tốt nhất.


Tìm cách tự động hóa các Quy trình AP thủ công của bạn? Đặt trước bản demo trực tiếp 30 phút để xem Nanonets có thể giúp nhóm của bạn triển khai end-to-end như thế nào Tự động hóa AP.

Tại sao nên chọn Nanonets + Trò chuyện GPT để xử lý hóa đơn?

  • GPT có thể phân tích văn bản trên hóa đơn, đồng thời xác định và trích xuất chính xác các thực thể có liên quan, ngay cả khi chúng được viết ở các định dạng khác nhau hoặc có các biến thể về chính tả hoặc từ ngữ. Điều này có thể giúp giảm lỗi và tăng độ chính xác
  • Tự động hóa và mở rộng quy mô đường truyền dữ liệu cho doanh nghiệp
  • Phương pháp hiệu quả nhất để xử lý khối lượng hóa đơn lớn. Giảm đáng kể thời gian cần thiết để nhập và xử lý dữ liệu.
  • Các công cụ cung cấp tính linh hoạt và khả năng thích ứng. Những công cụ này có thể được dễ dàng tích hợp vào các hệ thống hiện có và có thể được tùy chỉnh để phù hợp với nhu cầu kinh doanh cụ thể
  • Một trong những ưu điểm của giải pháp OCR hóa đơn của Nanonets là khả năng học hỏi từ những sai lầm của nó. Hệ thống sử dụng công nghệ máy học để cải thiện độ chính xác theo thời gian, giúp hệ thống chính xác hơn với mỗi hóa đơn mới được xử lý. Nền tảng này cũng cho phép người dùng xem xét và sửa bất kỳ lỗi nào theo cách thủ công, đảm bảo rằng dữ liệu được trích xuất là chính xác và đáng tin cậy.

Tuy có rất nhiều ưu điểm nhưng chúng ta cũng cần hiểu rõ những hạn chế của phương pháp này. Độ chính xác kém trong các trường hợp chất lượng hình ảnh/PDF thấp. Các công cụ dựa trên Al cũng có thể bị sai lệch hoặc sai sót vốn có trong dữ liệu huấn luyện.

Nhìn chung, việc tận dụng GPT để trích xuất thực thể trong quá trình xử lý hóa đơn có thể giúp các doanh nghiệp hợp lý hóa hoạt động của họ, giảm công việc thủ công và cải thiện độ chính xác, giúp quản lý tài chính và ra quyết định tốt hơn.


Thiết lập quy trình làm việc AP không cần chạm và hợp lý hóa quy trình Tài khoản phải trả trong vài giây. Đặt bản demo trực tiếp 30 phút ngay bây giờ.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img