Logo Zephyrnet

Thích ứng, Thích ứng, Thích ứng: Tại sao các công ty tin tưởng Unbabel để cung cấp thông tin liên lạc đa ngôn ngữ cho khách hàng

Ngày:

Nhiều công ty lớn như Google, Microsoft, Yahoo, Yandex, eBay và Amazon tạo và đào tạo các hệ thống Máy dịch (MT) mục đích chung, sử dụng hàng tỷ trên hàng tỷ điểm dữ liệu (như toàn bộ World Wide Web) để giúp tạo cảm giác trực tuyến nội dung bằng ngôn ngữ khác.

Nếu bạn là một người quan sát quan tâm đến thế giới MT, bạn có thể đã đọc rằng gần đây tất cả chúng đều đã được nâng cấp lên “Neural MT”. Tuy nhiên, MT chung ≠ MT kinh doanh.

Tuy nhiên, chất lượng chắc chắn đã được cải thiện, một hệ thống MT có mục đích chung giống như một con cá cạn khi được sử dụng trong một lĩnh vực khác với nơi nó được đào tạo (điển hình là các bài báo, thủ tục quốc hội, v.v.). Đưa một trong số chúng vào email và các cuộc trò chuyện với khách hàng quốc tế hoặc thông tin quan trọng về kinh doanh như mô tả sản phẩm và mọi thứ bắt đầu có vẻ hài hước khá nhanh chóng.

Các tông màu trang trọng và không chính thức trở nên hỗn hợp, tên pháp nhân bị dịch sai, các thuật ngữ thương hiệu vốn vẫn giữ nguyên trở nên nhầm lẫn và nhiều lỗi khác tự động mắc phải khiến nội dung không phù hợp với mục đích trong môi trường doanh nghiệp.

Không có nghi ngờ gì về việc các công nghệ mạng nơ-ron đang cải thiện MT đáng kể (đáng chú ý nhất là về độ trôi chảy), nhưng vẫn còn một khoảng cách lớn giữa các công nghệ này và chất lượng mà các doanh nghiệp đa quốc gia ngày nay mong đợi.

Hiệu suất MT được điều chỉnh theo miền của Unbabel

Để đáp ứng các tiêu chuẩn khắt khe của họ, trước tiên, chúng tôi chấp nhận những hạn chế của Dịch máy và làm cho nó phù hợp với quy trình làm việc của chúng tôi gồm các biên tập viên MT +. Có bằng chứng rằng MT tốt hơn dẫn đến ít chỉnh sửa hậu kỳ hơn và do đó chất lượng bản dịch cuối cùng nhanh hơn và tốt hơn.

Maria ở Unbabel

Gần đây, chúng tôi đã tiến hành một tập hợp các thử nghiệm so sánh Bản dịch máy được điều chỉnh theo miền của Unbabel với các hệ thống MT chung (có và không có MT thần kinh) trên 5 cặp ngôn ngữ phổ biến (tiếng Anh sang tiếng Tây Ban Nha, tiếng Pháp, tiếng Bồ Đào Nha, tiếng Ý và tiếng Đức).

Sử dụng vé dịch vụ khách hàng từ Unbabel cho ZendeskUnbabel cho đám mây dịch vụ Salesforce chúng tôi sử dụng số liệu tự động tiêu chuẩn để đánh giá MT, Điểm số của BLEU, để lập biểu đồ hiệu suất của chúng tôi:

MT phù hợp với miền của Unbabel liên tục đạt được điểm số cao hơn, đôi khi khá đáng kể, xác nhận giả thuyết của chúng tôi rằng việc đào tạo máy móc của chúng tôi về dữ liệu khách hàng có giá trị cao. Đây không phải là tin tức đối với cộng đồng khoa học, nhưng cũng có thể là đối với nhiều người trong giới kinh doanh.

Chúng tôi cũng bỏ qua các tính năng Thiết lập Bảng chú giải thuật ngữ, nơi chúng tôi hiệu chỉnh hệ thống của mình trên cơ sở từng khách hàng để đảm bảo rằng các hướng dẫn về kiểu dáng, thuật ngữ thương hiệu và siêu dữ liệu khác được tính đến. Ví dụ: Pinterest không muốn hầu hết các đề cập đến từ “Pin” được dịch thành “Alfiler” trong tiếng Tây Ban Nha.

Điều đó nói lên rằng, cần phải củng cố những điều sau: đây chỉ là bước khởi đầu của việc cung cấp những gì khách hàng của chúng tôi cần. Tại Unbabel, chúng tôi thực sự tin rằng bạn chỉ có thể “giải quyết” bản dịch bằng cách kết hợp trí tuệ nhân tạo với nỗ lực của con người.

André và Ramon tại Unbabel

Khi công việc của máy gần như hoàn thành, bước tiếp theo là phân phối các kết quả đầu ra này cho các nhóm 45,000 nhà ngôn ngữ học di động được lựa chọn thông minh của chúng tôi, sau đó họ sẽ chỉnh sửa nội dung theo chất lượng con người mà khách hàng mong đợi. Chúng tôi sẽ đề cập đến vấn đề đó trong một bài đăng riêng biệt.


Lời cảm ơn:

Tiến sĩ André Martins, Trưởng bộ phận Nghiên cứu của Unbabel, đã dẫn đầu các thí nghiệm với sự giúp đỡ của Maria Braga và Catarina Cruz Silva.

Ghi chú:

  • Chúng tôi đã thực hiện một số bước cơ bản để tránh Những cạm bẫy phổ biến, đảm bảo rằng không có cặp câu nào trong tập dữ liệu này trùng lặp với tập huấn luyện cho hệ thống MT của chúng tôi
  • So sánh của chúng tôi hơi ủng hộ hệ thống của Google, vì đối với các thử nghiệm này, các bản dịch tham chiếu thu được bằng cách chỉnh sửa hậu kỳ Google Dịch của con người (do đó, dấu hoa thị
    k trong ô)
  • Chúng tôi không báo cáo Google Neural MT cho tiếng Ý, vì nó hiện không được hỗ trợ trong API cao cấp của họ.

Nguồn: https://unbabel.com/blog/adaptation-unbabel-multi-lingual/

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?