Logo Zephyrnet

Bạn có bao giờ tự hỏi điều gì làm cho machine learning trở nên hiệu quả không?

Ngày:

Phân loại trong học máy bao gồm quá trình gán nhãn hấp dẫn cho dữ liệu mới dựa trên các mẫu đã học được từ các ví dụ đào tạo. Nó giống như dạy một mô hình cách nhận biết và phân loại đồ vật, nhưng nó thực sự hoạt động như thế nào?

Các mô hình học máy đã bắt đầu chiếm nhiều không gian trong cuộc sống của chúng ta, ngay cả khi chúng ta không nhận thức được điều đó một cách có ý thức. Bạn muốn có một ví dụ: ChatGPT, Alexa, xe tự hành và nhiều tính năng khác đang được triển khai. Nắm bắt các hệ thống và công nghệ AI từng ngày, nhân loại có lẽ đang trải qua sự phát triển nhanh nhất trong những năm gần đây.

Nhưng liệu động lực đằng sau sự phát triển này có phải hoàn toàn ngẫu nhiên? Dĩ nhiên là không. Có nhiều kỹ thuật được sử dụng để huấn luyện các mô hình phức tạp này, chẳng hạn như hồi quy, điều chỉnh và phân loại. Chúng ta hãy cùng nhau xem xét phân loại trong học máy.

Phân loại trong học máy
Phân loại trong học máy gán nhãn được xác định trước cho dữ liệu mới dựa trên các mẫu đã học được từ các ví dụ đào tạo (Tín dụng hình ảnh)

Phân loại trong học máy là gì?

Phân loại trong học máy là quá trình gán nhãn lớp được xác định trước cho dữ liệu mới, chưa được nhìn thấy dựa trên các mẫu và mối quan hệ học được từ dữ liệu huấn luyện. Mục tiêu là tạo ra một mô hình có thể dự đoán chính xác nhãn lớp của đầu vào mới dựa trên các tính năng của nó. Mô hình phân loại học từ dữ liệu huấn luyện, xác định các đặc điểm phân biệt giữa mỗi lớp, cho phép mô hình đưa ra dự đoán sáng suốt.

Phân loại trong học máy có thể là một công cụ linh hoạt với nhiều ứng dụng trong nhiều ngành khác nhau.

Dưới đây là một số ví dụ về nơi phân loại có thể được sử dụng trong học máy:

Nhận dạng hình ảnh: Phân loại có thể được sử dụng để xác định các đối tượng trong hình ảnh. Ví dụ: một mô hình có thể được đào tạo để nhận biết động vật, xe cộ, tòa nhà hoặc thậm chí là nét mặt.

Xử lý ngôn ngữ tự nhiên (NLP): Phân loại có thể được áp dụng cho dữ liệu văn bản để phân loại tin nhắn, email hoặc bài đăng trên mạng xã hội thành các danh mục khác nhau, chẳng hạn như thư rác và không thư rác, cảm xúc tích cực và tiêu cực hoặc phân loại chủ đề.

Bảo trì dự đoán: Phân loại có thể được sử dụng để dự đoán khi nào thiết bị hoặc máy móc có khả năng bị hỏng, cho phép bảo trì chủ động và giảm thiểu thời gian ngừng hoạt động.

Chăm sóc sức khỏe: Việc phân loại có thể được áp dụng cho dữ liệu y tế để chẩn đoán bệnh, xác định các nguy cơ tiềm ẩn về sức khỏe hoặc phân loại bệnh nhân dựa trên tiền sử bệnh của họ.

Phát hiện gian lận: Phân loại có thể được sử dụng để xác định các giao dịch gian lận, chẳng hạn như gian lận thẻ tín dụng hoặc gian lận yêu cầu bảo hiểm.

Hệ thống khuyến nghị: Phân loại có thể được sử dụng để giới thiệu sản phẩm hoặc dịch vụ dựa trên hành vi và sở thích của người dùng

Phân loại trong học máy
Phân loại trong học máy cho phép các mô hình dự đoán nhãn lớp của dữ liệu đầu vào mới bằng cách sử dụng các mối quan hệ đã học (Tín dụng hình ảnh)

Các loại phân loại khác nhau trong học máy là gì?

Phân loại học máy là quá trình gán nhãn hoặc danh mục cho dữ liệu dựa trên các đặc điểm hoặc thuộc tính chung. Có một số loại phân loại trong học máy, mỗi loại đều có điểm mạnh và điểm yếu riêng.

Các loại phân loại chính trong học máy là:

  1. Phân loại nhị phân
  2. Phân loại nhiều lớp
  3. Phân loại nhiều nhãn
  4. Học tập không giám sát
  5. Học có giám sát
  6. Học tăng cường
  7. Phân loại hình ảnh
  8. Phân loại văn bản

Phân loại nhị phân trong học máy

Phân loại nhị phân trong học máy là một loại học có giám sát trong đó mục tiêu là dự đoán nhãn hoặc lớp nhị phân dựa trên các tính năng đầu vào. Mô hình được huấn luyện trên tập dữ liệu chứa các cặp đầu vào-đầu ra, trong đó đầu ra là nhãn nhị phân (ví dụ: 0 hoặc 1, có hoặc không, v.v.). Mô hình học cách phân biệt giữa hai lớp và dự đoán nhãn chính xác cho dữ liệu mới, chưa được nhìn thấy.

Ví dụ về phân loại nhị phân bao gồm email spam so với không phải email spam, giao dịch tài chính gian lận so với hợp pháp và chẩn đoán bệnh tật so với không phải bệnh tật.

Phân loại nhiều lớp trong học máy

Phân loại nhiều lớp trong học máy là một loại vấn đề học có giám sát trong đó mục tiêu là dự đoán một trong nhiều lớp hoặc danh mục dựa trên các tính năng đầu vào. Trong loại vấn đề này, mỗi trường hợp hoặc ví dụ thuộc về một trong một số lớp và nhiệm vụ là gán nhãn lớp cho mỗi trường hợp.

Ngược lại với phân loại nhị phân trong học máy, trong đó mục tiêu là dự đoán một trong hai lớp, phân loại nhiều lớp liên quan đến việc dự đoán một trong ba lớp trở lên. Loại vấn đề này khó khăn hơn vì mô hình cần tìm hiểu các mối quan hệ phức tạp hơn giữa các tính năng đầu vào và nhiều lớp.

Phân loại đa nhãn trong học máy

Phân loại nhiều nhãn trong học máy là một loại vấn đề học có giám sát trong đó mục tiêu là gán nhiều nhãn hoặc nhãn lớp cho từng phiên bản hoặc ví dụ. Ngược lại với phân loại nhị phân truyền thống trong đó mục tiêu là gán một nhãn cho mỗi phiên bản, phân loại nhiều nhãn cho phép mỗi phiên bản có nhiều nhãn.

Ví dụ: trong phân loại văn bản, một đoạn văn bản có thể được phân loại là “thể thao” và “chính trị” nếu nó chứa thông tin liên quan đến cả hai chủ đề. Trong phân loại hình ảnh, một hình ảnh có thể được phân loại là cả “chó” và “ngoài trời” nếu nó chứa hình ảnh một con chó được chụp ngoài trời.


Sự không chắc chắn có thể dự đoán thúc đẩy việc học máy phát huy hết tiềm năng của nó


Phân loại nhiều nhãn trong học máy đặc biệt hữu ích trong trường hợp các lớp không loại trừ lẫn nhau và một phiên bản có thể thuộc về nhiều lớp cùng một lúc. Loại vấn đề này phổ biến trong nhiều lĩnh vực khác nhau như phân loại văn bản, phân loại hình ảnh và tin sinh học.

Học tập không giám sát

Học không giám sát là một loại học máy trong đó thuật toán cố gắng tìm các mẫu hoặc mối quan hệ trong dữ liệu mà không sử dụng dữ liệu được gắn nhãn. Nói cách khác, thuật toán không được cung cấp bất kỳ thông tin nào về đầu ra hoặc nhãn lớp chính xác cho dữ liệu đầu vào.

Mục tiêu của học không giám sát là xác định các cấu trúc trong dữ liệu, chẳng hạn như cụm, thứ nguyên hoặc điểm bất thường mà không cần biết trước về đầu ra dự kiến. Điều này có thể hữu ích để khám phá các mẫu ẩn, xác định các ngoại lệ và giảm độ phức tạp của dữ liệu nhiều chiều.

Phân loại trong học máy từ dữ liệu đào tạo được gắn nhãn để xác định đặc điểm của các lớp khác nhau
Phân loại trong học máy từ dữ liệu đào tạo được gắn nhãn để xác định đặc điểm của các lớp khác nhau (Tín dụng hình ảnh)

Học có giám sát

Học có giám sát là một loại học máy trong đó thuật toán được huấn luyện trên dữ liệu được gắn nhãn, nghĩa là đầu ra hoặc nhãn lớp chính xác đã được biết cho một đầu vào nhất định. Mục tiêu của học có giám sát là đưa ra dự đoán về dữ liệu mới, chưa được nhìn thấy dựa trên các mẫu và mối quan hệ học được từ dữ liệu huấn luyện được dán nhãn.

Trong học có giám sát, thuật toán được huấn luyện trên tập dữ liệu bao gồm các cặp đầu vào-đầu ra, trong đó đầu vào là dữ liệu mà thuật toán sẽ sử dụng để đưa ra dự đoán và đầu ra là nhãn lớp hoặc giá trị đầu ra chính xác. Thuật toán học bằng cách giảm thiểu sự khác biệt giữa dự đoán của nó và kết quả đầu ra chính xác thực tế.

Học tăng cường

Học tăng cường (RL) là một trường con của học máy tập trung vào đào tạo các tác nhân đưa ra quyết định trong môi trường phức tạp, không chắc chắn. Mục tiêu của RL là tìm hiểu chính sách ánh xạ các trạng thái thành hành động theo cách tối đa hóa tín hiệu phần thưởng tích lũy.

Trong RL, tác nhân tương tác với môi trường, thực hiện hành động và nhận phần thưởng hoặc hình phạt. Mục tiêu là tìm hiểu chính sách tối đa hóa phần thưởng tích lũy theo thời gian. RL được sử dụng trong các ứng dụng như robot, chơi trò chơi và lái xe tự động.

Phân loại hình ảnh

Phân loại hình ảnh trong học máy là một loại ứng dụng liên quan đến việc đào tạo mô hình học máy để phân loại hình ảnh thành các danh mục hoặc lớp khác nhau dựa trên nội dung hình ảnh của chúng. Mục tiêu của việc phân loại hình ảnh là gán nhãn hoặc danh mục cho một hình ảnh, chẳng hạn như “chó” hoặc “ô tô”, dựa trên các đặc điểm và kiểu hình ảnh trong hình ảnh.

Quá trình phân loại hình ảnh trong học máy thường bao gồm các bước sau:

  1. Thu thập dữ liệu: Một tập dữ liệu lớn gồm các hình ảnh được thu thập và dán nhãn bằng nhãn lớp thích hợp
  2. Tiền xử lý dữ liệu: Hình ảnh được xử lý trước để nâng cao chất lượng và trích xuất các tính năng liên quan
  3. Khai thác tính năng: Các đặc điểm liên quan được trích xuất từ ​​hình ảnh, chẳng hạn như màu sắc, kết cấu và hình dạng
  4. Đào tạo người mẫu: Một mô hình học máy, chẳng hạn như mạng thần kinh tích chập (CNN), được đào tạo trên tập dữ liệu được gắn nhãn để tìm hiểu mối quan hệ giữa các đặc điểm hình ảnh và nhãn lớp
  5. Đánh giá mô hình: Mô hình đã đào tạo được đánh giá trên một tập dữ liệu thử nghiệm riêng biệt để đo hiệu suất và độ chính xác của nó
  6. Triển khai: Mô hình đã đào tạo có thể được triển khai trong ứng dụng thực tế, chẳng hạn như tìm kiếm hình ảnh, phát hiện đối tượng hoặc nhận dạng khuôn mặt

Phân loại văn bản

Phân loại văn bản trong học máy là một loại ứng dụng liên quan đến việc đào tạo mô hình học máy để phân loại tài liệu văn bản thành các danh mục hoặc lớp được xác định trước dựa trên nội dung của chúng.

Mục tiêu của việc phân loại văn bản trong học máy là tự động phân loại các tài liệu văn bản, chẳng hạn như email, tin tức hoặc bài đăng trên mạng xã hội, thành các danh mục có liên quan, chẳng hạn như “thư rác” hoặc “không phải thư rác”, “tích cực” hoặc “tiêu cực”, hoặc “thể thao” hoặc “chính trị”.

Cách triển khai phân loại trong học máy

Việc thực hiện phân loại trong học máy bao gồm một số bước. Bước đầu tiên là thu thập và tiền xử lý dữ liệu. Điều này bao gồm làm sạch dữ liệu, xử lý các giá trị bị thiếu, chuẩn hóa hoặc chia tỷ lệ dữ liệu và chia dữ liệu thành các tập huấn luyện và kiểm tra.

Điều thứ hai cần làm để triển khai phân loại trong học máy là chọn một tính năng. Chọn các tính năng phù hợp nhất có thể giúp phân loại. Điều này có thể được thực hiện bằng cách sử dụng các kỹ thuật như phân tích tương quan, thông tin lẫn nhau và loại bỏ tính năng đệ quy.

Tiếp theo, bạn cần chọn một mô hình. Chọn thuật toán phân loại phù hợp dựa trên loại vấn đề phân loại và dữ liệu. Một số thuật toán phân loại phổ biến bao gồm hồi quy logistic, cây quyết định, rừng ngẫu nhiên, máy vectơ hỗ trợ (SVM) và mạng lưới thần kinh.

Phân loại trong học máy
Phân loại trong học máy được sử dụng trong nhận dạng hình ảnh, phân loại văn bản, phát hiện gian lận, chăm sóc sức khỏe, v.v. (Tín dụng hình ảnh)

Bây giờ đến phần khó khăn nhất là đào tạo mô hình. Huấn luyện mô hình bao gồm việc cung cấp dữ liệu huấn luyện cho thuật toán đã chọn, điều chỉnh các tham số của mô hình để giảm thiểu sai số giữa đầu ra dự đoán và đầu ra thực tế, đồng thời tinh chỉnh mô hình nhiều lần cho đến khi phân loại chính xác dữ liệu huấn luyện.

Quá trình đào tạo thường bao gồm các bước sau:

Khởi tạo: Mô hình bắt đầu với một tập hợp các tham số ban đầu.

Chuyển tiếp nhân giống: Dữ liệu đầu vào được truyền qua mô hình để tạo dự đoán.

Tính toán tổn thất: Sự khác biệt giữa đầu ra dự đoán và đầu ra thực tế được tính toán và hàm mất mát được sử dụng để đo lỗi.

Lan truyền ngược: Sai số được truyền ngược qua mô hình, điều chỉnh các tham số để giảm thiểu tổn thất.

Tối ưu hóa: Các tham số của mô hình được cập nhật bằng thuật toán tối ưu hóa, chẳng hạn như giảm độ dốc, để giảm thiểu tổn thất.

Đánh giá: Hiệu suất của mô hình được đánh giá trên một bộ xác thực để theo dõi tiến trình của mô hình và ngăn chặn việc trang bị quá mức.

Sàng lọc: Các bước 3-6 được lặp lại cho đến khi mô hình phân loại chính xác dữ liệu huấn luyện và đạt được hiệu suất tốt trên tập xác thực.

Và cuối cùng nhưng không kém phần quan trọng, điều chỉnh siêu tham số. Điều chỉnh siêu tham số bao gồm việc điều chỉnh các siêu tham số của mô hình để cải thiện hiệu suất của nó. Siêu tham số là các tham số được đặt trước khi huấn luyện mô hình, chẳng hạn như tốc độ học tập, cường độ chính quy hóa và số lớp ẩn.

Tìm kiếm lưới là một kỹ thuật phổ biến được sử dụng để điều chỉnh siêu tham số. Nó liên quan đến việc thử nhiều kết hợp siêu tham số và đánh giá hiệu suất của mô hình trên một bộ xác thực cho mỗi kết hợp. Sự kết hợp có hiệu suất tốt nhất sau đó sẽ được chọn làm tập hợp siêu tham số cuối cùng.


Tín dụng hình ảnh nổi bật: kjpargeter/Freepik.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img