Logo Zephyrnet

100 câu hỏi phỏng vấn khoa học dữ liệu hàng đầu

Ngày:

Giới thiệu

Khoa học dữ liệu là một lĩnh vực đang phát triển nhanh chóng đang thay đổi cách các tổ chức hiểu và đưa ra quyết định dựa trên dữ liệu của họ. Do đó, các công ty đang ngày càng tìm cách thuê các nhà khoa học dữ liệu để giúp họ hiểu dữ liệu của mình và thúc đẩy kết quả kinh doanh. Điều này đã dẫn đến nhu cầu cao đối với các nhà khoa học dữ liệu và sự cạnh tranh cho các vị trí này có thể rất khốc liệt. Để giúp bạn chuẩn bị cho cuộc phỏng vấn về khoa học dữ liệu, chúng tôi đã biên soạn danh sách 100 câu hỏi phỏng vấn về khoa học dữ liệu hàng đầu mà bạn có thể gặp phải.

Các câu hỏi chúng tôi đã đưa vào bao gồm nhiều chủ đề, bao gồm:

  • Câu hỏi phỏng vấn Python
  • Câu hỏi phỏng vấn phân tích dữ liệu khám phá
  • Câu hỏi phỏng vấn xác suất và thống kê
  • Câu hỏi phỏng vấn Machine Learning

Mỗi câu hỏi phỏng vấn bao gồm một lời giải thích ngắn gọn về các khái niệm và kỹ năng chính mà nó kiểm tra, cũng như các mẹo về cách tiếp cận và trả lời câu hỏi. Bằng cách tự làm quen với những câu hỏi này và thực hành các câu trả lời của mình, bạn sẽ chuẩn bị tốt cho cuộc phỏng vấn tiếp theo với những câu hỏi phỏng vấn khoa học dữ liệu này.

Câu hỏi phỏng vấn về Python

Câu hỏi phỏng vấn người mới bắt đầu

Q1. Cái nào nhanh hơn, danh sách python hoặc mảng Numpy, và tại sao?

Ans. Mảng NumPy nhanh hơn danh sách Python cho các phép tính số. NumPy là một thư viện để làm việc với mảng trong Python và nó cung cấp một số hàm để thực hiện các thao tác trên mảng một cách hiệu quả.

Một lý do khiến mảng NumPy nhanh hơn danh sách Python là mảng NumPy được triển khai bằng C, trong khi danh sách Python được triển khai bằng Python. Điều này có nghĩa là các thao tác trên mảng NumPy được triển khai bằng ngôn ngữ được biên dịch, giúp chúng nhanh hơn các thao tác trên danh sách Python, vốn được triển khai bằng ngôn ngữ thông dịch.

Q2. Sự khác biệt giữa danh sách python và tuple là gì?

Ans. Trong Python, một danh sách là một tập hợp các đối tượng được sắp xếp có thể thuộc các loại khác nhau. Danh sách có thể thay đổi, nghĩa là bạn có thể thay đổi giá trị của phần tử danh sách hoặc thêm hoặc xóa phần tử khỏi danh sách. Danh sách được tạo bằng dấu ngoặc vuông và danh sách giá trị được phân tách bằng dấu phẩy.

Một bộ cũng là một tập hợp các đối tượng được sắp xếp theo thứ tự, nhưng nó là bất biến, có nghĩa là bạn không thể thay đổi giá trị của một phần tử trong bộ hoặc thêm hoặc bớt các phần tử khỏi một bộ.

Danh sách được xác định bằng dấu ngoặc vuông ([ '' ]), trong khi bộ dữ liệu được xác định bằng dấu ngoặc đơn (('', )).

Danh sách có một số phương thức tích hợp để thêm, xóa và thao tác các phần tử, trong khi bộ dữ liệu không có các phương thức này.

Nói chung, bộ dữ liệu nhanh hơn danh sách trong Python

Q3. Bộ trăn là gì? Giải thích một số tính chất của tập hợp.

Ans. Trong Python, một tập hợp là một tập hợp các đối tượng duy nhất không có thứ tự. Các tập hợp thường được sử dụng để lưu trữ một tập hợp các đối tượng riêng biệt và để thực hiện kiểm tra tư cách thành viên (tức là để kiểm tra xem một đối tượng có trong tập hợp hay không). Các tập hợp được xác định bằng dấu ngoặc nhọn ({ và }) và danh sách giá trị được phân tách bằng dấu phẩy.

Dưới đây là một số thuộc tính chính của tập hợp trong Python:

  • Các tập hợp không có thứ tự: Các tập hợp không có thứ tự cụ thể, vì vậy bạn không thể lập chỉ mục hoặc cắt chúng như bạn có thể làm với danh sách hoặc bộ dữ liệu.
  • Các bộ là duy nhất: Các bộ chỉ cho phép các đối tượng duy nhất, vì vậy nếu bạn cố gắng thêm một đối tượng trùng lặp vào một bộ, nó sẽ không được thêm vào.
  • Các tập hợp có thể thay đổi: Bạn có thể thêm hoặc xóa các phần tử khỏi một tập hợp bằng cách sử dụng các phương thức thêm và xóa.
  • Các tập hợp không được lập chỉ mục: Các tập hợp không hỗ trợ lập chỉ mục hoặc cắt, vì vậy bạn không thể truy cập các thành phần riêng lẻ của một tập hợp bằng chỉ mục.
  • Các tập hợp không thể băm: Các tập hợp có thể thay đổi, vì vậy chúng không thể được sử dụng làm khóa trong từ điển hoặc làm thành phần trong các tập hợp khác. Nếu bạn cần sử dụng một đối tượng có thể thay đổi làm khóa hoặc thành phần trong tập hợp, bạn có thể sử dụng bộ hoặc tập hợp cố định (phiên bản không thể thay đổi của tập hợp).

Q4. Đâu là sự khác biệt giữa splitvà join?

Ans. Tách và nối đều là chức năng của chuỗi python, nhưng chúng hoàn toàn khác nhau khi hoạt động.

Hàm phân tách được sử dụng để tạo danh sách từ các chuỗi dựa trên một số dấu phân cách, chẳng hạn. không gian.

Ví dụ. a = 'Đây là một chuỗi'

Li = a.split(' ')

in (li)

Đầu ra – ['Đây', 'là', 'a', 'chuỗi']

Phương thức join() là một hàm tích hợp sẵn của lớp str của Python nối một danh sách các chuỗi thành một chuỗi duy nhất. Nó được gọi trên một chuỗi dấu phân cách và được gọi với một danh sách các chuỗi sẽ được nối. Chuỗi dấu phân cách được chèn vào giữa mỗi chuỗi trong danh sách khi các chuỗi được nối.

Đây là một ví dụ về cách sử dụng phương thức join():

Ví dụ. “ “.join(li)

Đầu ra - Đây là một chuỗi

Ở đây danh sách được nối với một khoảng trắng ở giữa.

Q5. Giải thích các phép toán logic trong python.

Ans. Trong Python, các phép toán logic and, or, not có thể được sử dụng để thực hiện các phép toán boolean trên các giá trị thực (True và False).

Toán tử and trả về True nếu cả hai toán hạng đều là True và ngược lại là False.

Toán tử hoặc trả về True nếu một trong hai toán hạng là Đúng và Sai nếu cả hai toán hạng đều sai.

Toán tử not đảo ngược giá trị boolean của toán hạng của nó. Nếu toán hạng là True, không trả về Sai và nếu toán hạng là Sai, không trả về True.

Q6. Giải thích 5 chức năng hàng đầu được sử dụng cho chuỗi python.

Ans. Dưới đây là 5 hàm chuỗi Python hàng đầu:

  • len(): Hàm này trả về độ dài của một chuỗi.

s = 'Xin chào, Thế giới!'

len (s)

13

  • dải (): Hàm này xóa khoảng trắng ở đầu và cuối khỏi chuỗi.

s = 'Xin chào, Thế giới! '

s. dải()

'Chào thế giới!'

  • split(): Hàm này tách một chuỗi thành một danh sách các chuỗi con dựa trên dấu phân cách.

s = 'Xin chào, Thế giới!'

s.split(',')

['Chào thế giới!']

  • replace(): Hàm này thay thế tất cả các lần xuất hiện của một chuỗi đã chỉ định bằng một chuỗi khác.

s = 'Xin chào, Thế giới!'

s.replace('Thế giới', 'Vũ trụ')

'Xin chào, Vũ trụ!'

  • Upper() và Lower(): Các hàm này lần lượt chuyển đổi một chuỗi thành chữ hoa hoặc chữ thường.

s = 'Xin chào, Thế giới!'

s.upper()

'CHÀO THẾ GIỚI!'

Chậm hơn()

'Chào thế giới!'

Q7. Việc sử dụng từ khóa pass trong python là gì?

Ans. pass là một câu lệnh null không làm gì cả. Nó thường được sử dụng như một trình giữ chỗ trong đó một câu lệnh được yêu cầu về mặt cú pháp, nhưng không cần thực hiện hành động nào. Ví dụ: nếu bạn muốn định nghĩa một hàm hoặc một lớp nhưng vẫn chưa quyết định nó sẽ làm gì, bạn có thể sử dụng pass làm trình giữ chỗ.

Q8. Việc sử dụng từ khóa continue trong python là gì?

Ans. continue được sử dụng trong một vòng lặp để bỏ qua lần lặp hiện tại và chuyển sang bước tiếp theo. Khi gặp continue, lần lặp hiện tại của vòng lặp sẽ kết thúc và lần lặp tiếp theo bắt đầu.

Câu hỏi phỏng vấn trung gian

Q9. Các kiểu dữ liệu không thay đổi và có thể thay đổi là gì?

Ans. Trong Python, một đối tượng bất biến là một đối tượng mà trạng thái của nó không thể thay đổi được sau khi nó được tạo. Điều này có nghĩa là bạn không thể thay đổi giá trị của một đối tượng bất biến sau khi nó được tạo. Ví dụ về các đối tượng bất biến trong Python bao gồm các số (chẳng hạn như số nguyên, số thực và số phức), chuỗi và bộ dữ liệu.

Mặt khác, một đối tượng có thể thay đổi là một đối tượng mà trạng thái của nó có thể được sửa đổi sau khi nó được tạo. Điều này có nghĩa là bạn có thể thay đổi giá trị của một đối tượng có thể thay đổi sau khi nó được tạo. Ví dụ về các đối tượng có thể thay đổi trong Python bao gồm danh sách và từ điển.

Hiểu được sự khác biệt giữa các đối tượng không thể thay đổi và có thể thay đổi trong Python là rất quan trọng vì nó có thể ảnh hưởng đến cách bạn sử dụng và thao tác dữ liệu trong mã của mình. Ví dụ: nếu bạn có một danh sách các số và bạn muốn sắp xếp danh sách theo thứ tự tăng dần, bạn có thể sử dụng phương thức sort() tích hợp sẵn để thực hiện việc này. Tuy nhiên, nếu bạn có một bộ số, bạn không thể sử dụng phương thức sort() vì các bộ là bất biến. Thay vào đó, bạn sẽ phải tạo một bộ dữ liệu được sắp xếp mới từ bộ dữ liệu ban đầu.

Q10. Việc sử dụng khối thử và chấp nhận trong python là gì

Ans. Khối thử và ngoại trừ trong Python được sử dụng để xử lý các ngoại lệ. Một ngoại lệ là một lỗi xảy ra trong quá trình thực hiện một chương trình.

Khối thử chứa mã có thể gây ra ngoại lệ. Khối ngoại trừ chứa mã được thực thi nếu một ngoại lệ được đưa ra trong quá trình thực hiện khối thử.

Sử dụng khối thử ngoại trừ sẽ lưu mã khỏi xảy ra lỗi và có thể được thực thi với thông báo hoặc đầu ra mà chúng tôi muốn trong khối ngoại trừ.

Q11. 2 kiểu dữ liệu có thể thay đổi và 2 bất biến trong python là gì?

Ans. 2 loại dữ liệu có thể thay đổi là – 

  • Từ điển
  • Danh sách

Bạn có thể thay đổi/chỉnh sửa các giá trị trong từ điển python và danh sách. Không cần thiết phải tạo một danh sách mới có nghĩa là nó thỏa mãn tính chất có thể thay đổi.

2 kiểu dữ liệu bất biến là:

  • bộ dữ liệu
  • Chuỗi

Bạn không thể chỉnh sửa một chuỗi hoặc một giá trị trong một bộ sau khi nó được tạo. Bạn cần gán các giá trị cho bộ dữ liệu hoặc tạo một bộ dữ liệu mới.

Q12. Hàm python là gì và chúng giúp tối ưu hóa mã như thế nào?

Ans.  Trong Python, hàm là một khối mã có thể được gọi bởi các phần khác trong chương trình của bạn. Các hàm hữu ích vì chúng cho phép bạn sử dụng lại mã và chia mã của bạn thành các khối logic có thể được kiểm tra và bảo trì riêng.

Để gọi một hàm trong Python, bạn chỉ cần sử dụng tên hàm theo sau là một cặp dấu ngoặc đơn và bất kỳ đối số cần thiết nào. Hàm có thể hoặc không thể trả về một giá trị tùy thuộc vào cách sử dụng câu lệnh rẽ.

Các chức năng cũng có thể giúp tối ưu hóa mã:

  1. Tái sử dụng mã: Các hàm cho phép bạn sử dụng lại mã bằng cách đóng gói mã ở một nơi duy nhất và gọi mã đó nhiều lần từ các phần khác nhau trong chương trình của bạn. Điều này có thể giúp giảm sự dư thừa và làm cho mã của bạn ngắn gọn hơn và dễ bảo trì hơn.
  2. Cải thiện khả năng đọc: Bằng cách chia mã của bạn thành các khối logic, các hàm có thể làm cho mã của bạn dễ đọc hơn và dễ hiểu hơn. Điều này có thể giúp dễ dàng xác định lỗi và thực hiện các thay đổi đối với mã của bạn.
  3. Kiểm tra dễ dàng hơn: Các chức năng cho phép bạn kiểm tra từng khối mã riêng lẻ, điều này có thể giúp tìm và sửa lỗi dễ dàng hơn.
  4. Cải thiện hiệu suất: Các chức năng cũng có thể giúp cải thiện hiệu suất mã của bạn bằng cách cho phép bạn sử dụng các thư viện mã được tối ưu hóa hoặc bằng cách cho phép trình thông dịch Python tối ưu hóa mã hiệu quả hơn.

Q13. Tại sao NumPy lại rất phổ biến trong lĩnh vực khoa học dữ liệu?

Ans. NumPy (viết tắt của Numerical Python) là một thư viện phổ biến cho tính toán khoa học bằng Python. Nó đã trở nên phổ biến trong cộng đồng khoa học dữ liệu vì nó cung cấp các công cụ nhanh chóng và hiệu quả để làm việc với các mảng và ma trận dữ liệu số lớn.

NumPy cung cấp các thao tác nhanh và hiệu quả trên các mảng và ma trận của dữ liệu số. Nó sử dụng mã C và Fortran được tối ưu hóa đằng sau hậu trường để thực hiện các thao tác này, giúp chúng nhanh hơn nhiều so với các thao tác tương đương sử dụng cấu trúc dữ liệu tích hợp sẵn của Python. Nó cung cấp các công cụ nhanh chóng và hiệu quả để làm việc với các mảng và ma trận dữ liệu số lớn.

NumPy cung cấp một số lượng lớn các hàm để thực hiện các phép toán và thống kê trên mảng và ma trận.

Nó cho phép bạn làm việc với một lượng lớn dữ liệu một cách hiệu quả. Nó cung cấp các công cụ để xử lý các tập dữ liệu lớn không vừa với bộ nhớ, chẳng hạn như các chức năng đọc và ghi dữ liệu vào đĩa và chỉ tải một phần của tập dữ liệu vào bộ nhớ tại một thời điểm.

NumPy tích hợp tốt với các thư viện máy tính khoa học khác trong Python, chẳng hạn như SciPy (Scientific Python) và pandas. Điều này giúp dễ dàng sử dụng NumPy với các thư viện khác để thực hiện các tác vụ khoa học dữ liệu phức tạp hơn.

Q14. Giải thích hiểu danh sách và hiểu chính tả.

Ans. Hiểu danh sách và hiểu chính tả đều là những cách ngắn gọn để tạo danh sách hoặc từ điển mới từ các lần lặp hiện có.

Hiểu danh sách là một cách ngắn gọn để tạo danh sách. Nó bao gồm các dấu ngoặc vuông chứa một biểu thức theo sau bởi một mệnh đề for, sau đó là XNUMX hoặc nhiều mệnh đề for hoặc if. Kết quả là một danh sách mới đánh giá biểu thức trong ngữ cảnh của mệnh đề for và if.

Đọc chính tả là một cách ngắn gọn để tạo từ điển. Nó bao gồm các dấu ngoặc nhọn chứa một cặp khóa-giá trị, theo sau là mệnh đề for, sau đó là XNUMX hoặc nhiều mệnh đề for hoặc if. Kết quả là một từ điển mới đánh giá cặp khóa-giá trị trong ngữ cảnh của mệnh đề for và if.

Q15. Biến toàn cục và biến cục bộ trong python là gì?

Ans. Trong Python, một biến được định nghĩa bên ngoài bất kỳ hàm hoặc lớp nào là biến toàn cục, trong khi biến được định nghĩa bên trong hàm hoặc lớp là biến cục bộ.

Một biến toàn cục có thể được truy cập từ bất kỳ đâu trong chương trình, kể cả các hàm và lớp bên trong. Tuy nhiên, một biến cục bộ chỉ có thể được truy cập trong hàm hoặc lớp mà nó được định nghĩa.

Điều quan trọng cần lưu ý là bạn có thể sử dụng cùng một tên cho biến toàn cục và biến cục bộ, nhưng biến cục bộ sẽ được ưu tiên hơn biến toàn cục trong hàm hoặc lớp mà nó được định nghĩa. 

# Đây là biến toàn cục

x = 10

chức năng xác định():

  # Đây là biến cục bộ

  x = 5

  in(x)my_function

func ()

print (x)

Đầu ra - Điều này sẽ in 5 và sau đó là 10

Trong ví dụ trên, biến x bên trong hàm func() là một biến cục bộ, vì vậy nó được ưu tiên hơn biến toàn cục x. Do đó, khi x được in bên trong hàm, nó sẽ in ra 5; khi nó được in ra bên ngoài chức năng, nó sẽ in 10.

Q16. một từ điển có thứ tự là gì?

Ans. Từ điển có thứ tự, còn được gọi là OrderedDict, là một lớp con của lớp từ điển Python tích hợp duy trì thứ tự của các phần tử mà chúng được thêm vào. Trong một từ điển thông thường, thứ tự của các phần tử được xác định bởi giá trị băm của các khóa của chúng, giá trị này có thể thay đổi theo thời gian khi từ điển phát triển và phát triển. Mặt khác, một từ điển có thứ tự sử dụng một danh sách được liên kết đôi để ghi nhớ thứ tự của các phần tử, do đó thứ tự của các phần tử được giữ nguyên bất kể từ điển thay đổi như thế nào.

Q17. Sự khác biệt giữa từ khóa lợi nhuận và lợi nhuận là gì?

Ans. Return được sử dụng để thoát khỏi một chức năng và trả về một giá trị cho người gọi. Khi gặp câu lệnh return, hàm sẽ kết thúc ngay lập tức và giá trị của biểu thức theo sau câu lệnh return được trả về cho người gọi.

mặt khác, năng suất được sử dụng để xác định hàm tạo. Hàm tạo là một loại hàm đặc biệt tạo ra một chuỗi các giá trị tại một thời điểm, thay vì trả về một giá trị duy nhất. Khi gặp một câu lệnh năng suất, hàm tạo sẽ tạo ra một giá trị và tạm dừng việc thực thi của nó, lưu trạng thái của nó cho lần sau

Câu hỏi phỏng vấn nâng cao

Q18. Hàm lambda trong python là gì và tại sao chúng lại quan trọng?

Ans. Trong Python, hàm lambda là một hàm ẩn danh nhỏ. Bạn có thể sử dụng hàm lambda khi không muốn xác định hàm bằng từ khóa def.

Các hàm lambda rất hữu ích khi bạn cần một hàm nhỏ trong một khoảng thời gian ngắn. Chúng thường được sử dụng kết hợp với các hàm bậc cao hơn, chẳng hạn như map(), filter() và reduce().

Đây là một ví dụ về hàm lambda trong Python:

x = lambda a : a + 10

x (5)

15

Trong ví dụ này, hàm lambda nhận một đối số (a) và thêm 10 vào đối số đó. Hàm lambda trả về kết quả của thao tác này khi nó được gọi.

Các hàm lambda rất quan trọng vì chúng cho phép bạn tạo các hàm ẩn danh nhỏ theo cách ngắn gọn. Chúng thường được sử dụng trong lập trình hàm, một mô hình lập trình nhấn mạnh việc sử dụng các hàm để giải quyết vấn đề.

Q19. Việc sử dụng từ khóa 'khẳng định' trong python là gì?

Ans. Trong Python, câu lệnh khẳng định được sử dụng để kiểm tra một điều kiện. Nếu điều kiện là True thì chương trình tiếp tục thực hiện. Nếu điều kiện là Sai, thì chương trình sẽ phát sinh một ngoại lệ AssertionError.

Câu lệnh khẳng định thường được sử dụng để kiểm tra tính nhất quán bên trong của chương trình. Ví dụ: bạn có thể sử dụng câu lệnh khẳng định để kiểm tra xem danh sách đã được sắp xếp chưa trước khi thực hiện tìm kiếm nhị phân trong danh sách.

Điều quan trọng cần lưu ý là câu lệnh khẳng định được sử dụng cho mục đích gỡ lỗi và không nhằm mục đích sử dụng như một cách để xử lý lỗi thời gian chạy. Trong mã sản xuất, bạn nên sử dụng các khối thử và ngoại trừ để xử lý các ngoại lệ có thể xuất hiện trong thời gian chạy.

Q20. Trang trí trong python là gì?

Ans. Trong Python, trình trang trí là một cách để sửa đổi hoặc mở rộng chức năng của hàm, phương thức hoặc lớp mà không thay đổi mã nguồn của chúng. Trình trang trí thường được triển khai dưới dạng các hàm nhận một hàm khác làm đối số và trả về một hàm mới có hành vi mong muốn.

Trình trang trí là một hàm đặc biệt bắt đầu bằng biểu tượng @ và được đặt ngay trước hàm, phương thức hoặc lớp mà nó trang trí. Biểu tượng @ được sử dụng để chỉ ra rằng chức năng sau đây là một công cụ trang trí.

Câu hỏi phỏng vấn về EDA và thống kê

Câu hỏi phỏng vấn người mới bắt đầu

Q21. Làm cách nào để thực hiện phân tích đơn biến cho các biến số và phân loại?

Ans. Phân tích đơn biến là một kỹ thuật thống kê được sử dụng để phân tích và mô tả các đặc điểm của một biến đơn lẻ. Nó là một công cụ hữu ích để hiểu sự phân bố, xu hướng trung tâm và sự phân tán của một biến, cũng như xác định các mẫu và mối quan hệ trong dữ liệu. Dưới đây là các bước để thực hiện phân tích đơn biến cho các biến số và phân loại:

Đối với các biến số:

Tính toán các số liệu thống kê mô tả như giá trị trung bình, trung bình, chế độ và độ lệch chuẩn để tóm tắt phân phối dữ liệu.

Trực quan hóa việc phân phối dữ liệu bằng cách sử dụng các biểu đồ như biểu đồ, biểu đồ hình hộp hoặc biểu đồ mật độ.

Kiểm tra các ngoại lệ và bất thường trong dữ liệu.

Kiểm tra tính quy phạm của dữ liệu bằng cách sử dụng các bài kiểm tra thống kê hoặc trực quan hóa, chẳng hạn như biểu đồ QQ.

Đối với các biến phân loại.

Tính toán tần suất hoặc số lượng của từng loại trong dữ liệu.

Tính tỷ lệ phần trăm hoặc tỷ lệ của từng loại trong dữ liệu.

Trực quan hóa việc phân phối dữ liệu bằng cách sử dụng các biểu đồ như biểu đồ thanh hoặc biểu đồ hình tròn.

Kiểm tra sự mất cân bằng hoặc bất thường trong phân phối dữ liệu.

Lưu ý rằng các bước cụ thể để thực hiện phân tích đơn biến có thể khác nhau tùy thuộc vào nhu cầu và mục tiêu cụ thể của phân tích. Điều quan trọng là lập kế hoạch cẩn thận và thực hiện phân tích để mô tả và hiểu dữ liệu một cách chính xác và hiệu quả.

Q22. Những cách khác nhau mà chúng ta có thể tìm thấy các ngoại lệ trong dữ liệu là gì?

Ans. Ngoại lệ là các điểm dữ liệu khác biệt đáng kể so với phần lớn dữ liệu. Chúng có thể do lỗi, sự bất thường hoặc hoàn cảnh bất thường gây ra và chúng có thể có tác động đáng kể đến các phân tích thống kê và mô hình máy học. Do đó, điều quan trọng là xác định và xử lý các ngoại lệ một cách thích hợp để có được kết quả chính xác và đáng tin cậy.

Dưới đây là một số cách phổ biến để tìm các ngoại lệ trong dữ liệu:

Kiểm tra trực quan: Các giá trị ngoại lệ thường có thể được xác định bằng cách kiểm tra trực quan dữ liệu bằng cách sử dụng các biểu đồ như biểu đồ, biểu đồ phân tán hoặc biểu đồ hình hộp.

Thống kê tóm tắt: Các giá trị ngoại lệ đôi khi có thể được xác định bằng cách tính toán các số liệu thống kê tóm tắt như giá trị trung bình, trung vị hoặc khoảng tứ phân vị và so sánh chúng với dữ liệu. Ví dụ: nếu giá trị trung bình khác biệt đáng kể so với giá trị trung bình, nó có thể cho thấy sự hiện diện của các giá trị ngoại lệ.

Điểm Z: Điểm z của một điểm dữ liệu là thước đo xem điểm đó có bao nhiêu độ lệch chuẩn so với giá trị trung bình. Các điểm dữ liệu có điểm z lớn hơn một ngưỡng nhất định (ví dụ: 3 hoặc 4) có thể được coi là ngoại lệ.

Có nhiều phương pháp khác để phát hiện các ngoại lệ trong dữ liệu và phương pháp thích hợp sẽ phụ thuộc vào các đặc điểm và nhu cầu cụ thể của dữ liệu. Điều quan trọng là phải đánh giá cẩn thận và chọn phương pháp thích hợp nhất để xác định các giá trị ngoại lai nhằm thu được kết quả chính xác và đáng tin cậy.

Q23. Các cách khác nhau mà bạn có thể gán các giá trị còn thiếu trong tập dữ liệu là gì?

Ans. Có một số cách mà bạn có thể gán giá trị null (nghĩa là giá trị bị thiếu) trong tập dữ liệu:

Xóa hàng: Một tùy chọn là chỉ cần xóa các hàng có giá trị null khỏi tập dữ liệu. Đây là một phương pháp đơn giản và nhanh chóng, nhưng có thể gặp vấn đề nếu một số lượng lớn hàng bị loại bỏ, vì nó có thể làm giảm đáng kể kích thước mẫu và ảnh hưởng đến sức mạnh thống kê của phân tích.

Xoá cột: Một tùy chọn khác là bỏ các cột có giá trị null khỏi tập dữ liệu. Đây có thể là một tùy chọn tốt nếu số lượng giá trị null lớn so với số lượng giá trị khác null hoặc nếu cột không liên quan đến phân tích.

Quy ước với giá trị trung bình hoặc trung bình: Một phương pháp quy ước phổ biến là thay thế các giá trị null bằng giá trị trung bình hoặc trung bình của các giá trị khác null trong cột. Đây có thể là một lựa chọn tốt nếu dữ liệu bị thiếu một cách ngẫu nhiên và giá trị trung bình hoặc trung vị là một đại diện hợp lý của dữ liệu.

Tranh chấp với chế độ: Một tùy chọn khác là thay thế các giá trị null bằng chế độ (nghĩa là giá trị phổ biến nhất) của các giá trị khác null trong cột. Đây có thể là một tùy chọn tốt cho dữ liệu phân loại trong đó chế độ là một biểu diễn có ý nghĩa của dữ liệu.

Quy nạp với mô hình dự đoán: Một phương pháp quy nạp khác là sử dụng mô hình dự đoán để ước tính các giá trị còn thiếu dựa trên các dữ liệu có sẵn khác. Đây có thể là một phương pháp phức tạp và tốn thời gian hơn, nhưng có thể chính xác hơn nếu dữ liệu không bị thiếu một cách ngẫu nhiên và có mối quan hệ chặt chẽ giữa các giá trị bị thiếu và dữ liệu khác.

Q24. Skewness trong thống kê và các loại của nó là gì?

Ans. Skewness là thước đo tính đối xứng của một phân phối. Một phân phối là đối xứng nếu nó có dạng như một đường cong hình chuông, với hầu hết các điểm dữ liệu tập trung xung quanh giá trị trung bình. Một phân phối bị lệch nếu nó không đối xứng, với nhiều điểm dữ liệu tập trung ở một bên của giá trị trung bình hơn bên còn lại.

Có hai loại độ lệch: độ lệch dương và độ lệch âm.

Độ lệch dương: Độ lệch dương xảy ra khi phân phối có đuôi dài ở phía bên phải, với phần lớn các điểm dữ liệu tập trung ở phía bên trái của giá trị trung bình. Độ lệch dương chỉ ra rằng có một vài giá trị cực trị ở phía bên phải của phân phối đang kéo giá trị trung bình sang phải.

Độ lệch âm: Độ lệch âm xảy ra khi phân phối có đuôi dài ở phía bên trái, với phần lớn các điểm dữ liệu tập trung ở phía bên phải của giá trị trung bình. Độ lệch âm chỉ ra rằng có một vài giá trị cực trị ở phía bên trái của phân phối đang kéo giá trị trung bình sang trái.

Câu hỏi phỏng vấn

Q25. Các biện pháp của xu hướng trung tâm là gì?

Ans. Trong thống kê, các phép đo xu hướng trung tâm là các giá trị đại diện cho trung tâm của tập dữ liệu. Có ba biện pháp chính của xu hướng trung tâm: trung bình, trung bình và chế độ.

Giá trị trung bình là giá trị trung bình số học của tập dữ liệu và được tính bằng cách cộng tất cả các giá trị trong tập dữ liệu rồi chia cho số lượng giá trị. Giá trị trung bình nhạy cảm với các giá trị ngoại lệ hoặc các giá trị cao hơn hoặc thấp hơn đáng kể so với phần lớn các giá trị khác trong tập dữ liệu.

Trung vị là giá trị ở giữa của tập dữ liệu khi các giá trị được sắp xếp theo thứ tự từ nhỏ nhất đến lớn nhất. Để tìm giá trị trung bình, trước tiên bạn phải sắp xếp các giá trị theo thứ tự rồi xác định giá trị ở giữa. Nếu có một số lượng giá trị lẻ, trung vị là giá trị ở giữa. Nếu có một số lượng giá trị chẵn, trung vị là giá trị trung bình của hai giá trị ở giữa. Trung bình không nhạy cảm với các ngoại lệ.

Chế độ là giá trị xuất hiện thường xuyên nhất trong tập dữ liệu. Một bộ dữ liệu có thể có nhiều chế độ hoặc không có chế độ nào cả. Chế độ không nhạy cảm với các ngoại lệ.

Q26.Bạn có thể giải thích sự khác biệt giữa thống kê mô tả và suy luận không?

Ans. Thống kê mô tả được sử dụng để tóm tắt và mô tả một tập dữ liệu bằng cách sử dụng các phép đo xu hướng trung tâm (trung bình, trung vị, chế độ) và các phép đo độ phân tán (độ lệch chuẩn, phương sai, phạm vi). Thống kê suy luận được sử dụng để đưa ra suy luận về dân số dựa trên một mẫu dữ liệu và sử dụng các mô hình thống kê, kiểm tra giả thuyết và ước tính.

Q27.Các yếu tố chính của báo cáo EDA là gì và chúng đóng góp như thế nào để hiểu tập dữ liệu?

Ans. Các yếu tố chính của báo cáo EDA bao gồm phân tích đơn biến, phân tích hai biến, phân tích dữ liệu bị thiếu và trực quan hóa dữ liệu cơ bản. Phân tích đơn biến giúp hiểu được sự phân bố của các biến riêng lẻ, phân tích hai biến giúp hiểu được mối quan hệ giữa các biến, phân tích dữ liệu bị thiếu giúp hiểu được chất lượng của dữ liệu và trực quan hóa dữ liệu cung cấp cách giải thích trực quan về dữ liệu.

Câu hỏi phỏng vấn trung gian

Q28 Định lý giới hạn trung tâm là gì?

Ans. Định lý giới hạn trung tâm là một khái niệm cơ bản trong thống kê phát biểu rằng khi kích thước mẫu tăng lên, phân phối của giá trị trung bình mẫu sẽ tiệm cận với phân phối chuẩn. Điều này đúng bất kể sự phân bố cơ bản của tổng thể mà từ đó mẫu được rút ra. Điều này có nghĩa là ngay cả khi các điểm dữ liệu riêng lẻ trong một mẫu không được phân phối chuẩn, thì bằng cách lấy giá trị trung bình của một số lượng đủ lớn trong số chúng, chúng ta có thể sử dụng các phương pháp dựa trên phân phối chuẩn để suy luận về tổng thể.

Q29. Đề cập đến hai loại biến mục tiêu cho mô hình dự đoán.

Ans. Hai loại biến mục tiêu là:

Biến số/Biến liên tục – Các biến có giá trị nằm trong một phạm vi, có thể là bất kỳ giá trị nào trong phạm vi đó và thời điểm dự đoán; các giá trị cũng không bị ràng buộc trong cùng một phạm vi.

Ví dụ: Chiều cao của học sinh – 5; 5.1; 6; 6.7; 7; 4.5; 5.11

Ở đây phạm vi của các giá trị là (4,7)

Và, chiều cao của một số học sinh mới có thể/không thể là bất kỳ giá trị nào từ phạm vi này.

Biến phân loại – Các biến có thể đảm nhận một trong số các giá trị có thể có giới hạn và thường cố định, gán từng cá nhân hoặc đơn vị quan sát khác cho một nhóm cụ thể trên cơ sở một số thuộc tính định tính.

Một biến phân loại có thể nhận chính xác hai giá trị được gọi là biến nhị phân hoặc biến nhị phân. Các biến phân loại có nhiều hơn hai giá trị có thể được gọi là biến đa thức

Ví dụ Kết quả thi: Đạt, Không đạt (Biến phân loại nhị phân)

Nhóm máu của một người: A, B, O, AB (biến phân loại đa hình)

Q30. Điều gì sẽ xảy ra trong trường hợp Giá trị trung bình, Trung vị và Chế độ sẽ giống nhau đối với tập dữ liệu?

Ans. Giá trị trung bình, trung vị và chế độ của tập dữ liệu sẽ giống nhau khi và chỉ khi tập dữ liệu bao gồm một giá trị duy nhất xảy ra với tần suất 100%.

Ví dụ: hãy xem xét tập dữ liệu sau: 3, 3, 3, 3, 3, 3. Giá trị trung bình của tập dữ liệu này là 3, trung vị là 3 và chế độ là 3. Điều này là do tập dữ liệu bao gồm một giá trị duy nhất ( 3) xảy ra với tần suất 100%.

Mặt khác, nếu tập dữ liệu chứa nhiều giá trị, giá trị trung bình, trung bình và chế độ thường sẽ khác nhau. Ví dụ: hãy xem xét tập dữ liệu sau: 1, 2, 3, 4, 5. Giá trị trung bình của tập dữ liệu này là 3, trung bình là 3 và chế độ là 1. Điều này là do tập dữ liệu chứa nhiều giá trị và không có giá trị nào xảy ra với tần suất 100%.

Điều quan trọng cần lưu ý là giá trị trung bình, trung bình và chế độ có thể bị ảnh hưởng bởi các giá trị ngoại lai hoặc giá trị cực đoan trong tập dữ liệu. Nếu tập dữ liệu chứa các giá trị cực đoan, giá trị trung bình và trung vị có thể khác đáng kể so với chế độ, ngay cả khi tập dữ liệu bao gồm một giá trị duy nhất xảy ra với tần suất cao.

Q31. Sự khác biệt giữa Phương sai và Xu hướng trong Thống kê là gì?

Ans. Trong thống kê, phương sai và độ lệch là hai phép đo chất lượng hoặc độ chính xác của mô hình hoặc công cụ ước tính.

Phương sai: Phương sai đo mức độ lan truyền hoặc phân tán trong tập dữ liệu. Nó được tính bằng độ lệch bình phương trung bình so với giá trị trung bình. Phương sai cao cho biết dữ liệu được trải rộng và có thể dễ bị lỗi hơn, trong khi phương sai thấp cho biết dữ liệu tập trung xung quanh giá trị trung bình và có thể chính xác hơn.

Xu hướng: Xu hướng đề cập đến sự khác biệt giữa giá trị mong đợi của một công cụ ước tính và giá trị thực của tham số được ước tính. Độ lệch cao cho biết công cụ ước tính luôn đánh giá thấp hơn hoặc đánh giá quá cao giá trị thực, trong khi độ lệch thấp cho thấy công cụ ước tính chính xác hơn.

Điều quan trọng là phải xem xét cả phương sai và độ lệch khi đánh giá chất lượng của mô hình hoặc công cụ ước tính. Một mô hình có độ lệch thấp và phương sai cao có thể dễ bị trang bị quá mức, trong khi một mô hình có độ lệch cao và phương sai thấp có thể dễ bị trang bị quá mức. Tìm kiếm sự cân bằng phù hợp giữa sai lệch và phương sai là một khía cạnh quan trọng của việc lựa chọn và tối ưu hóa mô hình.

câu hỏi phỏng vấn

Q32. Sự khác biệt giữa lỗi Loại I và Loại II là gì?

Ans. Hai loại lỗi có thể xảy ra trong kiểm định giả thuyết: Sai lầm loại I và Sai lầm loại II.

Lỗi Loại I, còn được gọi là "dương tính giả", xảy ra khi giả thuyết không đúng nhưng bị bác bỏ. Loại lỗi này được biểu thị bằng chữ cái Hy Lạp alpha (α) và thường được đặt ở mức 0.05. Điều này có nghĩa là có 5% khả năng mắc lỗi Loại I hoặc dương tính giả.

Lỗi Loại II, còn được gọi là "phủ định sai", xảy ra khi giả thuyết khống là sai nhưng không bị bác bỏ. Loại lỗi này được biểu thị bằng chữ cái Hy Lạp beta (β) và thường được biểu thị bằng 1 – β, trong đó β là sức mạnh của bài kiểm tra. Sức mạnh của bài kiểm tra là xác suất bác bỏ đúng giả thuyết không khi nó sai.

Điều quan trọng là phải cố gắng giảm thiểu khả năng xảy ra cả hai loại lỗi trong kiểm định giả thuyết.

Câu hỏi phỏng vấn

Q33. Khoảng tin cậy trong thống kê là gì?

Ans. Khoảng tin cậy là phạm vi mà chúng ta mong đợi kết quả sẽ đúng nếu chúng ta lặp lại thí nghiệm. Nó là giá trị trung bình của kết quả cộng và trừ biến thể dự kiến.

Cái sau được xác định bởi sai số chuẩn của ước tính, trong khi tâm của khoảng trùng với giá trị trung bình của ước tính. Khoảng tin cậy phổ biến nhất là 95%.

Q34.Bạn có thể giải thích khái niệm tương quan và hiệp phương sai không?

Ans. Tương quan là một phép đo thống kê mô tả cường độ và hướng của mối quan hệ tuyến tính giữa hai biến. Một mối tương quan tích cực chỉ ra rằng hai biến tăng hoặc giảm cùng nhau, trong khi một mối tương quan tiêu cực chỉ ra rằng hai biến di chuyển theo hướng ngược lại. Hiệp phương sai là thước đo độ biến thiên chung của hai biến ngẫu nhiên. Nó được sử dụng để đo lường mức độ liên quan của hai biến.

Câu hỏi phỏng vấn nâng cao

Q35. Tại sao thử nghiệm giả thuyết hữu ích cho một nhà khoa học dữ liệu?

Ans. Kiểm tra giả thuyết là một kỹ thuật thống kê được sử dụng trong khoa học dữ liệu để đánh giá tính hợp lệ của một tuyên bố hoặc giả thuyết về dân số. Nó được sử dụng để xác định xem có đủ bằng chứng để hỗ trợ cho một tuyên bố hoặc giả thuyết hay không và để đánh giá ý nghĩa thống kê của các kết quả.

Có nhiều tình huống trong khoa học dữ liệu mà việc kiểm tra giả thuyết là hữu ích. Ví dụ: nó có thể được sử dụng để kiểm tra tính hiệu quả của một chiến dịch tiếp thị mới, để xác định xem có sự khác biệt đáng kể giữa phương tiện của hai nhóm hay không, để đánh giá mối quan hệ giữa hai biến hoặc để đánh giá độ chính xác của một mô hình dự đoán.

Kiểm tra giả thuyết là một công cụ quan trọng trong khoa học dữ liệu vì nó cho phép các nhà khoa học dữ liệu đưa ra quyết định sáng suốt dựa trên dữ liệu, thay vì dựa vào các giả định hoặc ý kiến ​​chủ quan. Nó giúp các nhà khoa học dữ liệu đưa ra kết luận về dữ liệu được hỗ trợ bởi bằng chứng thống kê và truyền đạt những phát hiện của họ một cách rõ ràng và đáng tin cậy. Do đó, kiểm tra giả thuyết là một thành phần chính của phương pháp khoa học và là khía cạnh cơ bản của thực hành khoa học dữ liệu.

Q36. Thử nghiệm độc lập chi bình phương được sử dụng trong thống kê là gì?

Ans. Kiểm định chi bình phương về tính độc lập là một kiểm định thống kê được sử dụng để xác định liệu có mối liên hệ có ý nghĩa giữa hai biến phân loại hay không. Nó được sử dụng để kiểm tra giả thuyết khống rằng hai biến là độc lập, nghĩa là giá trị của một biến không phụ thuộc vào giá trị của biến kia.

Kiểm định chi bình phương về tính độc lập liên quan đến việc tính toán một thống kê chi bình phương và so sánh nó với một giá trị tới hạn để xác định xác suất xảy ra tình cờ của mối quan hệ quan sát được. Nếu xác suất thấp hơn một ngưỡng nhất định (ví dụ: 0.05), thì giả thuyết không bị bác bỏ và người ta kết luận rằng có mối liên hệ có ý nghĩa giữa hai biến.

Kiểm tra tính độc lập chi bình phương thường được sử dụng trong khoa học dữ liệu để đánh giá mối quan hệ giữa hai biến phân loại, chẳng hạn như mối quan hệ giữa giới tính và hành vi mua hàng hoặc mối quan hệ giữa trình độ học vấn và sở thích bỏ phiếu. Nó là một công cụ quan trọng để hiểu mối quan hệ giữa các biến khác nhau và để đưa ra quyết định sáng suốt dựa trên dữ liệu.

Q37. Ý nghĩa của giá trị p là gì?

Ans. Giá trị p được sử dụng để xác định ý nghĩa thống kê của một kết quả. Trong thử nghiệm giả thuyết, giá trị p được sử dụng để đánh giá xác suất thu được kết quả ít nhất là cực đoan như kết quả quan sát được, với điều kiện giả thuyết không là đúng. Nếu giá trị p nhỏ hơn mức ý nghĩa được xác định trước (thường được ký hiệu là alpha, α), thì kết quả được coi là có ý nghĩa thống kê và giả thuyết khống bị bác bỏ.

Ý nghĩa của giá trị p là nó cho phép các nhà nghiên cứu đưa ra quyết định về dữ liệu dựa trên mức độ tin cậy được xác định trước. Bằng cách thiết lập một mức ý nghĩa trước khi tiến hành kiểm tra thống kê, các nhà nghiên cứu có thể xác định liệu các kết quả có khả năng xảy ra một cách tình cờ hay liệu có một tác động thực sự nào trong dữ liệu hay không.

Q38.Các loại kỹ thuật lấy mẫu khác nhau được sử dụng bởi các nhà phân tích dữ liệu là gì?

Ans. Có nhiều loại kỹ thuật lấy mẫu khác nhau mà các nhà phân tích dữ liệu có thể sử dụng, nhưng một số loại phổ biến nhất bao gồm:

Chọn mẫu ngẫu nhiên đơn giản: Đây là hình thức lấy mẫu cơ bản trong đó mỗi thành viên của tổng thể đều có cơ hội được chọn vào mẫu như nhau.

Lấy mẫu ngẫu nhiên phân tầng: Kỹ thuật này liên quan đến việc chia dân số thành các nhóm nhỏ (hoặc tầng) dựa trên các đặc điểm nhất định, sau đó chọn một mẫu ngẫu nhiên từ mỗi tầng.

Lấy mẫu theo cụm: Kỹ thuật này liên quan đến việc chia tổng thể thành các nhóm (hoặc cụm) nhỏ hơn, sau đó chọn một mẫu ngẫu nhiên của các cụm. 

Lấy mẫu có hệ thống: Kỹ thuật này liên quan đến việc chọn mọi thành viên thứ k của dân số để đưa vào mẫu. 

Q39.Định lý Bayes là gì và nó được sử dụng như thế nào trong khoa học dữ liệu?

Ans. Định lý Bayes là một công thức toán học mô tả xác suất xảy ra của một sự kiện, dựa trên kiến ​​thức trước đây về các điều kiện có thể liên quan đến sự kiện đó. Trong khoa học dữ liệu, định lý Bayes thường được sử dụng trong thống kê Bayes và học máy, cho các nhiệm vụ như phân loại, dự đoán và ước tính.

Câu hỏi phỏng vấn

Q40.Sự khác biệt giữa kiểm tra tham số và không tham số là gì?

Ans. Kiểm tra tham số là một kiểm tra thống kê giả định rằng dữ liệu tuân theo một phân phối xác suất cụ thể, chẳng hạn như phân phối chuẩn. Một bài kiểm tra phi tham số không đưa ra bất kỳ giả định nào về phân phối xác suất cơ bản của dữ liệu.

Câu hỏi phỏng vấn liên quan đến học máy

Mới bắt đầu Câu hỏi phỏng vấn

Q41. Sự khác biệt giữa lựa chọn tính năng và trích xuất là gì?

Ans. Lựa chọn tính năng là kỹ thuật trong đó chúng tôi lọc các tính năng sẽ được cung cấp cho mô hình. Đây là nhiệm vụ trong đó chúng tôi chọn các tính năng phù hợp nhất. Các tính năng rõ ràng không có bất kỳ tầm quan trọng nào trong việc xác định dự đoán của mô hình đều bị từ chối.

Mặt khác, lựa chọn tính năng là quá trình trích xuất các tính năng từ dữ liệu thô. Nó liên quan đến việc chuyển đổi dữ liệu thô thành một tập hợp các tính năng có thể được sử dụng để đào tạo mô hình ML. 

Cả hai điều này đều rất quan trọng vì chúng giúp lọc các tính năng cho mô hình ML của chúng tôi, giúp xác định độ chính xác của mô hình.

Q42. 5 giả định cho hồi quy tuyến tính là gì?

Ans. Dưới đây là 5 giả định của hồi quy tuyến tính:

  1. Tính tuyến tính: Có một mối quan hệ tuyến tính giữa các biến độc lập và biến phụ thuộc.
  2. Tính độc lập của lỗi: Các lỗi (phần dư) độc lập với nhau.
  3. Phương sai đồng nhất: Phương sai của các lỗi là không đổi trên tất cả các giá trị được dự đoán.
  4. Tính quy tắc: Các lỗi tuân theo phân phối bình thường.
  5. Tính độc lập của các yếu tố dự đoán: Các biến độc lập không tương quan với nhau.

Q43. Sự khác biệt giữa hồi quy tuyến tính và phi tuyến tính là gì?

Ans.  Hồi quy tuyến tính là phương pháp được sử dụng để tìm mối quan hệ giữa biến phụ thuộc và một hoặc nhiều biến độc lập. Mô hình tìm thấy đường phù hợp nhất, là một hàm tuyến tính (y = mx +c) giúp điều chỉnh mô hình sao cho sai số là nhỏ nhất khi xem xét tất cả các điểm dữ liệu. Vì vậy, ranh giới quyết định của hàm hồi quy tuyến tính là tuyến tính.

Hồi quy phi tuyến tính được sử dụng để mô hình hóa mối quan hệ giữa một biến phụ thuộc và một hoặc nhiều biến độc lập bằng một phương trình phi tuyến tính. Các mô hình hồi quy phi tuyến tính linh hoạt hơn và có thể tìm thấy mối quan hệ phức tạp hơn giữa các biến.

Q44. Làm thế nào bạn sẽ xác định underfitting trong một mô hình?

Ans. Trang bị thiếu xảy ra khi một mô hình thống kê hoặc thuật toán học máy không thể nắm bắt được xu hướng cơ bản của dữ liệu. Điều này có thể xảy ra vì nhiều lý do, nhưng một nguyên nhân phổ biến là mô hình quá đơn giản và không thể nắm bắt được mức độ phức tạp của dữ liệu

Đây là cách xác định trang bị thiếu trong một mô hình:

Sai số huấn luyện của lỗi thiếu trang bị sẽ cao, tức là mô hình sẽ không thể học từ dữ liệu huấn luyện và sẽ hoạt động kém trên dữ liệu huấn luyện.

Lỗi xác thực của một mô hình thiếu phù hợp cũng sẽ cao vì nó cũng sẽ hoạt động kém trên dữ liệu mới.

Q45. Làm thế nào bạn sẽ xác định overfitting trong một mô hình?

Ans. Việc trang bị quá mức trong một mô hình xảy ra khi mô hình học toàn bộ dữ liệu đào tạo thay vì lấy tín hiệu/gợi ý từ dữ liệu và mô hình hoạt động rất tốt trên dữ liệu đào tạo và hoạt động kém trên dữ liệu thử nghiệm.

Sai số kiểm định của mô hình cao so với sai số huấn luyện. Xu hướng của một mô hình trang bị quá mức thấp trong khi phương sai cao.

Câu hỏi phỏng vấn

Q46. Một số kỹ thuật để tránh trang bị quá mức là gì?

Ans. Một số kỹ thuật có thể được sử dụng để tránh trang bị quá mức;

  • Phân tách đào tạo-xác thực-kiểm tra: Một cách để tránh trang bị quá mức là chia dữ liệu của bạn thành các tập huấn luyện, xác thực và kiểm tra. Mô hình được đào tạo trên tập huấn luyện và sau đó được đánh giá trên tập hợp lệ. Sau đó, các siêu tham số được điều chỉnh dựa trên hiệu suất trên bộ xác thực. Sau khi mô hình được hoàn thiện, nó sẽ được đánh giá trên bộ thử nghiệm.
  • Dừng sớm: Một cách khác để tránh trang bị quá mức là sử dụng dừng sớm. Điều này liên quan đến việc đào tạo mô hình cho đến khi lỗi xác thực đạt đến mức tối thiểu, sau đó dừng quá trình đào tạo. 
  • Chính quy: Chính quy hóa là một kỹ thuật có thể được sử dụng để ngăn chặn quá khớp bằng cách thêm một điều khoản phạt vào hàm mục tiêu. Thuật ngữ này khuyến khích mô hình có trọng số nhỏ, điều này có thể giúp giảm độ phức tạp của mô hình và ngăn ngừa trang bị thừa. 
  • Phương pháp tập hợp: Các phương pháp tập hợp liên quan đến việc đào tạo nhiều mô hình và sau đó kết hợp các dự đoán của chúng để đưa ra dự đoán cuối cùng. Điều này có thể giúp giảm tình trạng trang bị thừa bằng cách tính trung bình các dự đoán của các mô hình riêng lẻ, điều này có thể giúp giảm phương sai của dự đoán cuối cùng.

Q47. Một số kỹ thuật để tránh mặc đồ lót là gì?

Ans. Một số kỹ thuật để ngăn chặn trang bị thiếu trong một mô hình:

Lựa chọn tính năng: Điều quan trọng là chọn đúng tính năng cần thiết để đào tạo một mô hình vì việc chọn sai tính năng có thể dẫn đến việc trang bị không đủ.

Tăng số lượng tính năng giúp tránh trang bị thiếu

Sử dụng một mô hình học máy phức tạp hơn

Sử dụng Hyperparameter tuning để tinh chỉnh các thông số trong mô hình

Nhiễu: Nếu có nhiều nhiễu trong dữ liệu, mô hình sẽ không thể phát hiện độ phức tạp của tập dữ liệu.

Q48. Đa cộng tuyến là gì?

Ans. Đa cộng tuyến xảy ra khi hai hoặc nhiều biến dự đoán trong mô hình hồi quy bội có mối tương quan cao. Điều này có thể dẫn đến các hệ số không ổn định và không nhất quán, đồng thời gây khó khăn cho việc diễn giải kết quả của mô hình.

Nói cách khác, đa cộng tuyến xảy ra khi có mức độ tương quan cao giữa hai hoặc nhiều biến dự đoán. Điều này có thể gây khó khăn cho việc xác định đóng góp duy nhất của từng biến dự báo cho biến phản hồi, vì các ước tính về hệ số của chúng có thể bị ảnh hưởng bởi các biến tương quan khác.

Q49. Giải thích các vấn đề hồi quy và phân loại.

Ans. Hồi quy là một phương pháp mô hình hóa mối quan hệ giữa một hoặc nhiều biến độc lập và biến phụ thuộc. Mục tiêu của hồi quy là hiểu các biến độc lập có liên quan như thế nào với biến phụ thuộc và để có thể đưa ra dự đoán về giá trị của biến phụ thuộc dựa trên các giá trị mới của các biến độc lập.

Vấn đề phân loại là một loại vấn đề học máy trong đó mục tiêu là dự đoán nhãn rời rạc cho một đầu vào nhất định. Nói cách khác, đó là vấn đề xác định tập hợp danh mục nào mà một quan sát mới thuộc về, trên cơ sở tập huấn luyện dữ liệu chứa các quan sát.

Q50. Sự khác biệt giữa K-means và KNN là gì?

Ans. K-có nghĩa là và KNN (K-Hàng xóm gần nhất) là hai thuật toán học máy khác nhau.

K-means là một thuật toán phân cụm được sử dụng để chia một nhóm điểm dữ liệu thành K cụm, trong đó mỗi điểm dữ liệu thuộc về cụm có giá trị trung bình gần nhất. Đây là một thuật toán lặp gán các điểm dữ liệu cho một cụm và sau đó cập nhật trọng tâm (trung bình) của cụm dựa trên các điểm dữ liệu được gán cho nó.

Mặt khác, KNN là một thuật toán phân loại được sử dụng để phân loại các điểm dữ liệu dựa trên sự giống nhau của chúng với các điểm dữ liệu khác. Nó hoạt động bằng cách tìm K điểm dữ liệu trong tập huấn luyện giống nhất với điểm dữ liệu được phân loại, sau đó gán điểm dữ liệu cho lớp phổ biến nhất trong số K điểm dữ liệu đó.

Vì vậy, tóm lại, K-means được sử dụng để phân cụm và KNN được sử dụng để phân loại.

Q51. Sự khác biệt giữa Sigmoid và Softmax là gì?

Ans. Trong hàm Sigmoid nếu đầu ra của bạn là nhị phân (0,1) thì hãy sử dụng hàm sigmoid cho lớp đầu ra. Hàm sigmoid xuất hiện trong lớp đầu ra của mô hình học sâu và được sử dụng để dự đoán đầu ra dựa trên xác suất.

Hàm softmax là một loại Hàm kích hoạt khác được sử dụng trong mạng thần kinh để tính toán phân phối xác suất từ ​​một vectơ số thực.

Hàm này chủ yếu được sử dụng trong các mô hình nhiều lớp, trong đó nó trả về xác suất của từng lớp, trong đó lớp mục tiêu có xác suất cao nhất.

Sự khác biệt chính giữa chức năng Kích hoạt sigmoid và softmax là trong khi chức năng trước được sử dụng trong phân loại nhị phân, thì chức năng sau được sử dụng để phân loại đa biến

học máy

Q52. Chúng ta có thể sử dụng hồi quy logistic để phân loại nhiều lớp không?

Ans. Có, hồi quy logistic có thể được sử dụng để phân loại nhiều lớp.

Hồi quy logistic là một thuật toán phân loại được sử dụng để dự đoán xác suất của một điểm dữ liệu thuộc về một lớp nhất định. Nó là một thuật toán phân loại nhị phân, có nghĩa là nó chỉ có thể xử lý hai lớp. Tuy nhiên, có nhiều cách để mở rộng hồi quy logistic thành phân loại đa lớp.

Một cách để làm điều này là sử dụng chiến lược một đấu với tất cả (OvA) hoặc một đấu với phần còn lại (OvR), trong đó bạn huấn luyện K bộ phân loại hồi quy logistic, một bộ phân loại cho mỗi lớp và gán một điểm dữ liệu cho lớp có xác suất dự đoán cao nhất. Đây được gọi là OvA nếu bạn huấn luyện một bộ phân loại cho mỗi lớp và lớp còn lại là “phần còn lại” của các lớp. Điều này được gọi là OvR nếu bạn huấn luyện một bộ phân loại cho mỗi lớp và lớp còn lại là “tất cả” của các lớp.

Một cách khác để làm điều này là sử dụng hồi quy logistic đa thức, đây là cách tổng quát hóa hồi quy logistic cho trường hợp bạn có nhiều hơn hai lớp. Trong hồi quy logistic đa thức, bạn đào tạo một trình phân loại hồi quy logistic cho từng cặp lớp và bạn sử dụng xác suất dự đoán để gán điểm dữ liệu cho lớp có xác suất cao nhất.

Vì vậy, tóm lại, hồi quy logistic có thể được sử dụng để phân loại đa lớp bằng cách sử dụng OvA/OvR hoặc hồi quy logistic đa thức.

Q53. Bạn có thể giải thích sự đánh đổi sai lệch-phương sai trong bối cảnh học máy có giám sát không?

Ans. Trong học máy có giám sát, mục tiêu là xây dựng một mô hình có thể đưa ra dự đoán chính xác về dữ liệu chưa nhìn thấy. Tuy nhiên, có một sự đánh đổi giữa khả năng mô hình phù hợp tốt với dữ liệu đào tạo (độ lệch thấp) và khả năng khái quát hóa thành dữ liệu mới (phương sai thấp).

Một mô hình có độ lệch cao có xu hướng không phù hợp với dữ liệu, điều đó có nghĩa là nó không đủ linh hoạt để nắm bắt các mẫu trong dữ liệu. Mặt khác, một mô hình có phương sai cao có xu hướng khớp dữ liệu quá mức, nghĩa là nó quá nhạy cảm với nhiễu và biến động ngẫu nhiên trong dữ liệu huấn luyện.

Sự đánh đổi sai lệch-phương sai đề cập đến sự đánh đổi giữa hai loại lỗi này. Một mô hình có độ lệch thấp và phương sai cao có khả năng làm dữ liệu quá khớp, trong khi một mô hình có độ lệch cao và phương sai thấp có khả năng làm sai dữ liệu.

Để cân bằng sự đánh đổi giữa sai lệch và phương sai, chúng ta cần tìm một mô hình có mức độ phức tạp phù hợp cho vấn đề hiện tại. Nếu mô hình quá đơn giản, nó sẽ có độ lệch cao và phương sai thấp, nhưng nó sẽ không thể nắm bắt được các mẫu cơ bản trong dữ liệu. Nếu mô hình quá phức tạp, nó sẽ có độ lệch thấp và phương sai cao, nhưng nó sẽ nhạy cảm với nhiễu trong dữ liệu và nó sẽ không tổng quát tốt cho dữ liệu mới.

Q54. Làm thế nào để bạn quyết định xem một mô hình đang bị sai lệch cao hay sai lệch cao?

Ans. Có một số cách để xác định xem một mô hình đang bị sai lệch cao hay phương sai cao. Một số phương pháp phổ biến là:

Chia dữ liệu thành tập huấn luyện và tập kiểm tra, đồng thời kiểm tra hiệu suất của mô hình trên cả hai tập. Nếu mô hình hoạt động tốt trên tập huấn luyện nhưng kém trên tập kiểm tra, nó có khả năng bị phương sai cao (quá khớp). Nếu mô hình hoạt động kém trên cả hai bộ, nó có khả năng bị sai lệch cao (không phù hợp).

Sử dụng xác thực chéo để ước tính hiệu suất của mô hình. Nếu mô hình có phương sai cao, hiệu suất sẽ thay đổi đáng kể tùy thuộc vào dữ liệu được sử dụng để đào tạo và thử nghiệm. Nếu mô hình có độ lệch cao, thì hiệu suất sẽ luôn ở mức thấp trên các phần chia dữ liệu khác nhau.

Vẽ đồ thị đường cong học tập, biểu thị hiệu suất của mô hình trên tập huấn luyện và tập kiểm tra dưới dạng một hàm của số lượng ví dụ huấn luyện. Một mô hình có độ lệch cao sẽ có lỗi đào tạo cao và lỗi kiểm tra cao, trong khi mô hình có phương sai cao sẽ có lỗi đào tạo thấp và lỗi kiểm tra cao.

Q55. Một số kỹ thuật để cân bằng độ lệch và phương sai trong một mô hình là gì?

Ans. Có một số kỹ thuật có thể được sử dụng để cân bằng độ lệch và phương sai trong một mô hình, bao gồm:

Tăng độ phức tạp của mô hình bằng cách thêm nhiều tham số hoặc tính năng hơn: Điều này có thể giúp mô hình nắm bắt các mẫu phức tạp hơn trong dữ liệu và giảm sai lệch, nhưng nó cũng có thể làm tăng phương sai nếu mô hình trở nên quá phức tạp.

Giảm độ phức tạp của mô hình bằng cách loại bỏ các tham số hoặc tính năng: Điều này có thể giúp mô hình tránh bị quá khớp và giảm phương sai, nhưng nó cũng có thể làm tăng độ lệch nếu mô hình trở nên quá đơn giản.

Sử dụng các kỹ thuật chính quy hóa: Các kỹ thuật này hạn chế độ phức tạp của mô hình bằng cách xử phạt các trọng số lớn, điều này có thể giúp mô hình tránh bị quá khớp và giảm phương sai. Một số ví dụ về kỹ thuật chính quy hóa là chính quy hóa L1, chính quy hóa L2 và chính quy hóa mạng đàn hồi.

Tách dữ liệu thành tập huấn luyện và tập kiểm tra: Điều này cho phép chúng tôi đánh giá khả năng khái quát hóa của mô hình và điều chỉnh độ phức tạp của mô hình để đạt được sự cân bằng tốt giữa độ lệch và phương sai.

Sử dụng xác thực chéo: Đây là một kỹ thuật để đánh giá hiệu suất của mô hình trên các phần tách dữ liệu khác nhau và tính trung bình các kết quả để có được ước tính chính xác hơn 

về khả năng khái quát hóa của mô hình.

Q56. Làm thế nào để bạn chọn số liệu đánh giá thích hợp cho một vấn đề phân loại và làm thế nào để bạn giải thích kết quả đánh giá?

Ans. Có nhiều thước đo đánh giá mà bạn có thể sử dụng cho một vấn đề phân loại và thước đo phù hợp tùy thuộc vào đặc điểm cụ thể của vấn đề và mục tiêu của đánh giá. Một số chỉ số đánh giá phổ biến để phân loại bao gồm:

Độ chính xác: Đây là thước đo đánh giá phổ biến nhất để phân loại. Nó đo tỷ lệ phần trăm dự đoán chính xác được thực hiện bởi mô hình.

Độ chính xác: Số liệu này đo tỷ lệ các dự đoán tích cực thực sự trong số tất cả các dự đoán tích cực do mô hình đưa ra.

Gợi lại: Số liệu này đo lường tỷ lệ dự đoán dương tính thực sự trong số tất cả các trường hợp dương tính thực tế trong bộ thử nghiệm.

Điểm F1: Đây là trung bình điều hòa của độ chính xác và thu hồi. Đây là một số liệu tốt để sử dụng khi bạn muốn cân bằng độ chính xác và khả năng thu hồi.

AUC-ROC: Số liệu này đo lường khả năng của mô hình để phân biệt giữa các lớp tích cực và tiêu cực. Nó thường được sử dụng cho các vấn đề phân loại không cân bằng.

Để giải thích kết quả đánh giá, bạn nên xem xét các đặc điểm cụ thể của vấn đề và mục tiêu của đánh giá. Ví dụ: nếu bạn đang cố gắng xác định các giao dịch gian lận, bạn có thể quan tâm nhiều hơn đến việc tối đa hóa độ chính xác vì bạn muốn giảm thiểu số lượng báo động sai. Mặt khác, nếu bạn đang cố gắng chẩn đoán một căn bệnh, bạn có thể quan tâm nhiều hơn đến việc tối đa hóa khả năng nhớ lại, bởi vì bạn muốn giảm thiểu số lần chẩn đoán bị bỏ sót.

Q57. Sự khác biệt giữa K-mean và phân cụm theo thứ bậc là gì và khi nào thì sử dụng cái gì?

Ans. K-mean và phân cụm theo cấp bậc là hai phương pháp khác nhau để phân cụm dữ liệu. Cả hai phương pháp có thể hữu ích trong các tình huống khác nhau.

K-mean là thuật toán dựa trên trọng tâm hoặc thuật toán dựa trên khoảng cách, trong đó chúng tôi tính toán khoảng cách để gán một điểm cho một cụm. K-means rất nhanh và hiệu quả về mặt thời gian tính toán, nhưng nó có thể không tìm được phương án tối ưu toàn cầu vì nó sử dụng các khởi tạo ngẫu nhiên cho các hạt trung tâm.

Mặt khác, phân cụm theo cấp bậc là một thuật toán dựa trên mật độ không yêu cầu chúng tôi chỉ định trước số lượng cụm. Nó xây dựng một hệ thống phân cấp các cụm bằng cách tạo một sơ đồ giống như cây, được gọi là chương trình dendrogram. Có hai loại phân cụm theo thứ bậc chính: kết tụ và chia rẽ. Phân cụm tổng hợp bắt đầu với các điểm riêng lẻ dưới dạng các cụm riêng biệt và hợp nhất chúng thành các cụm lớn hơn, trong khi phân cụm phân chia bắt đầu với tất cả các điểm trong một cụm và chia chúng thành các cụm nhỏ hơn. Phân cụm theo cấp bậc là một thuật toán chậm và đòi hỏi nhiều tài nguyên tính toán, nhưng nó chính xác hơn K-mean.

Vì vậy, khi nào nên sử dụng phương tiện K và khi nào nên sử dụng phân cụm theo cấp bậc? Nó thực sự phụ thuộc vào kích thước và cấu trúc dữ liệu của bạn, cũng như các tài nguyên bạn có sẵn. Nếu bạn có một tập dữ liệu lớn và bạn muốn phân cụm nó một cách nhanh chóng, thì K-means có thể là một lựa chọn tốt. Nếu bạn có một tập dữ liệu nhỏ hoặc nếu bạn muốn phân cụm chính xác hơn, thì phân cụm theo thứ bậc có thể là lựa chọn tốt hơn.

Câu hỏi phỏng vấn

Q58. Làm cách nào bạn có thể xử lý các lớp mất cân bằng trong mô hình hồi quy logistic?

Ans. Có một số cách để xử lý các lớp mất cân bằng trong mô hình hồi quy logistic. Một số cách tiếp cận bao gồm:

Lấy mẫu dưới lớp đa số: Điều này liên quan đến việc chọn ngẫu nhiên một tập hợp con của các mẫu thuộc lớp đa số để sử dụng trong quá trình huấn luyện mô hình. Điều này có thể giúp cân bằng sự phân bổ lớp, nhưng nó cũng có thể làm mất đi thông tin có giá trị.

Lấy mẫu quá mức lớp thiểu số: Điều này liên quan đến việc tạo các mẫu tổng hợp của lớp thiểu số để thêm vào tập huấn luyện. Một phương pháp phổ biến để tạo các mẫu tổng hợp được gọi là SMOTE (Kỹ thuật lấy mẫu tổng hợp thiểu số tổng hợp).

Điều chỉnh trọng số của lớp: Nhiều thuật toán học máy cho phép bạn điều chỉnh trọng số của từng lớp. Trong hồi quy logistic, bạn có thể thực hiện việc này bằng cách đặt tham số class_weight thành “cân bằng”. Điều này sẽ tự động cân nhắc các lớp tỷ lệ nghịch với tần suất của chúng, để mô hình chú ý nhiều hơn đến lớp thiểu số.

Sử dụng một chỉ số đánh giá khác: Trong các nhiệm vụ phân loại không cân bằng, việc sử dụng các chỉ số đánh giá nhạy cảm với sự mất cân bằng của lớp, chẳng hạn như độ chính xác, thu hồi và điểm F1, sẽ mang lại nhiều thông tin hơn.

Sử dụng một thuật toán khác: Một số thuật toán, chẳng hạn như cây quyết định và Rừng ngẫu nhiên, mạnh mẽ hơn đối với các lớp mất cân bằng và có thể hoạt động tốt hơn trên các bộ dữ liệu mất cân bằng.

Q59. Khi nào không sử dụng PCA để giảm kích thước?

Ans. Có một số trường hợp bạn có thể không muốn sử dụng Phân tích thành phần chính (PCA) để giảm kích thước:

Khi dữ liệu không thể phân tách tuyến tính: PCA là một kỹ thuật tuyến tính, do đó, nó có thể không hiệu quả trong việc giảm số chiều của dữ liệu không thể phân tách tuyến tính.

Khi dữ liệu có các tính năng phân loại: PCA được thiết kế để hoạt động với dữ liệu số liên tục và có thể không hiệu quả trong việc giảm kích thước của dữ liệu với các tính năng phân loại.

Khi dữ liệu có nhiều giá trị bị thiếu: PCA nhạy cảm với các giá trị bị thiếu và có thể không hoạt động tốt với các tập dữ liệu có nhiều giá trị bị thiếu.

Khi dữ liệu mất cân bằng cao: PCA nhạy cảm với sự mất cân bằng lớp và có thể không tạo ra kết quả tốt trên các tập dữ liệu mất cân bằng cao.

Khi mục tiêu là duy trì mối quan hệ giữa các tính năng ban đầu: PCA là một kỹ thuật tìm kiếm các mẫu trong dữ liệu và tạo các tính năng mới là sự kết hợp của các tính năng ban đầu. Do đó, nó có thể không phải là lựa chọn tốt nhất nếu mục tiêu là duy trì mối quan hệ giữa các tính năng ban đầu.

Q60. Gốc dốc là gì?

Ans. Xuống dốc là một thuật toán tối ưu hóa được sử dụng trong học máy để tìm giá trị của các tham số (hệ số và độ lệch) của một mô hình giúp giảm thiểu hàm chi phí. Đây là thuật toán tối ưu hóa lặp bậc nhất tuân theo độ dốc âm của hàm chi phí để hội tụ về mức tối thiểu toàn cầu.

Khi giảm độ dốc, các tham số của mô hình được khởi tạo với các giá trị ngẫu nhiên và thuật toán cập nhật lặp lại các tham số theo hướng ngược lại với độ dốc của hàm chi phí đối với các tham số. Kích thước của bản cập nhật được xác định bởi tốc độ học tập, đây là một siêu tham số kiểm soát tốc độ hội tụ của thuật toán đến mức tối thiểu chung.

Khi thuật toán cập nhật các tham số, hàm chi phí giảm và hiệu suất của mô hình được cải thiện

Q61. Sự khác biệt giữa MinMaxScaler và StandardScaler là gì?

Ans. Cả MinMaxScaler và StandardScaler đều là những công cụ được sử dụng để chuyển đổi các tính năng của tập dữ liệu để chúng có thể được mô hình hóa tốt hơn bằng thuật toán máy học. Tuy nhiên, chúng hoạt động theo những cách khác nhau.

MinMaxScaler chia tỷ lệ các tính năng của tập dữ liệu bằng cách chuyển đổi chúng thành một phạm vi cụ thể, thường là từ 0 đến 1. Nó thực hiện điều này bằng cách lấy tất cả các giá trị trong tính năng đó trừ đi giá trị tối thiểu của từng tính năng, sau đó chia kết quả cho phạm vi (tức là , chênh lệch giữa giá trị tối thiểu và tối đa). Phép biến đổi này được cho bởi phương trình sau:

x_scaled = (x – x_min) / (x_max – x_min)

StandardScaler tiêu chuẩn hóa các tính năng của tập dữ liệu bằng cách chuyển đổi chúng thành giá trị trung bình bằng XNUMX và phương sai đơn vị. Nó thực hiện điều này bằng cách trừ đi giá trị trung bình của từng tính năng từ tất cả các giá trị trong tính năng đó, sau đó chia kết quả cho độ lệch chuẩn. Phép biến đổi này được cho bởi phương trình sau:

x_scaled = (x – Mean(x)) / std(x)

Nói chung, StandardScaler phù hợp hơn với các bộ dữ liệu có phân phối các tính năng xấp xỉ bình thường hoặc Gaussian. MinMaxScaler phù hợp hơn với các tập dữ liệu có phân phối bị sai lệch hoặc có các giá trị ngoại lai. Tuy nhiên, bạn nên trực quan hóa dữ liệu và hiểu sự phân bố của các tính năng trước khi chọn phương pháp chia tỷ lệ.

Q62. Sự khác biệt giữa học tập có giám sát và không giám sát là gì?

Ans.Trong học có giám sát, tập huấn luyện mà bạn cung cấp cho thuật toán bao gồm

giải pháp, được gọi là nhãn

Ex = Spam Filter (Vấn đề phân loại)

k-Những người hàng xóm gần nhất

  • linear Regression
  • Hồi quy logistic
  • Máy Vector hỗ trợ (SVM)
  • Cây quyết định và rừng ngẫu nhiên
  • Mạng lưới thần kinh

Trong học tập không giám sát, dữ liệu đào tạo không được gắn nhãn.

Giả sử, Hệ thống cố gắng học mà không cần giáo viên.

Clustering

—K-Mean

—DBSCAN

—Phân tích cụm phân cấp (HCA)

  • Phát hiện bất thường và phát hiện tính mới

—SVM một lớp

—Rừng cách ly

  • Trực quan hóa và giảm kích thước

—Phân tích thành phần chính (PCA)

—PCA hạt nhân

—Nhúng tuyến tính cục bộ (LLE)

—t-Nhúng hàng xóm ngẫu nhiên phân tán (t-SNE)

Q63. Một số phương pháp phổ biến để điều chỉnh siêu tham số là gì?

Ans. Có một số phương pháp phổ biến để điều chỉnh siêu tham số:

Tìm kiếm lưới: Điều này liên quan đến việc chỉ định một tập hợp các giá trị cho từng siêu tham số và mô hình được đào tạo và đánh giá bằng cách sử dụng kết hợp tất cả các giá trị siêu tham số có thể. Điều này có thể tốn kém về mặt tính toán, vì số lượng kết hợp tăng theo cấp số nhân với số lượng siêu đường kính.

Tìm kiếm ngẫu nhiên: Điều này liên quan đến việc lấy mẫu các tổ hợp siêu tham số ngẫu nhiên và đào tạo cũng như đánh giá mô hình cho từng tổ hợp. Điều này đòi hỏi ít tính toán hơn so với tìm kiếm dạng lưới, nhưng có thể kém hiệu quả hơn trong việc tìm kiếm tập hợp siêu đường kính tối ưu.

Q64. Bạn quyết định kích thước của các bộ kiểm tra và xác nhận như thế nào?

Ans. Kích thước của tập dữ liệu: Nói chung, tập dữ liệu càng lớn thì bộ kiểm tra và xác thực càng lớn. Điều này là do có nhiều dữ liệu hơn để xử lý, do đó, các bộ kiểm tra và xác thực có thể mang tính đại diện hơn cho tập dữ liệu tổng thể.

Độ phức tạp của mô hình: Nếu mô hình rất đơn giản, nó có thể không yêu cầu nhiều dữ liệu để xác thực và kiểm tra. Mặt khác, nếu mô hình rất phức tạp, nó có thể yêu cầu nhiều dữ liệu hơn để đảm bảo rằng nó mạnh mẽ và khái quát hóa tốt cho dữ liệu chưa nhìn thấy.

Mức độ không chắc chắn: Nếu mô hình được kỳ vọng sẽ thực hiện rất tốt nhiệm vụ, thì các bộ kiểm tra và xác nhận có thể nhỏ hơn. Tuy nhiên, nếu hiệu suất của mô hình không chắc chắn hoặc nhiệm vụ rất khó khăn, thì có thể hữu ích nếu có các bộ kiểm tra và xác thực lớn hơn để có được đánh giá chính xác hơn về hiệu suất của mô hình.

Các tài nguyên có sẵn: Kích thước của các bộ kiểm tra và xác thực cũng có thể bị giới hạn bởi các tài nguyên tính toán có sẵn. Có thể không thực tế khi sử dụng các bộ kiểm tra và xác thực rất lớn nếu mất nhiều thời gian để đào tạo và đánh giá mô hình.

Q65. Làm thế nào để bạn đánh giá hiệu suất của một mô hình cho một vấn đề phân loại nhiều lớp?

Ans. Một cách tiếp cận để đánh giá mô hình phân loại nhiều lớp là tính toán một chỉ số đánh giá riêng cho từng lớp, sau đó tính trung bình vĩ mô hoặc vi mô. Trung bình vĩ mô mang lại trọng số bằng nhau cho tất cả các lớp, trong khi trung bình vi mô mang lại nhiều trọng số hơn cho các lớp có nhiều quan sát hơn. Ngoài ra, một số chỉ số thường được sử dụng cho các vấn đề phân loại nhiều lớp như ma trận nhầm lẫn, độ chính xác, thu hồi, điểm F1, Độ chính xác và ROC-AUC cũng có thể được sử dụng.

Q66. Sự khác biệt giữa Học thống kê và Học máy với các ví dụ của chúng là gì?

Ans. Học thống kê và học máy là cả hai phương pháp được sử dụng để đưa ra dự đoán hoặc quyết định dựa trên dữ liệu. Tuy nhiên, có một số khác biệt chính giữa hai cách tiếp cận:

Học tập thống kê tập trung vào việc đưa ra dự đoán hoặc quyết định dựa trên mô hình thống kê của dữ liệu. Mục tiêu là để hiểu mối quan hệ giữa các biến trong dữ liệu và đưa ra dự đoán dựa trên các mối quan hệ đó. Mặt khác, học máy tập trung vào việc đưa ra dự đoán hoặc quyết định dựa trên các mẫu trong dữ liệu mà không nhất thiết phải cố gắng hiểu mối quan hệ giữa các biến.

Các phương pháp học thống kê thường dựa trên các giả định mạnh mẽ về phân phối dữ liệu, chẳng hạn như tính quy tắc hoặc tính độc lập của lỗi. Mặt khác, các phương pháp học máy thường mạnh mẽ hơn để vi phạm các giả định này.

Các phương pháp học thống kê thường dễ hiểu hơn vì mô hình thống kê có thể được sử dụng để hiểu mối quan hệ giữa các biến trong dữ liệu. Mặt khác, các phương pháp học máy thường ít diễn giải hơn vì chúng dựa trên các mẫu trong dữ liệu thay vì các mối quan hệ rõ ràng giữa các biến.

Ví dụ: hồi quy tuyến tính là một phương pháp học thống kê giả định mối quan hệ tuyến tính giữa biến dự đoán và biến đích và ước tính các hệ số của mô hình tuyến tính bằng thuật toán tối ưu hóa. Rừng ngẫu nhiên là một phương pháp học máy xây dựng một tập hợp các cây quyết định và đưa ra dự đoán dựa trên mức trung bình của các dự đoán của từng cây. 

Q67. Làm thế nào là dữ liệu chuẩn hóa có lợi cho việc tạo ra các mô hình trong khoa học dữ liệu?

Ans. Cải thiện hiệu suất mô hình: Chuẩn hóa dữ liệu có thể cải thiện hiệu suất của một số mô hình máy học, đặc biệt là những mô hình nhạy cảm với quy mô của dữ liệu đầu vào. Ví dụ: chuẩn hóa dữ liệu có thể cải thiện hiệu suất của các thuật toán như K-láng giềng gần nhất và mạng thần kinh.

So sánh tính năng dễ dàng hơn: Bình thường hóa dữ liệu có thể giúp so sánh tầm quan trọng của các tính năng khác nhau dễ dàng hơn. Nếu không chuẩn hóa, các tính năng có tỷ lệ lớn có thể chiếm ưu thế trong mô hình, gây khó khăn cho việc xác định tầm quan trọng tương đối của các tính năng khác.

Giảm tác động của các ngoại lệ: Chuẩn hóa dữ liệu có thể làm giảm tác động của các giá trị ngoại lai đối với mô hình, khi chúng được thu nhỏ lại cùng với phần còn lại của dữ liệu. Điều này có thể cải thiện độ chắc chắn của mô hình và ngăn không cho mô hình bị ảnh hưởng bởi các giá trị cực đoan.

Cải thiện khả năng diễn giải: Chuẩn hóa dữ liệu có thể giúp diễn giải kết quả của mô hình dễ dàng hơn, vì các hệ số và mức độ quan trọng của tính năng đều ở cùng một tỷ lệ.

Điều quan trọng cần lưu ý là chuẩn hóa không phải lúc nào cũng cần thiết hoặc có lợi cho tất cả các mô hình. Cần phải đánh giá cẩn thận các đặc điểm và nhu cầu cụ thể của dữ liệu và mô hình để xác định xem việc chuẩn hóa có phù hợp hay không.

Câu hỏi phỏng vấn trung gian

Q68. Tại sao giá trị trung bình điều hòa được tính trong điểm f1 chứ không phải giá trị trung bình?

Ans.Điểm F1 là thước đo kết hợp độ chính xác và khả năng thu hồi. Độ chính xác là số kết quả dương tính thực sự chia cho tổng số kết quả dương tính được dự đoán bởi bộ phân loại và thu hồi là số kết quả dương tính thực sự chia cho tổng số kết quả dương tính trong sự thật cơ bản. Giá trị trung bình điều hòa của độ chính xác và thu hồi được sử dụng để tính điểm F1 vì nó dễ tha thứ cho tỷ lệ lớp học mất cân bằng hơn so với giá trị trung bình số học.

Nếu phương tiện điều hòa không được sử dụng, điểm F1 sẽ cao hơn vì nó sẽ dựa trên giá trị trung bình số học của độ chính xác và độ thu hồi, điều này sẽ mang lại nhiều trọng lượng hơn cho độ chính xác cao và ít trọng số hơn cho độ thu hồi thấp. Việc sử dụng giá trị trung bình hài hòa trong điểm số F1 giúp cân bằng giữa độ chính xác và khả năng thu hồi, đồng thời đưa ra đánh giá tổng thể chính xác hơn về hiệu suất của bộ phân loại.

câu hỏi phỏng vấn

Q69. Một số cách để chọn các tính năng là gì?

Ans. Dưới đây là một số cách để chọn các tính năng:

  • Phương pháp lọc: Các phương pháp này sử dụng điểm số thống kê để chọn các tính năng phù hợp nhất. 

ví dụ.

  1. Hệ số tương quan: Chọn các tính năng có tương quan cao với biến mục tiêu.
  2. Kiểm định Chi bình phương: Chọn các tính năng độc lập với biến mục tiêu.
  • Phương pháp bao bọc: Các phương pháp này sử dụng thuật toán học tập để chọn các tính năng tốt nhất. 

ví dụ.

  1. Chuyển tiếp lựa chọn: Bắt đầu với một bộ tính năng trống và thêm từng tính năng một cho đến khi hiệu suất của mô hình là tối ưu.
  2. Lựa chọn ngược: Bắt đầu với bộ tính năng đầy đủ và loại bỏ từng tính năng một cho đến khi hiệu suất của mô hình là tối ưu.
  • Phương pháp nhúng: Các phương pháp này tìm hiểu những tính năng nào là quan trọng nhất trong khi mô hình đang được đào tạo.

ví dụ.

  1. Hồi quy Lasso: Thường xuyên hóa mô hình bằng cách thêm một điều khoản phạt vào hàm mất mát để thu nhỏ các hệ số của các tính năng ít quan trọng hơn về XNUMX.
  2. Hồi quy sườn: Chuẩn hóa mô hình bằng cách thêm một điều khoản phạt vào hàm mất mát giúp thu nhỏ các hệ số của tất cả các tính năng về XNUMX, nhưng không đặt chúng về XNUMX.

Tầm quan trọng của tính năng: Chúng tôi cũng có thể sử dụng tham số tầm quan trọng của tính năng cung cấp cho chúng tôi các tính năng quan trọng nhất được mô hình xem xét

Q70. Sự khác biệt giữa sự khác biệt giữa tăng cường đóng bao là gì?

Ans. Cả đóng gói và tăng tốc đều là các kỹ thuật học tập đồng bộ giúp cải thiện hiệu suất của mô hình.

Đóng gói là kỹ thuật trong đó các mô hình khác nhau được đào tạo trên tập dữ liệu mà chúng tôi có và sau đó xem xét mức trung bình của các dự đoán của các mô hình này. Trực giác đằng sau việc lấy các dự đoán của tất cả các mô hình và sau đó tính trung bình các kết quả đang đưa ra các dự đoán đa dạng và tổng quát hơn có thể chính xác hơn.

Tăng cường là kỹ thuật trong đó các mô hình khác nhau được đào tạo nhưng chúng được đào tạo theo cách tuần tự. Mỗi mô hình kế tiếp sửa lỗi do mô hình trước đó gây ra. Điều này làm cho mô hình mạnh dẫn đến ít lỗi nhất.

Q71. Sự khác biệt giữa tăng cường độ dốc ngẫu nhiên và XGboost là gì?

Ans. XGBoost là một triển khai tăng cường độ dốc được thiết kế đặc biệt để trở nên hiệu quả, linh hoạt và di động. Stochastic XGBoost là một biến thể của XGBoost sử dụng cách tiếp cận ngẫu nhiên hơn để xây dựng cây quyết định, điều này có thể làm cho mô hình kết quả trở nên mạnh mẽ hơn để khớp thừa. 

Cả XGBoost và XGBoost ngẫu nhiên đều là những lựa chọn phổ biến để xây dựng các mô hình máy học và có thể được sử dụng cho nhiều tác vụ, bao gồm phân loại, hồi quy và xếp hạng. Sự khác biệt chính giữa hai loại này là XGBoost sử dụng thuật toán xây dựng cây xác định, trong khi XGBoost ngẫu nhiên sử dụng thuật toán xây dựng cây ngẫu nhiên.

Q72. Sự khác biệt giữa catboost và XGboost là gì?

Ans. Sự khác biệt giữa Catboost và XGboost:

Catboost xử lý các tính năng phân loại tốt hơn XGboost. Trong catboost, các tính năng phân loại không bắt buộc phải được mã hóa một lần, giúp tiết kiệm rất nhiều thời gian và bộ nhớ. Mặt khác, XGboost cũng có thể xử lý các tính năng phân loại nhưng trước tiên chúng cần được mã hóa một lần.

XGboost yêu cầu xử lý dữ liệu thủ công trong khi Catboost thì không. Chúng có một số khác biệt trong cách xây dựng cây quyết định và đưa ra dự đoán.

Catboost nhanh hơn XGboost và xây dựng các cây đối xứng (cân bằng), không giống như XGboost.

Q73. Sự khác biệt giữa phân loại tuyến tính và phi tuyến tính là gì

Ans. Sự khác biệt giữa phân loại tuyến tính và phi tuyến tính là bản chất của ranh giới quyết định.

Trong một bộ phân loại tuyến tính, ranh giới quyết định là một hàm tuyến tính của đầu vào. Nói cách khác, ranh giới là một đường thẳng, mặt phẳng hoặc siêu phẳng. 

ví dụ: Hồi quy tuyến tính, Hồi quy logistic, LDA

Bộ phân loại phi tuyến tính là bộ phân loại trong đó ranh giới quyết định không phải là một hàm tuyến tính của đầu vào. Điều này có nghĩa là bộ phân loại không thể được biểu diễn bằng một hàm tuyến tính của các tính năng đầu vào. Bộ phân loại phi tuyến tính có thể nắm bắt các mối quan hệ phức tạp hơn giữa các tính năng đầu vào và nhãn, nhưng chúng cũng có thể dễ bị khớp quá mức, đặc biệt nếu chúng có nhiều tham số.

ví dụ: KNN, Cây quyết định, Rừng ngẫu nhiên

Q74. Mô hình tham số và phi tham số là gì?

Ans. Mô hình tham số là mô hình được mô tả bởi một số tham số cố định. Các tham số này được ước tính từ dữ liệu bằng cách sử dụng quy trình ước tính khả năng xảy ra tối đa hoặc một số phương pháp khác và chúng được sử dụng để đưa ra dự đoán về biến phản hồi.

Mặt khác, các mô hình phi tham số là các mô hình không đưa ra bất kỳ giả định nào về dạng mối quan hệ giữa các biến phụ thuộc và biến độc lập. Chúng thường linh hoạt hơn các mô hình tham số và có thể phù hợp với phạm vi hình dạng dữ liệu rộng hơn, nhưng chúng cũng có ít tham số có thể diễn giải hơn và có thể khó diễn giải hơn.

Q75. Làm cách nào chúng ta có thể sử dụng xác thực chéo để khắc phục tình trạng thừa?

Ans. Kỹ thuật xác thực chéo có thể được sử dụng để xác định xem mô hình có phù hợp quá mức hoặc quá mức hay không nhưng không thể sử dụng nó để khắc phục một trong hai vấn đề. Chúng ta chỉ có thể so sánh hiệu suất của mô hình trên hai tập hợp dữ liệu khác nhau và tìm xem liệu dữ liệu có phù hợp quá mức hay không phù hợp hoặc được tổng quát hóa hay không.

Q76. Làm thế nào bạn có thể chuyển đổi một biến số thành một biến phân loại và khi nào nó có thể hữu ích?

Ans. Có một số cách để chuyển đổi một biến số thành một biến phân loại. Một phương pháp phổ biến là sử dụng tính năng tạo nhóm, bao gồm việc chia biến số thành một tập hợp các ngăn hoặc khoảng và coi mỗi ngăn là một danh mục riêng biệt.

Một cách khác để chuyển đổi một biến số thành một biến phân loại là sử dụng một kỹ thuật có tên là "rời rạc hóa", bao gồm việc chia phạm vi của biến số thành một tập hợp các khoảng và coi mỗi khoảng là một danh mục riêng biệt. Điều này có thể hữu ích nếu bạn muốn tạo một biểu diễn dữ liệu chi tiết hơn..

Việc chuyển đổi một biến số thành một biến phân loại có thể hữu ích khi biến số có một số giá trị giới hạn và bạn muốn nhóm các giá trị đó thành các loại. Nó cũng có thể hữu ích nếu bạn muốn làm nổi bật các mẫu hoặc xu hướng cơ bản trong dữ liệu, thay vì chỉ các số liệu thô.

Q77. Mô hình tuyến tính tổng quát là gì?

Ans. Các mô hình tuyến tính tổng quát (GLM) là một nhóm các mô hình cho phép chúng ta xác định mối quan hệ giữa một biến phản hồi và một hoặc nhiều biến dự đoán, đồng thời cho phép hình dạng của mối quan hệ này linh hoạt hơn so với các mô hình tuyến tính truyền thống. Trong một mô hình tuyến tính truyền thống, biến phản hồi được giả định là có phân phối chuẩn và mối quan hệ giữa biến phản hồi và các biến dự báo được giả định là tuyến tính. GLM nới lỏng các giả định này, cho phép biến phản hồi được phân phối theo nhiều dạng phân phối khác nhau và cho phép các mối quan hệ phi tuyến tính giữa biến phản hồi và biến dự báo. Một số ví dụ phổ biến về GLM bao gồm hồi quy logistic (đối với nhiệm vụ phân loại nhị phân), hồi quy Poisson (đối với dữ liệu đếm) và hồi quy hàm mũ (đối với dữ liệu mô hình hóa thời gian đến sự kiện).

Q78. Sự khác biệt giữa hồi quy sườn và lasso là gì? Chúng khác nhau như thế nào về cách tiếp cận của chúng đối với việc lựa chọn và chuẩn hóa mô hình?

Ans. Hồi quy độ dốc và hồi quy lasso đều là các kỹ thuật được sử dụng để ngăn chặn quá khớp trong các mô hình tuyến tính bằng cách thêm một thuật ngữ chính quy hóa vào hàm mục tiêu. Chúng khác nhau về cách chúng xác định thuật ngữ chính quy hóa.

Trong hồi quy sườn, thuật ngữ chính quy hóa được định nghĩa là tổng của các hệ số bình phương (còn được gọi là hình phạt L2). Điều này dẫn đến một bề mặt tối ưu hóa mượt mà, có thể giúp mô hình tổng quát hóa tốt hơn đối với dữ liệu chưa nhìn thấy. Hồi quy độ dốc có tác dụng đẩy các hệ số về XNUMX, nhưng nó không đặt bất kỳ hệ số nào chính xác bằng XNUMX. Điều này có nghĩa là tất cả các tính năng được giữ lại trong mô hình, nhưng tác động của chúng đối với đầu ra bị giảm đi.

Mặt khác, hồi quy lasso xác định thuật ngữ chính quy hóa là tổng các giá trị tuyệt đối của các hệ số (còn được gọi là hình phạt L1). Điều này có tác dụng đưa một số hệ số chính xác về XNUMX, chọn một tập hợp con các tính năng để sử dụng trong mô hình một cách hiệu quả. Điều này có thể hữu ích cho việc lựa chọn tính năng, vì nó cho phép mô hình tự động chọn các tính năng quan trọng nhất. Tuy nhiên, bề mặt tối ưu hóa cho hồi quy lasso không trơn tru, điều này có thể gây khó khăn hơn cho việc huấn luyện mô hình.

Tóm lại, hồi quy sườn núi thu nhỏ các hệ số của tất cả các tính năng về XNUMX, trong khi hồi quy lasso đặt một số hệ số chính xác bằng XNUMX. Cả hai kỹ thuật đều có thể hữu ích trong việc ngăn chặn trang bị thừa, nhưng chúng khác nhau về cách xử lý lựa chọn mô hình và chuẩn hóa.

Q79.Kích thước bước (hoặc tốc độ học) của thuật toán tối ưu hóa ảnh hưởng như thế nào đến sự hội tụ của quy trình tối ưu hóa trong hồi quy logistic?

Ans. Kích thước bước, hoặc tỷ lệ học tập, xác định kích thước của các bước được thực hiện bởi thuật toán tối ưu hóa khi tiến tới mức tối thiểu của hàm mục tiêu. Trong hồi quy logistic, hàm mục tiêu là khả năng ghi nhật ký âm của mô hình mà chúng tôi muốn giảm thiểu để tìm các hệ số tối ưu.

Nếu kích thước bước quá lớn, thuật toán tối ưu hóa có thể vượt quá mức tối thiểu và dao động xung quanh nó, thậm chí có thể phân kỳ thay vì hội tụ. Mặt khác, nếu kích thước bước quá nhỏ, thuật toán tối ưu hóa sẽ đạt được tiến độ rất chậm và có thể mất nhiều thời gian để hội tụ.

Do đó, điều quan trọng là chọn kích thước bước thích hợp để đảm bảo sự hội tụ của quá trình tối ưu hóa. Nói chung, kích thước bước lớn hơn có thể dẫn đến hội tụ nhanh hơn, nhưng nó cũng làm tăng nguy cơ vượt quá mức tối thiểu. Kích thước bước nhỏ hơn sẽ an toàn hơn, nhưng nó cũng sẽ chậm hơn.

Có một số cách tiếp cận để chọn kích thước bước thích hợp. Một cách tiếp cận phổ biến là sử dụng kích thước bước cố định cho tất cả các lần lặp. Một cách tiếp cận khác là sử dụng kích thước bước giảm dần, bắt đầu lớn và giảm dần theo thời gian. Điều này có thể giúp thuật toán tối ưu hóa đạt được tiến bộ nhanh hơn ngay từ đầu và sau đó tinh chỉnh các hệ số khi nó tiến gần đến mức tối thiểu.

Q80. Quá khớp trong cây quyết định là gì và làm thế nào để giảm thiểu nó?

Ans. Việc trang bị quá mức trong cây quyết định xảy ra khi mô hình quá phức tạp và có quá nhiều nhánh, dẫn đến khả năng khái quát hóa kém đối với dữ liệu mới, chưa được nhìn thấy. Điều này là do mô hình đã “học” quá tốt các mẫu trong dữ liệu huấn luyện và không thể khái quát hóa các mẫu này thành dữ liệu mới, chưa nhìn thấy.

Có một số cách để giảm thiểu việc trang bị quá mức trong cây quyết định:

Tỉa: Điều này liên quan đến việc loại bỏ các nhánh khỏi cây không mang lại giá trị đáng kể cho các dự đoán của mô hình. Việc cắt tỉa có thể giúp giảm độ phức tạp của mô hình và cải thiện khả năng khái quát hóa của nó.

Hạn chế độ sâu của cây: Bằng cách hạn chế độ sâu của cây, bạn có thể ngăn không cho cây trở nên quá phức tạp và làm quá khớp dữ liệu huấn luyện.

Sử dụng quần thể: Các phương pháp tập hợp như rừng ngẫu nhiên và tăng cường độ dốc có thể giúp giảm tình trạng thừa trang bằng cách tổng hợp các dự đoán của nhiều cây quyết định.

Sử dụng xác thực chéo: Bằng cách đánh giá hiệu suất của mô hình trên nhiều lần phân tách thử nghiệm huấn luyện, bạn có thể ước tính tốt hơn về hiệu suất tổng quát hóa của mô hình và giảm nguy cơ trang bị thừa.

Q81. Tại sao SVM được gọi là bộ phân loại lề lớn?

Ans. SVM, hay Support Vector Machine, được gọi là bộ phân loại lề lớn vì nó tìm kiếm một siêu phẳng có lề hoặc khoảng cách lớn nhất có thể giữa các lớp dương và âm trong không gian đặc trưng. Lề là khoảng cách giữa siêu phẳng và các điểm dữ liệu gần nhất và được sử dụng để xác định ranh giới quyết định của mô hình.

Bằng cách tối đa hóa lề, trình phân loại SVM có thể khái quát hóa tốt hơn cho dữ liệu mới, chưa nhìn thấy và ít bị trang bị quá mức. Biên độ càng lớn, độ không chắc chắn xung quanh ranh giới quyết định càng thấp và mô hình càng tin tưởng vào các dự đoán của nó.

Do đó, mục tiêu của thuật toán SVM là tìm một siêu phẳng có lề lớn nhất có thể, đó là lý do tại sao nó được gọi là bộ phân loại lề lớn.

máy học

Q82. Mất bản lề là gì?

Ans. Mất bản lề là một hàm mất mát được sử dụng trong các máy vectơ hỗ trợ (SVM) và các mô hình phân loại tuyến tính khác. Nó được định nghĩa là tổn thất phát sinh khi dự đoán không chính xác.

Mất bản lề cho một ví dụ duy nhất được định nghĩa là:

lỗ = tối đa(0, 1 – y * f(x))

trong đó y là nhãn thực (-1 hoặc 1) và f(x) là đầu ra dự đoán của mô hình. Đầu ra dự đoán là sản phẩm bên trong giữa các tính năng đầu vào và trọng số mô hình, cộng với một thuật ngữ sai lệch.

Mất bản lề được sử dụng trong các SVM vì nó là một hàm lồi xử phạt các dự đoán không tự tin và chính xác. Tổn thất bản lề bằng XNUMX khi nhãn dự đoán là chính xác và nó tăng lên khi độ tin cậy đối với nhãn không chính xác tăng lên. Điều này khuyến khích người mẫu tự tin vào dự đoán của mình nhưng cũng phải thận trọng và không đưa ra dự đoán quá xa so với nhãn thực.

Câu hỏi phỏng vấn nâng cao

Q83. Điều gì sẽ xảy ra nếu chúng ta tăng số lượng hàng xóm trong KNN?

Ans. Nếu bạn tăng số lượng hàng xóm lên một giá trị rất lớn trong KNN, bộ phân loại sẽ ngày càng bảo thủ hơn và ranh giới quyết định sẽ ngày càng mượt mà hơn. Điều này có thể giúp giảm tình trạng thừa trang, nhưng nó cũng có thể khiến bộ phân loại ít nhạy cảm hơn với các mẫu tinh vi trong dữ liệu huấn luyện. Giá trị k lớn hơn sẽ dẫn đến một mô hình ít phức tạp hơn, ít có khả năng bị thừa nhưng dễ bị thiếu hơn..

Do đó, để tránh trang bị thừa hoặc thiếu, điều quan trọng là phải chọn một giá trị k thích hợp để đạt được sự cân bằng giữa phức tạp và đơn giản. Thông thường tốt hơn là thử một loạt các giá trị cho số lượng hàng xóm và xem giá trị nào hoạt động tốt nhất cho một tập dữ liệu cụ thể.

Q84. Điều gì sẽ xảy ra trong cây quyết định nếu độ sâu tối đa được tăng lên?

Ans. Việc tăng độ sâu tối đa của cây quyết định sẽ làm tăng độ phức tạp của mô hình và khiến nó dễ bị trang bị quá mức. Nếu bạn tăng độ sâu tối đa của cây quyết định, cây sẽ có thể đưa ra các quyết định phức tạp và nhiều sắc thái hơn, điều này có thể cải thiện khả năng của mô hình để phù hợp với dữ liệu đào tạo. Tuy nhiên, nếu cây quá sâu, nó có thể trở nên quá nhạy cảm với các mẫu cụ thể trong dữ liệu huấn luyện và không khái quát hóa tốt đối với dữ liệu chưa nhìn thấy.

câu hỏi phỏng vấn

Q85. Sự khác biệt giữa cây phụ và rừng ngẫu nhiên là gì?

Ans. Sự khác biệt chính giữa hai thuật toán là cách các cây quyết định được xây dựng.

Trong một Rừng ngẫu nhiên, các cây quyết định được xây dựng bằng cách sử dụng các mẫu dữ liệu huấn luyện đã khởi động và một tập hợp con ngẫu nhiên của các tính năng. Điều này dẫn đến việc mỗi cây được đào tạo trên một bộ dữ liệu và tính năng hơi khác nhau, dẫn đến sự đa dạng của cây lớn hơn và phương sai thấp hơn.

Trong bộ phân loại Cây bổ sung, các cây quyết định được xây dựng theo cách tương tự, nhưng thay vì chọn một tập hợp con ngẫu nhiên của các tính năng ở mỗi lần phân tách, thuật toán sẽ chọn cách phân chia tốt nhất trong số một tập hợp con ngẫu nhiên của các tính năng. Điều này dẫn đến số lượng phân tách ngẫu nhiên nhiều hơn và mức độ ngẫu nhiên cao hơn, dẫn đến độ lệch thấp hơn và phương sai cao hơn.

Q86. Khi nào sử dụng mã hóa một lần và mã hóa nhãn?

Ans. Mã hóa một lần nóng và mã hóa nhãn là hai kỹ thuật khác nhau có thể được sử dụng để mã hóa các biến phân loại thành các giá trị số. Chúng thường được sử dụng trong các mô hình học máy như một bước tiền xử lý trước khi khớp mô hình với dữ liệu.

Mã hóa một lần thường được sử dụng khi bạn có các biến phân loại không có bất kỳ mối quan hệ thứ tự nào, nghĩa là các danh mục không có thứ tự hoặc xếp hạng tự nhiên. Mã hóa một lần tạo các cột nhị phân mới cho mỗi danh mục, với giá trị 1 cho biết có danh mục và giá trị 0 cho biết danh mục không có. Điều này có thể hữu ích khi bạn muốn duy trì tính duy nhất của từng danh mục và ngăn mô hình giả định bất kỳ mối quan hệ thứ tự nào giữa các danh mục.

Mặt khác, mã hóa nhãn thường được sử dụng khi bạn có các biến phân loại có mối quan hệ thứ tự, nghĩa là các danh mục có thứ tự hoặc xếp hạng tự nhiên. Mã hóa nhãn gán một giá trị số nguyên duy nhất cho mỗi danh mục và các giá trị số nguyên này thường được xác định theo thứ tự tự nhiên của các danh mục. Điều này có thể hữu ích khi bạn muốn duy trì mối quan hệ thứ tự giữa các danh mục và cho phép mô hình sử dụng thông tin này.

Nói chung, tốt nhất là sử dụng mã hóa một lần cho dữ liệu danh nghĩa (tức là dữ liệu không có thứ tự cố hữu) và mã hóa nhãn cho dữ liệu có thứ tự (tức là dữ liệu có thứ tự cố hữu). Tuy nhiên, sự lựa chọn giữa mã hóa one-hot và mã hóa nhãn cũng có thể phụ thuộc vào các yêu cầu cụ thể của mô hình và đặc điểm của tập dữ liệu của bạn.

Q87. Vấn đề với việc sử dụng mã hóa nhãn cho dữ liệu danh nghĩa là gì?

Ans. Mã hóa nhãn là một phương pháp mã hóa các biến phân loại thành các giá trị số, có thể hữu ích trong một số trường hợp nhất định. Tuy nhiên, có một số vấn đề tiềm ẩn mà bạn nên biết khi sử dụng mã hóa nhãn cho dữ liệu danh nghĩa.

Một vấn đề với mã hóa nhãn là nó có thể tạo mối quan hệ thứ tự giữa các danh mục không tồn tại

Nếu bạn có một biến phân loại với ba danh mục: “đỏ”, “xanh lá cây” và “xanh dương” và bạn áp dụng mã hóa nhãn để ánh xạ các danh mục này thành các giá trị số 0, 1 và 2, thì mô hình có thể giả định rằng danh mục “ màu xanh lá cây” bằng cách nào đó “nằm giữa” các danh mục “đỏ” và “xanh lam”. Đây có thể là một vấn đề nếu mô hình của bạn phụ thuộc vào giả định rằng các danh mục độc lập với nhau.

Một vấn đề khác với mã hóa nhãn là nó có thể dẫn đến kết quả không mong muốn nếu bạn có tập dữ liệu không cân bằng. Ví dụ: nếu một danh mục phổ biến hơn nhiều so với các danh mục khác, thì nó sẽ được gán một giá trị số thấp hơn nhiều, điều này có thể khiến mô hình đánh giá nó kém quan trọng hơn mức đáng có.

Q88. Khi nào mã hóa one-hot có thể là một vấn đề?

Ans. Mã hóa một lần nóng có thể là một vấn đề trong một số trường hợp nhất định vì nó có thể tạo ra một số lượng lớn các cột mới trong tập dữ liệu, điều này có thể khiến dữ liệu khó xử lý hơn và có khả năng dẫn đến khớp quá mức.

Mã hóa một lần tạo một cột nhị phân mới cho mỗi danh mục trong một biến phân loại. Nếu bạn có một biến phân loại với nhiều danh mục, điều này có thể dẫn đến một số lượng lớn các cột mới.

Một vấn đề khác với mã hóa one-hot là nó có thể dẫn đến quá khớp, đặc biệt nếu bạn có một tập dữ liệu nhỏ và một số lượng lớn danh mục. Khi bạn tạo nhiều cột mới cho mỗi danh mục, bạn đang tăng số lượng đối tượng địa lý trong tập dữ liệu một cách hiệu quả. Điều này có thể dẫn đến trang bị quá mức, bởi vì mô hình có thể ghi nhớ dữ liệu đào tạo, nhưng nó sẽ không khái quát hóa tốt cho dữ liệu mới.

Cuối cùng, mã hóa one-hot cũng có thể là một vấn đề nếu bạn cần thêm các danh mục mới vào tập dữ liệu trong tương lai. Nếu bạn đã mã hóa một lần các danh mục hiện có, bạn sẽ cần cẩn thận để đảm bảo rằng các danh mục mới được thêm vào theo cách không gây nhầm lẫn hoặc dẫn đến kết quả không mong muốn.

Q89. Điều gì có thể là một kỹ thuật mã hóa thích hợp khi bạn có hàng trăm giá trị phân loại trong một cột?

Ans. Một vài kỹ thuật có thể được sử dụng khi chúng ta có hàng trăm cột trong một biến phân loại.

Mã hóa tần suất: Điều này liên quan đến việc thay thế từng danh mục bằng tần suất của danh mục đó trong tập dữ liệu. Điều này có thể hoạt động tốt nếu các danh mục có mối quan hệ thứ tự tự nhiên dựa trên tần suất xuất hiện của chúng.

Mã hóa mục tiêu: Điều này liên quan đến việc thay thế từng danh mục bằng giá trị trung bình của biến mục tiêu cho danh mục đó. Điều này có thể hiệu quả nếu các danh mục có mối quan hệ rõ ràng với biến mục tiêu.

Q90. các nguồn ngẫu nhiên trong rừng ngẫu nhiên là gì?

Ans. Rừng ngẫu nhiên là một phương pháp học tập đồng bộ bao gồm đào tạo nhiều cây quyết định trên các tập dữ liệu con khác nhau và lấy trung bình các dự đoán của từng cây để đưa ra dự đoán cuối cùng. Có một số nguồn ngẫu nhiên trong quá trình đào tạo một khu rừng ngẫu nhiên:

Các mẫu được khởi động: Khi huấn luyện từng cây quyết định, thuật toán sẽ tạo một mẫu dữ liệu được khởi động bằng cách lấy mẫu có thay thế từ tập huấn luyện ban đầu. Điều này có nghĩa là một số điểm dữ liệu sẽ được đưa vào mẫu nhiều lần, trong khi những điểm khác hoàn toàn không được đưa vào. Điều này tạo ra sự khác biệt giữa các tập huấn luyện của các cây khác nhau.

Lựa chọn tính năng ngẫu nhiên: Khi đào tạo từng cây quyết định, thuật toán sẽ chọn một tập hợp con ngẫu nhiên các tính năng để xem xét ở mỗi lần phân tách. Điều này có nghĩa là các cây khác nhau sẽ xem xét các bộ tính năng khác nhau, dẫn đến sự khác biệt trong các cây đã học.

Lựa chọn ngưỡng ngẫu nhiên: Khi đào tạo từng cây quyết định, thuật toán sẽ chọn một ngưỡng ngẫu nhiên cho từng tính năng để xác định mức phân chia tối ưu. Điều này có nghĩa là các cây khác nhau sẽ phân chia theo các ngưỡng khác nhau, dẫn đến sự thay đổi trong các cây đã học.

Bằng cách giới thiệu các nguồn ngẫu nhiên này, các khu rừng ngẫu nhiên có thể giảm tình trạng thừa và cải thiện hiệu suất tổng quát hóa so với một cây quyết định duy nhất.

Q91. Làm thế nào để bạn quyết định phân chia tính năng nào tại mỗi nút của cây?

Ans. Khi đào tạo một cây quyết định, thuật toán phải chọn tính năng để phân tách tại mỗi nút của cây. Có một số chiến lược có thể được sử dụng để quyết định phân chia tính năng nào, bao gồm:

Tìm kiếm tham lam: Thuật toán chọn tính năng tối đa hóa tiêu chí phân tách (chẳng hạn như mức tăng thông tin hoặc tạp chất Gini) ở mỗi bước.

Tìm kiếm ngẫu nhiên: Thuật toán chọn tính năng để phân chia ngẫu nhiên ở mỗi bước.

Tìm kiếm toàn diện: Thuật toán xem xét tất cả các cách phân tách có thể và chọn cách phân tách tối đa hóa tiêu chí phân tách.

Tìm kiếm chuyển tiếp: Thuật toán bắt đầu với một cây trống và thêm từng phần tách một, chọn phần tách tối đa hóa tiêu chí tách ở mỗi bước.

Tìm kiếm ngược: Thuật toán bắt đầu với một cây đã phát triển đầy đủ và cắt tỉa từng cây một, chọn cách tách để loại bỏ dẫn đến mức giảm nhỏ nhất trong tiêu chí tách.

Q92. Ý nghĩa của C trong SVM là gì?

Ans. Trong thuật toán máy vectơ hỗ trợ (SVM), tham số C là một siêu tham số kiểm soát sự đánh đổi giữa tối đa hóa lề và giảm thiểu lỗi phân loại sai.

Theo trực giác, C xác định hình phạt cho việc phân loại sai một ví dụ huấn luyện. Giá trị C nhỏ hơn có nghĩa là hình phạt lớn hơn đối với việc phân loại sai và do đó, mô hình sẽ cố gắng phân loại chính xác tất cả các ví dụ huấn luyện (ngay cả khi nó có nghĩa là biên độ nhỏ hơn). Mặt khác, giá trị C lớn hơn có nghĩa là hình phạt nhỏ hơn đối với việc phân loại sai và do đó, mô hình sẽ cố gắng tối đa hóa lề ngay cả khi nó dẫn đến việc phân loại sai một số ví dụ đào tạo.

Trong thực tế, bạn có thể coi C là kiểm soát tính linh hoạt của mô hình. Giá trị C nhỏ hơn sẽ dẫn đến một mô hình cứng nhắc hơn, có thể dễ bị thiếu khớp hơn, trong khi giá trị C lớn hơn sẽ dẫn đến một mô hình linh hoạt hơn, có thể dễ bị khớp quá mức.

Do đó, giá trị của C nên được lựa chọn cẩn thận bằng cách sử dụng xác thực chéo, để cân bằng sự đánh đổi sai lệch-phương sai và đạt được hiệu suất tổng quát hóa tốt trên dữ liệu không nhìn thấy.

Q93. Làm thế nào để c và gamma ảnh hưởng đến quá mức trong SVM?

Ans. Trong các máy vectơ hỗ trợ (SVM), tham số chuẩn hóa C và tham số hạt nhân gamma được sử dụng để kiểm soát quá mức.

C là hình phạt cho việc phân loại sai. Giá trị C nhỏ hơn có nghĩa là hình phạt lớn hơn cho việc phân loại sai, điều đó có nghĩa là mô hình sẽ thận trọng hơn và cố gắng tránh phân loại sai. Điều này có thể dẫn đến một mô hình ít có khả năng bị thừa nhưng cũng có thể dẫn đến một mô hình quá thận trọng và có hiệu suất tổng quát hóa kém.

Gamma là một tham số kiểm soát độ phức tạp của mô hình. Giá trị gamma nhỏ hơn có nghĩa là một mô hình phức tạp hơn, có thể dẫn đến trang bị quá mức. Giá trị gamma lớn hơn có nghĩa là một mô hình đơn giản hơn, có thể giúp ngăn chặn quá mức nhưng cũng có thể dẫn đến một mô hình quá đơn giản để nắm bắt chính xác các mối quan hệ cơ bản trong dữ liệu.

Nói chung, việc tìm các giá trị tối ưu cho C và gamma là sự đánh đổi giữa độ lệch và phương sai, và thường cần phải thử các giá trị khác nhau và đánh giá hiệu suất của mô hình trên bộ xác thực để xác định giá trị tốt nhất cho các tham số này.

Q94. Làm cách nào để bạn chọn số lượng mô hình sẽ sử dụng trong nhóm Boosting hoặc Bagging?

Ans. Số lượng mô hình sẽ sử dụng trong một nhóm thường được xác định bằng sự đánh đổi giữa hiệu suất và chi phí tính toán. Theo nguyên tắc chung, việc tăng số lượng mô hình sẽ cải thiện hiệu suất của nhóm, nhưng với chi phí tăng chi phí tính toán.

Trên thực tế, số lượng mô hình được xác định bằng Xác thực chéo được sử dụng để xác định số lượng mô hình tối ưu dựa trên chỉ số đánh giá đã chọn.

Q95. Trong trường hợp nào Tăng tốc và Đóng gói được ưu tiên hơn các mô hình đơn lẻ?

Ans. Cả tăng cường và đóng gói thường được ưu tiên trong các tình huống trong đó các mô hình riêng lẻ có phương sai cao hoặc độ lệch cao và mục tiêu là cải thiện hiệu suất tổng thể của mô hình. Đóng gói thường được sử dụng để giảm phương sai của mô hình trong khi tăng cường được sử dụng để giảm sai lệch và cải thiện lỗi tổng quát hóa của mô hình. Cả hai phương pháp cũng hữu ích khi làm việc với các mô hình nhạy cảm với dữ liệu đào tạo và có khả năng bị thừa cao.

Q96. Bạn có thể giải thích đường cong ROC và điểm AUC cũng như cách chúng được sử dụng để đánh giá hiệu suất của mô hình không?

Ans. Đường cong ROC (Đặc tính hoạt động của máy thu) là biểu diễn đồ họa về hiệu suất của mô hình phân loại nhị phân. Nó vẽ biểu đồ tỷ lệ dương thực (TPR) so với tỷ lệ dương giả (FPR) ở các ngưỡng khác nhau. AUC (Area Under the Curve) là diện tích dưới đường cong ROC. Nó đưa ra một con số duy nhất đại diện cho hiệu suất tổng thể của mô hình. AUC rất hữu ích vì nó xem xét tất cả các ngưỡng có thể xảy ra, không chỉ một điểm duy nhất trên đường cong ROC.

Q97. Làm cách nào để bạn tiếp cận việc đặt ngưỡng trong bài toán phân loại nhị phân khi bạn muốn tự mình điều chỉnh độ chính xác và thu hồi?

Ans. Khi đặt ngưỡng trong bài toán phân loại nhị phân, điều quan trọng là phải xem xét sự đánh đổi giữa độ chính xác và khả năng thu hồi. Độ chính xác là tỷ lệ dự đoán tích cực thực sự trong số tất cả các dự đoán tích cực, trong khi thu hồi là tỷ lệ dự đoán tích cực thực sự trong số tất cả các trường hợp tích cực thực tế.

Một cách tiếp cận để điều chỉnh độ chính xác và thu hồi là trước tiên đào tạo một mô hình và sau đó đánh giá hiệu suất của nó trên một bộ xác thực. Bộ xác thực phải có sự phân bố tương tự các trường hợp dương tính và âm tính giống như bộ thử nghiệm trên mô hình sẽ được triển khai.

Tiếp theo, bạn có thể sử dụng ma trận nhầm lẫn để trực quan hóa hiệu suất của mô hình và xác định ngưỡng hiện tại đang được sử dụng để đưa ra dự đoán. Một ma trận nhầm lẫn hiển thị số lượng dự đoán dương tính thực, dương tính giả, âm tính thực và âm tính giả mà mô hình đang thực hiện.

Từ đó, bạn có thể điều chỉnh ngưỡng để thay đổi sự cân bằng giữa độ chính xác và khả năng thu hồi. Ví dụ: tăng ngưỡng sẽ tăng độ chính xác nhưng giảm khả năng thu hồi. Mặt khác, việc giảm ngưỡng sẽ làm tăng khả năng thu hồi và giảm độ chính xác.

Điều quan trọng nữa là phải xem xét trường hợp sử dụng cụ thể và chi phí của âm tính giả và dương tính giả. Trong một số ứng dụng nhất định, chẳng hạn như chẩn đoán y tế, điều quan trọng hơn là phải có khả năng thu hồi cao (nghĩa là không bỏ sót bất kỳ trường hợp dương tính thực tế nào) ngay cả khi điều đó có nghĩa là chấp nhận độ chính xác thấp hơn. Trong các trường hợp khác, chẳng hạn như phát hiện gian lận, điều quan trọng hơn là phải có độ chính xác cao (nghĩa là không gắn cờ bất kỳ giao dịch hợp pháp nào là gian lận) ngay cả khi điều đó có nghĩa là chấp nhận thu hồi thấp hơn.

Q98. Sự khác biệt giữa LDA (Phân tích phân biệt tuyến tính) và PCA (Phân tích thành phần chính) là gì?

Ans. LDA (Phân tích phân biệt tuyến tính) và PCA (Phân tích thành phần chính) đều là các kỹ thuật chuyển đổi tuyến tính được sử dụng để giảm kích thước của tập dữ liệu. Tuy nhiên, chúng được sử dụng cho các mục đích khác nhau và hoạt động theo những cách khác nhau.

PCA là một kỹ thuật không giám sát, có nghĩa là nó được sử dụng để tìm các mẫu trong dữ liệu mà không cần tham chiếu đến bất kỳ nhãn đã biết nào. Mục tiêu của PCA là tìm ra các hướng (thành phần chính) trong dữ liệu chiếm lượng phương sai lớn nhất. Các hướng này được chọn sao cho chúng trực giao với nhau (vuông góc) với nhau và hướng thứ nhất chiếm phương sai lớn nhất, hướng thứ hai chiếm phương sai lớn thứ hai, v.v. Sau khi tìm thấy các thành phần chính, dữ liệu có thể được chiếu vào một không gian con có chiều thấp hơn được xác định bởi các thành phần này, dẫn đến biểu diễn dữ liệu mới, có chiều thấp hơn.

Mặt khác, LDA là một kỹ thuật được giám sát và được sử dụng để tìm một không gian con có chiều thấp hơn giúp tối đa hóa sự phân tách giữa các lớp dữ liệu khác nhau. LDA thường được sử dụng như một kỹ thuật giảm kích thước cho các vấn đề phân loại, ví dụ như nhận dạng khuôn mặt, nhận dạng mống mắt và nhận dạng dấu vân tay. Mục tiêu của LDA là tìm ra một phép chiếu dữ liệu phân tách các lớp tốt nhất có thể.

Q99. Thuật toán Naive Bayes so với các thuật toán học có giám sát khác như thế nào?

Ans. Vịnh Naive là một thuật toán đơn giản và nhanh chóng, hoạt động tốt với dữ liệu nhiều chiều và tập huấn luyện nhỏ. Nó cũng hoạt động tốt trên các bộ dữ liệu có các biến phân loại và dữ liệu bị thiếu, thường gặp trong nhiều vấn đề trong thế giới thực. Nó tốt cho việc phân loại văn bản, lọc thư rác và phân tích tình cảm. Tuy nhiên, do giả định về tính độc lập giữa các đặc trưng nên nó không hoạt động tốt đối với các bài toán có mối tương quan cao giữa các đặc trưng. Nó cũng thường không nắm bắt được sự tương tác giữa các tính năng, điều này có thể dẫn đến hiệu suất kém trên một số bộ dữ liệu. Do đó, nó thường được sử dụng làm đường cơ sở hoặc điểm bắt đầu, sau đó các thuật toán khác như SVM và Rừng ngẫu nhiên có thể được sử dụng để cải thiện hiệu suất.

Q100. Bạn có thể giải thích khái niệm về "thủ thuật hạt nhân" và ứng dụng của nó trong Máy vectơ hỗ trợ (SVM) không?

Ans. Thủ thuật hạt nhân là một kỹ thuật được sử dụng để chuyển đổi dữ liệu đầu vào trong SVM sang không gian đặc trưng có chiều cao hơn, nơi dữ liệu có thể phân tách tuyến tính. Thủ thuật kernel hoạt động bằng cách thay thế tích bên trong tiêu chuẩn trong không gian đầu vào bằng hàm kernel, hàm này tính toán tích bên trong trong không gian nhiều chiều hơn mà không thực sự phải tính toán tọa độ của dữ liệu trong không gian đó. Điều này cho phép các SVM xử lý dữ liệu có thể phân tách phi tuyến tính bằng cách ánh xạ dữ liệu đó tới một không gian có chiều cao hơn, nơi dữ liệu có thể phân tách tuyến tính. Các hàm hạt nhân phổ biến được sử dụng trong các SVM bao gồm hạt nhân đa thức, hạt nhân hàm cơ sở hướng tâm (RBF) và hạt nhân sigmoid.

Kết luận

Trong bài viết này, chúng tôi đã đề cập đến các câu hỏi phỏng vấn khoa học dữ liệu khác nhau bao gồm các chủ đề như KNN, hồi quy tuyến tính, vịnh ngây thơ, rừng ngẫu nhiên, v.v.

Công việc của các nhà khoa học dữ liệu không hề dễ dàng, nhưng nó rất bổ ích và có nhiều vị trí đang mở. Những câu hỏi phỏng vấn khoa học dữ liệu này có thể giúp bạn tiến một bước gần hơn đến công việc lý tưởng của mình. Vì vậy, hãy chuẩn bị tinh thần cho sự khắc nghiệt của các câu hỏi phỏng vấn và cập nhật các nguyên tắc cơ bản của khoa học dữ liệu.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img