Logo Zephyrnet

5 kỹ năng khoa học dữ liệu hiếm có có thể giúp bạn có việc làm – KDnuggets

Ngày:

5 kỹ năng khoa học dữ liệu hiếm có có thể giúp bạn có việc làm
Hình ảnh của Tác giả
 

Nếu bạn biết cách tạo cây quyết định trong học máy, xin chúc mừng, bạn đã có cùng trình độ chuyên môn về mã như ChatGPT và hàng nghìn nhà khoa học dữ liệu khác đang cạnh tranh cho công việc bạn mong muốn.

Một xu hướng hấp dẫn của các nhà quản lý tuyển dụng gần đây là khả năng viết mã thô không còn phù hợp nữa. Để được tuyển dụng, bạn cần phải tiến thêm một bước nữa là biết ngôn ngữ, framework và cách tìm kiếm trên StackOverflow. Bạn cần hiểu biết nhiều hơn về khái niệm và nắm bắt được bối cảnh khoa học dữ liệu ngày nay - bao gồm cả những điều bạn nghĩ chỉ CEO của một công ty mới nên lo lắng, như quản trị dữ liệu và đạo đức.

Có nhiều vấn đề kỹ thuật và phi kỹ thuật kỹ năng khoa học dữ liệu mà bạn nên biết nhưng nếu bạn đang gặp khó khăn trong việc tuyển dụng, những kỹ năng khoa học dữ liệu ít phổ biến hơn này có thể là tấm vé giúp bạn đặt chân vào cánh cửa việc làm.

Trước đây, các nhà khoa học dữ liệu làm việc biệt lập, trong các tầng hầm tối tăm để sản xuất mô hình. Các mô hình sẽ tạo ra dự đoán hoặc hiểu biết sâu sắc; những điều đó sẽ được chuyển cho những người điều hành C-Suite, những người sẽ hành động theo chúng mà không hiểu gì về mô hình đã tạo ra những dự đoán này. (Tôi đang phóng đại một chút, nhưng không đến mức đó.)

Ngày nay, khả năng lãnh đạo đóng vai trò tích cực hơn nhiều trong việc tìm hiểu sản phẩm của các nhà khoa học dữ liệu. Điều đó có nghĩa là bạn, với tư cách là một nhà khoa học dữ liệu, cần có khả năng giải thích lý do tại sao các mô hình thực hiện những gì họ làm, cách họ hoạt động và lý do tại sao họ đưa ra dự đoán cụ thể đó.

Mặc dù bạn có thể cho sếp xem mã thực tế đang chạy mô hình của mình, nhưng sẽ hữu ích hơn nhiều (đọc: có thể sử dụng được) nếu bạn có thể cho họ thấy mô hình của bạn hoạt động như thế nào thông qua trực quan hóa. Ví dụ: hãy tưởng tượng bạn đã phát triển một mô hình ML để dự đoán tỷ lệ rời bỏ khách hàng đối với một công ty viễn thông. Thay vì chụp ảnh màn hình các dòng mã, bạn có thể sử dụng sơ đồ quy trình hoặc sơ đồ cây quyết định để giải thích trực quan cách mô hình phân khúc khách hàng và xác định những người có nguy cơ rời bỏ. Điều này làm cho logic của mô hình trở nên minh bạch và dễ nắm bắt hơn.

Biết cách minh họa mã là một kỹ năng hiếm có nhưng chắc chắn là một kỹ năng đáng để phát triển. Chưa có bất kỳ khóa học nào, nhưng tôi khuyên bạn nên thử một công cụ miễn phí như Miro để tạo sơ đồ ghi lại cây quyết định của bạn. Tốt hơn hết, hãy cố gắng giải thích mã của bạn cho một người bạn hoặc thành viên gia đình không phải là nhà khoa học dữ liệu. Càng nằm nhiều thì càng tốt.

5 kỹ năng khoa học dữ liệu hiếm có có thể giúp bạn có việc làm
Hình ảnh của Tác giả
 

Nhiều nhà khoa học dữ liệu có xu hướng tập trung nhiều hơn vào các thuật toán mô hình hơn là sắc thái của dữ liệu đầu vào. Kỹ thuật tính năng là quá trình lựa chọn, sửa đổi và tạo các tính năng (biến đầu vào) để cải thiện hiệu suất của các mô hình học máy.

Ví dụ: nếu bạn đang làm việc trên một mô hình dự đoán giá bất động sản, bạn có thể bắt đầu với các tính năng cơ bản như diện tích, số phòng ngủ và vị trí. Tuy nhiên, thông qua kỹ thuật tính năng, bạn có thể tạo ra nhiều tính năng có nhiều sắc thái hơn. Bạn có thể tính toán khoảng cách đến trạm giao thông công cộng gần nhất hoặc tạo một đối tượng địa lý thể hiện tuổi của tài sản. Bạn thậm chí có thể kết hợp các tính năng hiện có để tạo các tính năng mới, chẳng hạn như “điểm mong muốn về vị trí” dựa trên tỷ lệ tội phạm, xếp hạng trường học và mức độ gần các tiện nghi.

Đó là một kỹ năng hiếm có vì nó không chỉ đòi hỏi bí quyết kỹ thuật mà còn cả kiến ​​thức chuyên sâu và khả năng sáng tạo. Bạn cần thực sự được dữ liệu của bạn và vấn đề hiện tại, sau đó chuyển đổi dữ liệu một cách sáng tạo để làm cho dữ liệu trở nên hữu ích hơn cho việc lập mô hình.

Kỹ thuật tính năng thường được đề cập như một phần của các khóa học máy học rộng hơn trên các nền tảng như Coursera, edX hoặc Udacity. Nhưng tôi thấy cách học tốt nhất là thông qua trải nghiệm thực tế. Làm việc trên dữ liệu trong thế giới thực và thử nghiệm các chiến lược kỹ thuật tính năng khác nhau.

Đây là một câu hỏi giả định: hãy tưởng tượng bạn là nhà khoa học dữ liệu tại một công ty chăm sóc sức khỏe. Bạn được giao nhiệm vụ phát triển một mô hình dự đoán để xác định những bệnh nhân có nguy cơ mắc một căn bệnh nhất định. Điều gì có thể là thách thức lớn nhất của bạn?

Nếu bạn trả lời là “vật lộn với đường ống ETL” thì bạn đã nhầm. Thách thức lớn nhất của bạn có thể là đảm bảo mô hình của bạn không chỉ hiệu quả mà còn tuân thủ, có đạo đức và bền vững. Điều đó bao gồm việc đảm bảo rằng mọi dữ liệu bạn thu thập cho mô hình đều tuân thủ các quy định như HIPAA và GDPR, tùy thuộc vào vị trí của bạn. Bạn cần biết khi nào việc sử dụng dữ liệu đó là hợp pháp, bạn cần ẩn danh dữ liệu đó như thế nào, bạn cần có sự đồng ý nào từ bệnh nhân và cách nhận được sự đồng ý đó.

Và bạn cần có khả năng ghi lại các nguồn dữ liệu, các chuyển đổi và các quyết định về mô hình để một người không phải là chuyên gia có thể kiểm tra mô hình. Khả năng truy xuất nguồn gốc này rất quan trọng không chỉ đối với việc tuân thủ quy định mà còn đối với việc kiểm tra và cải tiến mô hình trong tương lai.

Học quản trị dữ liệu ở đâu: Nó dày đặc nhưng có một nguồn tài nguyên tuyệt vời là Cộng đồng quản lý dữ liệu toàn cầu.

 

5 kỹ năng khoa học dữ liệu hiếm có có thể giúp bạn có việc làm
Hình ảnh từ dữ liệu

“Tôi biết về cơ bản, khoa học dữ liệu có thể biết số liệu thống kê, tạo mô hình, tìm xu hướng, nhưng nếu bạn hỏi tôi, tôi không thể nghĩ ra bất kỳ tình huống khó xử thực sự nào về mặt đạo đức, tôi nghĩ khoa học dữ liệu chỉ đưa ra những sự thật thực tế,” nói Người dùng Reddit Carlos_tec17 đã nhầm.

Ngoài việc tuân thủ pháp luật, còn có một khía cạnh đạo đức cần xem xét. Bạn cần đảm bảo rằng bất kỳ mô hình nào bạn tạo ra đều không vô tình tạo ra những thành kiến ​​có thể dẫn đến sự đối xử bất bình đẳng đối với một số nhóm nhất định.

Tôi thích ví dụ về Mô hình tuyển dụng cũ của Amazon để minh họa tại sao đạo đức lại quan trọng. Nếu bạn chưa quen với nó, các nhà khoa học dữ liệu của Amazon đã cố gắng đẩy nhanh quy trình tuyển dụng của họ bằng cách tạo ra một mô hình có thể chọn ra những ứng viên tiềm năng dựa trên sơ yếu lý lịch. Vấn đề là họ đã đào tạo người mẫu dựa trên cơ sở hồ sơ lý lịch hiện có của họ, vốn chủ yếu là nam giới. Mô hình mới của họ thiên về tuyển dụng nam giới. Điều đó cực kỳ phi đạo đức.

Chúng ta đã vượt xa giai đoạn “di chuyển nhanh và phá vỡ mọi thứ” của khoa học dữ liệu. Bây giờ, với tư cách là một nhà khoa học dữ liệu, bạn cần biết rằng các quyết định của bạn sẽ có tác động thực sự đến mọi người. Sự thiếu hiểu biết không còn là một cái cớ; bạn cần nhận thức đầy đủ về tất cả các phân nhánh có thể có mà mô hình của bạn có thể có và lý do tại sao nó đưa ra quyết định.

UMichigan có một điều hữu ích khóa học mơ ước về “đạo đức khoa học dữ liệu”. Tôi cũng thích cuốn sách này để minh họa lý do tại sao và làm thế nào đạo đức nảy sinh trong khoa học “dựa trên số” như khoa học dữ liệu.

Một bí mật trong cuộc sống là bạn càng biết cách tiếp thị tốt thì bạn càng dễ dàng tìm được việc làm. Và khi nói “thị trường”, ý tôi là “biết cách làm cho mọi thứ trở nên quyến rũ”. Với khả năng tiếp thị, bạn sẽ giỏi hơn trong việc tạo một bản lý lịch thể hiện các kỹ năng của mình. Bạn sẽ giỏi hơn trong việc quyến rũ người phỏng vấn. Và cụ thể là trong khoa học dữ liệu, bạn sẽ giải thích rõ hơn lý do tại sao mô hình của bạn – và kết quả của mô hình – lại quan trọng.

Hãy nhớ rằng, mô hình của bạn tốt đến đâu cũng không thành vấn đề nếu bạn không thể thuyết phục được người khác rằng điều đó là cần thiết. Ví dụ: hãy tưởng tượng bạn đã phát triển một mô hình có thể dự đoán lỗi thiết bị trong nhà máy sản xuất. Về lý thuyết, mô hình của bạn có thể giúp công ty tiết kiệm hàng triệu USD trong thời gian ngừng hoạt động ngoài dự kiến. Nhưng nếu bạn không thể thông báo sự thật đó với C-Suite, mô hình của bạn sẽ không được sử dụng trên máy tính của bạn.

Với kỹ năng tiếp thị, bạn có thể chứng minh việc sử dụng và nhu cầu đối với mô hình của mình bằng một bài thuyết trình hấp dẫn nêu bật những lợi ích tài chính, tiềm năng tăng năng suất và lợi ích lâu dài của việc áp dụng mô hình của bạn.

Đây là một kỹ năng rất hiếm trong thế giới khoa học dữ liệu vì hầu hết các nhà khoa học dữ liệu đều là những con người có tâm. Hầu hết các nhà khoa học dữ liệu tương lai thực sự tin rằng chỉ cần cố gắng hết sức và cúi đầu xuống là một chiến lược việc làm thành công. Thật không may, máy tính không phải là kẻ thuê bạn mà chính là con người. Có khả năng tiếp thị bản thân, kỹ năng và sản phẩm của bạn là một lợi thế thực sự trong thị trường việc làm ngày nay.

Để tìm hiểu cách tiếp thị, tôi giới thiệu một số khóa học miễn phí dành cho người mới bắt đầu Lượt thích “Tiếp thị trong thế giới kỹ thuật số” do Coursera cung cấp. Tôi đặc biệt thích phần “Đưa ra những ý tưởng sản phẩm phù hợp với thế giới kỹ thuật số”. Không có bất kỳ khóa học tiếp thị nào dành riêng cho khoa học dữ liệu, nhưng tôi thích bài viết trên blog này hướng dẫn cách tiếp thị bản thân với tư cách là một nhà khoa học dữ liệu.

Ngoài đó khó khăn lắm. Mặc dù có một tăng trưởng dự kiến về việc làm của nhà khoa học dữ liệu, theo Cục Thống kê Lao động, ngày càng nhiều người có nguyện vọng về khoa học dữ liệu ở cấp độ đầu vào đang gặp khó khăn khi tìm được việc làm, as các Reddit bài viết minh họa. Có sự cạnh tranh từ ChatGPT và những con kền kền sa thải đang hoành hành.

Để cạnh tranh và nổi bật trên thị trường việc làm, bạn phải vượt lên trên những yếu tố kỹ thuật. Quản trị dữ liệu, đạo đức, mô hình viz, kỹ thuật tính năng và kỹ năng tiếp thị khiến bạn trở thành một ứng cử viên chu đáo, mạnh mẽ và hấp dẫn hơn cho các nhà quản lý tuyển dụng.
 
 

Nate Rosidi là một nhà khoa học dữ liệu và trong chiến lược sản phẩm. Anh ấy cũng là một giáo sư trợ giảng dạy phân tích và là người sáng lập StrataScratch, một nền tảng giúp các nhà khoa học dữ liệu chuẩn bị cho cuộc phỏng vấn của họ với các câu hỏi phỏng vấn thực tế từ các công ty hàng đầu. Kết nối với anh ấy trên Twitter: StrataScratch or LinkedIn.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img