Logo Zephyrnet

AI vượt qua kỳ thi cấp phép y tế của Hoa Kỳ

Ngày:

ChatGPT, có thể vượt qua USMLE

— Hai bài báo cho thấy các mô hình ngôn ngữ lớn, bao gồm ChatGPT, có thể vượt qua USMLE

by Michael DePeau-Wilson, Nhà văn Điều tra & Doanh nghiệp, MedPage ngày 19 tháng 2023 năm XNUMX

Hai chương trình trí tuệ nhân tạo (AI) — bao gồm ChatGPT — đã vượt qua Kỳ thi Cấp phép Y tế Hoa Kỳ (USMLE), theo hai bài báo gần đây.

Các bài báo nêu bật các cách tiếp cận khác nhau để sử dụng các mô hình ngôn ngữ lớn để thực hiện USMLE, bao gồm ba kỳ thi: Bước 1, Bước 2 CK và Bước 3.

ChatGPTop mở trong tab hoặc cửa sổ mới là một công cụ tìm kiếm trí tuệ nhân tạo (AI) bắt chước cách viết dài dựa trên lời nhắc từ người dùng. Nó được phát triển bởi OpenAI và trở nên phổ biến sau khi một số bài đăng trên mạng xã hội cho thấy tiềm năng sử dụng công cụ này trong thực hành lâm sàng, thường có nhiều kết quả khác nhaumở trong tab hoặc cửa sổ mới.

Tờ báo đầu tiên, Được xuất bản trên medRxivmở trong tab hoặc cửa sổ mới vào tháng XNUMX, đã điều tra hiệu suất của ChatGPT trên USMLE mà không có bất kỳ khóa đào tạo hoặc củng cố đặc biệt nào trước kỳ thi. Theo Victor Tseng, MD, của Ansible Health ở Mountain View, California và các đồng nghiệp, kết quả cho thấy “bằng chứng mới và đáng ngạc nhiên” rằng công cụ AI này đã đáp ứng được thách thức.

Tseng và nhóm lưu ý rằng ChatGPT có thể thực hiện với độ chính xác >50% trong tất cả các bài kiểm tra và thậm chí đạt được 60% trong hầu hết các phân tích của họ. Mặc dù ngưỡng vượt qua USMLE có khác nhau giữa các năm, nhưng các tác giả cho biết tỷ lệ vượt qua là khoảng 60% trong hầu hết các năm.

“ChatGPT đã đạt hoặc gần đạt ngưỡng vượt qua cho cả ba kỳ thi mà không cần bất kỳ khóa đào tạo hoặc củng cố chuyên môn nào,” họ viết, đồng thời lưu ý rằng công cụ này có thể chứng minh “mức độ phù hợp và hiểu biết sâu sắc cao trong các giải thích của nó”.

Họ kết luận: “Những kết quả này cho thấy rằng các mô hình ngôn ngữ lớn có thể có khả năng hỗ trợ giáo dục y tế và có khả năng hỗ trợ quá trình ra quyết định lâm sàng”.

Tờ báo thứ hai, Được xuất bản trên arXivmở trong tab hoặc cửa sổ mới, cũng trong tháng XNUMX, đã đánh giá hiệu suất của một mô hình ngôn ngữ lớn khác, Flan-PaLM, trên USMLE. Sự khác biệt chính giữa hai mô hình là mô hình này đã được sửa đổi rất nhiều để chuẩn bị cho các kỳ thi, sử dụng một bộ cơ sở dữ liệu trả lời câu hỏi y tế có tên là MultiMedQA, Vivek Natarajan, nhà nghiên cứu AI và các đồng nghiệp giải thích.

Flan-PaLM đạt được độ chính xác 67.6% khi trả lời các câu hỏi USMLE, cao hơn khoảng 17 điểm phần trăm so với hiệu suất tốt nhất trước đây được thực hiện bằng PubMed GPT.

Natarajan và nhóm kết luận rằng các mô hình ngôn ngữ lớn “mang đến một cơ hội quan trọng để suy nghĩ lại về sự phát triển của AI y tế và giúp việc sử dụng nó dễ dàng hơn, an toàn hơn và công bằng hơn”.

ChatGPT, cùng với các chương trình AI khác, đã xuất hiện với tư cách là chủ đề — và đôi khi là đồng tác giả — của các tài liệu nghiên cứu mới tập trung vào việc thử nghiệm tính hữu dụng của công nghệ này trong y học.

Tất nhiên, các chuyên gia chăm sóc sức khỏe cũng bày tỏ lo ngại về những phát triển này, đặc biệt là khi ChatGPT được liệt kê là tác giả trên các tài liệu nghiên cứu. Một bài báo gần đây từ Thiên nhiênmở trong tab hoặc cửa sổ mới nhấn mạnh sự lo lắng từ các đồng nghiệp và đồng tác giả của công nghệ mới nổi.

Một ý kiến ​​phản đối việc sử dụng các chương trình AI trong nghiên cứu dựa trên việc liệu chúng có thực sự có khả năng đóng góp ý nghĩa về mặt học thuật cho một bài báo hay không, trong khi ý kiến ​​phản đối khác nhấn mạnh rằng các công cụ AI không thể đồng ý làm đồng tác giả ngay từ đầu.

Biên tập viên của một trong các bài báomở trong tab hoặc cửa sổ mới đã liệt kê ChatGPT với tư cách là một tác giả cho biết đó là một lỗi sẽ được sửa chữa, theo Thiên nhiên bài báo. Tuy nhiên, các nhà nghiên cứu đã xuất bản một số bài báo hiện đang quảng cáo các chương trình AI này như những công cụ hữu ích trong giáo dục y tế, nghiên cứu và thậm chí cả việc ra quyết định lâm sàng.

Natarajan và các đồng nghiệp đã kết luận trong bài báo của họ rằng các mô hình ngôn ngữ lớn có thể trở thành một công cụ hữu ích trong y học, nhưng hy vọng đầu tiên của họ là phát hiện của họ sẽ “châm ngòi cho các cuộc trò chuyện và hợp tác hơn nữa giữa bệnh nhân, người tiêu dùng, nhà nghiên cứu AI, bác sĩ lâm sàng, nhà khoa học xã hội, nhà đạo đức học, nhà hoạch định chính sách và những người quan tâm khác để dịch một cách có trách nhiệm những kết quả nghiên cứu ban đầu này nhằm cải thiện việc chăm sóc sức khỏe.”

tác giả['full_name']Michael DePeau-Wilson là phóng viên của nhóm điều tra & doanh nghiệp của MedPage Today. Anh ấy đưa tin về tâm thần học, covid kéo dài và các bệnh truyền nhiễm, trong số các tin tức lâm sàng liên quan khác của Hoa Kỳ. Theo 

Nguồn chính

medRxiv

Nguồn tham khảo: mở trong tab hoặc cửa sổ mớiKung TH, et al “Hiệu suất của ChatGPT trên USMLE: tiềm năng cho giáo dục y tế có sự hỗ trợ của AI bằng các mô hình ngôn ngữ lớn” medRxiv 2022; NGÀY: 10.1101/2022.12.19.22283643.

Nguồn thứ hai

arXiv

Nguồn tham khảo: mở trong tab hoặc cửa sổ mớiSinghal K, et al “Các mô hình ngôn ngữ lớn mã hóa kiến ​​thức lâm sàng” arXiv 2022; DOI: 10.48550/arXiv.2212.13138.

<!–

->

<!–
->

tại chỗ_img

Tin tức mới nhất

tại chỗ_img