Logo Zephyrnet

Tóm tắt những lời hứa và cạm bẫy - Phần một » Blog CCC

Ngày:

CCC đã hỗ trợ ba phiên khoa học tại Hội nghị thường niên AAAS năm nay và trong trường hợp bạn không thể tham dự trực tiếp, chúng tôi sẽ tóm tắt lại từng phiên. Tuần này, chúng tôi sẽ tóm tắt những điểm nổi bật của phiên họp, “AI sáng tạo trong khoa học: Lời hứa và cạm bẫy.” Trong Phần Một, chúng tôi sẽ tóm tắt phần giới thiệu và trình bày của Tiến sĩ Rebecca Willett.

Hội đồng AAAS đầu tiên của CCC về cuộc họp thường niên năm 2024 đã diễn ra vào thứ Sáu, ngày 16 tháng XNUMX, ngày thứ hai của hội nghị. Bảng điều khiển được kiểm duyệt bởi chính CCC Tiến sĩ Matthew Turk, chủ tịch Viện Công nghệ Toyota tại Chicago, bao gồm các chuyên gia ứng dụng trí tuệ nhân tạo vào nhiều lĩnh vực khoa học. Tiến sĩ Rebecca Willett, giáo sư thống kê và khoa học máy tính tại Đại học Chicago, đã tập trung bài thuyết trình của mình vào cách sử dụng các mô hình tổng quát trong khoa học và tại sao các mô hình có sẵn không đủ để áp dụng vào nghiên cứu khoa học. Tiến sĩ Markus Buehler, giáo sư kỹ thuật tại Viện Công nghệ Massachusetts, đã nói về các mô hình tổng quát được áp dụng cho khoa học vật liệu, và Tiến sĩ Duncan Watson-Parris, trợ lý giáo sư tại Viện Hải dương học Scripps và Viện Khoa học Dữ liệu Halıcıoğlu tại UC San Diego, đã thảo luận về cách sử dụng các mô hình tổng quát trong nghiên cứu khoa học khí hậu.

Tiến sĩ Turk, một chuyên gia về thị giác máy tính và tương tác giữa con người với máy tính, đã bắt đầu hội thảo bằng cách phân biệt Generative AI với tất cả AI. “Cốt lõi của các ứng dụng AI tổng quát là các mô hình tổng quát bao gồm các mạng lưới thần kinh sâu tìm hiểu cấu trúc của dữ liệu đào tạo khổng lồ và sau đó tạo ra dữ liệu mới dựa trên những gì chúng đã học được.”

Tiến sĩ Turk cũng nêu ra những mối lo ngại phổ biến với các hệ thống tạo, cả do lỗi của chính hệ thống, chẳng hạn như những hệ thống trích dẫn các bản tóm tắt pháp lý không tồn tại và cũng do các tác nhân xấu sử dụng chúng để tạo ra nội dung giả mạo, chẳng hạn như âm thanh giả hoặc video của các chính trị gia hoặc người nổi tiếng.

Tiến sĩ Turk cho biết: “Đặc biệt, phiên họp này sẽ tập trung vào việc sử dụng AI tổng quát trong khoa học, vừa là một lực lượng biến đổi trong việc theo đuổi khoa học vừa là một nguy cơ gián đoạn tiềm tàng”.

Tiến sĩ Rebecca Willett bắt đầu bài thuyết trình của mình bằng cách phác thảo cách tận dụng AI có thể tạo ra để hỗ trợ quá trình khám phá khoa học. Đầu tiên cô tập trung vào cách hoạt động của các mô hình sáng tạo. Hình ảnh bên dưới từ các trang trình bày của Tiến sĩ Willett hiển thị cách một mô hình ngôn ngữ, chẳng hạn như ChatGPT, đánh giá xác suất xuất hiện của một từ, dựa trên một tập hợp các từ trước đó và cách một mô hình tạo hình ảnh, chẳng hạn như DALL-E 2, tạo ra một hình ảnh từ một lời nhắc nhất định bằng cách sử dụng phân bố xác suất đã học được từ hàng tỷ hình ảnh trong quá trình huấn luyện.

“Sử dụng nguyên tắc phân phối xác suất này, làm nền tảng cho tất cả các mô hình sinh sản, các mô hình này có thể được áp dụng cho các ý tưởng đột phá trong khoa học, chẳng hạn như tạo ra các kịch bản khí hậu khả thi dựa trên khí hậu hiện tại và các chính sách tiềm năng, hoặc tạo ra các hệ vi sinh vật mới với chức năng mục tiêu, chẳng hạn như Tiến sĩ Willett cho biết một loại đặc biệt hiệu quả trong việc phân hủy nhựa.

Tuy nhiên, việc sử dụng các công cụ tổng hợp có sẵn như ChatGPT hoặc DALL-E 2 cho nghiên cứu khoa học là chưa đủ. Những công cụ này được tạo ra trong bối cảnh rất khác với bối cảnh hoạt động của các nhà khoa học. Một điểm khác biệt rõ ràng giữa mô hình sáng tạo có sẵn và mô hình khoa học là dữ liệu. Trong khoa học, thường có rất ít dữ liệu để làm cơ sở cho các giả thuyết. Dữ liệu khoa học thường được lấy từ các mô phỏng và thí nghiệm, cả hai đều tốn kém và tốn thời gian. Vì những hạn chế này, các nhà khoa học phải lựa chọn cẩn thận những thí nghiệm nào sẽ tiến hành và làm thế nào để tối đa hóa hiệu quả và tính hữu ích của các hệ thống này. Ngược lại, các mô hình sẵn có ít coi trọng việc dữ liệu đến từ đâu hơn là ưu tiên tối đa hóa lượng dữ liệu mà chúng có thể hoạt động. Trong khoa học, tính chính xác của các bộ dữ liệu và nguồn gốc của chúng là vô cùng quan trọng, bởi vì các nhà khoa học cần chứng minh nghiên cứu của mình bằng bằng chứng thực nghiệm chắc chắn.

Tiến sĩ Willett cho biết: “Ngoài ra, trong khoa học, mục tiêu của chúng tôi khác với việc chỉ tạo ra những thứ hợp lý”. “Chúng ta phải hiểu cách mọi thứ diễn ra ngoài phạm vi những gì chúng ta đã quan sát được cho đến nay.” Cách tiếp cận này trái ngược với các mô hình AI tổng quát coi dữ liệu là đại diện cho đầy đủ các quan sát có thể xảy ra. Việc kết hợp các mô hình vật lý và các ràng buộc vào AI tổng hợp giúp đảm bảo nó sẽ thể hiện các hiện tượng vật lý tốt hơn.

Các mô hình khoa học cũng phải có khả năng nắm bắt được các sự kiện hiếm gặp. “Chúng tôi có thể yên tâm bỏ qua nhiều sự kiện hiếm gặp khi đào tạo ChatGPT, nhưng ngược lại, các sự kiện hiếm thường là điều chúng tôi quan tâm nhất trong bối cảnh khoa học, chẳng hạn như trong mô hình khí hậu dự đoán các sự kiện thời tiết hiếm gặp. Nếu chúng ta sử dụng một mô hình tổng quát để tránh các sự kiện hiếm gặp và chẳng hạn như không bao giờ dự đoán một cơn bão, thì mô hình này sẽ không hữu ích lắm trong thực tế.”

Một thách thức liên quan là phát triển các mô hình AI tổng quát cho các quy trình hỗn loạn, nhạy cảm với các điều kiện ban đầu. Tiến sĩ Willett chiếu đoạn video bên dưới cho thấy hai hạt chuyển động trong không gian theo phương trình Lorenz 63. Những phương trình này mang tính tất định, không phải ngẫu nhiên, nhưng với hai vị trí bắt đầu hơi khác nhau, bạn có thể thấy rằng tại bất kỳ thời điểm nào hai hạt có thể ở những vị trí rất khác nhau. Việc phát triển các mô hình AI tổng quát để dự đoán tiến trình chính xác của các quá trình như vậy, phát sinh trong khoa học khí hậu, nhiễu loạn và động lực mạng, về cơ bản là khó, nhưng các cách tiếp cận mới đối với mô hình tổng quát có thể đảm bảo rằng các quy trình được tạo ra có chung các đặc điểm thống kê quan trọng với dữ liệu khoa học thực tế.

[Nhúng nội dung]

Cuối cùng, Tiến sĩ Willett đề cập đến thực tế là dữ liệu khoa học thường trải rộng trên phạm vi rất lớn về quy mô không gian và thời gian. Ví dụ, trong khoa học vật liệu, các nhà nghiên cứu nghiên cứu vật liệu ở quy mô nanomet từ các đơn vị cho đến hệ thống quy mô lớn, chẳng hạn như toàn bộ một chiếc máy bay. “Phạm vi thang đo đó rất khác với dữ liệu được sử dụng trong các mô hình sẵn có và chúng tôi cần xem xét cách chúng tôi xây dựng các mô hình tổng quát này theo cách ảnh hưởng chính xác đến các tương tác giữa các thang đo này”.

Tiến sĩ Willett cho biết: “Các mô hình sáng tạo là tương lai của khoa học”, “nhưng để đảm bảo chúng được sử dụng hiệu quả, chúng ta cần đạt được những tiến bộ cơ bản trong AI và vượt xa việc đưa dữ liệu vào ChatGPT”.

Cảm ơn bạn rất nhiều vì đã đọc và vui lòng theo dõi vào ngày mai để đọc phần tóm tắt bài thuyết trình của Tiến sĩ Markus Buehler về Trí tuệ nhân tạo trong Cơ học.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img