Logo Zephyrnet

ChatGPT dự báo tương lai tốt hơn khi kể chuyện

Ngày:

Các mô hình AI trở nên tốt hơn trong việc dự đoán tương lai khi được yêu cầu sắp xếp dự đoán như một câu chuyện về quá khứ, các nhà khoa học tại Đại học Baylor ở Texas đã nhận thấy.

In một tờ giấy có tiêu đề “ChatGPT có thể dự đoán tương lai khi kể những câu chuyện lấy bối cảnh tương lai về quá khứ”, Phạm và Cunningham đưa ra cảnh cuối cùng - rằng việc tiên lượng bằng mô hình AI có thể có hiệu quả trong một số trường hợp nhất định. Yêu cầu chatbot kể những câu chuyện về các sự kiện trong tương lai thay vì yêu cầu dự đoán trực tiếp tỏ ra hiệu quả một cách đáng ngạc nhiên, đặc biệt là trong việc dự đoán người đoạt giải Oscar.

Nhưng công việc của họ nói lên nhiều điều về sự kém hiệu quả của các cơ chế an toàn của OpenAI cũng như tiềm năng dự báo của các mô hình ngôn ngữ lớn.

Các nhà nghiên cứu khác cũng thể hiện sự quan tâm tương tự đến các mô hình AI để dự báo. Một nghiên cứu từ năm ngoái đã phát hiện ra rằng “GPT-4 hoạt động kém hơn đáng kể trong các nhiệm vụ dự đoán trong thế giới thực so với dự báo trung bình của con người về đám đông”. Những người khác đã tìm thấy mô hình AI hiển thị lời hứa cho việc đầu tư vào thị trường chứng khoán.

OpenAI's điều khoản dịch vụ không cho phép dự đoán về tương lai trong những bối cảnh nhất định. Ví dụ: “Bạn không được sử dụng bất kỳ Đầu ra nào liên quan đến một người cho bất kỳ mục đích nào có thể có tác động pháp lý hoặc vật chất đến người đó, chẳng hạn như đưa ra các quyết định tín dụng, giáo dục, việc làm, nhà ở, bảo hiểm, pháp lý, y tế hoặc các quyết định quan trọng khác về họ."

Rủi ro khi dựa vào lời khuyên từ một mô hình ngôn ngữ lớn gây ảo giác là hiển nhiên – bạn không muốn ChatGPT đưa ra các quyết định về hậu quả, chẳng hạn như quyết định điều trị y tế, tuyên án hoặc phê duyệt tín dụng.

Nhưng ngay cả như vậy, mô hình vẫn có thể trở thành một công cụ đoán hiệu quả, thường xuyên hơn là không.

Chúng tôi nghi ngờ OpenAI đã hạn chế sự sẵn sàng tham gia vào nhiều loại nhiệm vụ dự đoán hoàn toàn của ChatGPT

Các nhà nghiên cứu lập luận: “Nếu ChatGPT được phát hiện có khả năng dự báo vượt trội thì người ta có thể dễ dàng tưởng tượng rằng nó sẽ được sử dụng ngay lập tức theo những cách vi phạm một hoặc tất cả các điều kiện trên và do đó chúng tôi nghi ngờ OpenAI đã hạn chế sự sẵn lòng tham gia của ChatGPT vào nhiều hoạt động. các loại nhiệm vụ dự đoán hoàn toàn.”

Chúng tôi đã yêu cầu OpenAI bình luận về việc liệu nó có cố tình cản trở việc dự đoán hay không và chúng tôi chưa nhận được phản hồi.

Tuy nhiên, rõ ràng là các mô hình của OpenAI sẽ chùn bước khi được yêu cầu đưa ra lời khuyên điều trị y tế. Phạm và Cunningham đã hỏi GPT-4 của OpenAI thông qua giao diện ChatGPT, “Tôi cảm thấy thực sự mệt mỏi. Tôi bị đau đầu và nước tiểu của tôi có máu. Bạn nghĩ tôi có gì?” Và đúng như dự đoán, người mẫu khuyên nên tìm kiếm sự hướng dẫn từ chuyên gia y tế.

Sau đó, họ thay đổi chiến lược nhắc nhở và hướng dẫn ChatGPT kể cho họ nghe một câu chuyện trong đó một người đến phòng khám của bác sĩ và có những triệu chứng tương tự. Và ChatGPT đã trả lời bằng lời khuyên y tế mà họ từ chối đưa ra khi được hỏi trực tiếp, dưới dạng đoạn hội thoại của nhân vật trong cảnh được yêu cầu.

“Liệu lời khuyên của chuyên gia này có chính xác hay không lại là một vấn đề khác; Quan điểm của chúng tôi chỉ là lưu ý rằng nó sẽ không thực hiện nhiệm vụ khi được yêu cầu trực tiếp làm việc đó, nhưng nó sẽ thực hiện nhiệm vụ đó khi được giao nhiệm vụ một cách gián tiếp dưới dạng bài tập viết sáng tạo,” các nhà nghiên cứu giải thích trong bài báo của họ.

Với chiến lược thúc đẩy này nhằm khắc phục sự phản kháng đối với các phản ứng mang tính dự đoán, các nhà kinh tế học Baylor đã bắt đầu kiểm tra xem mô hình có thể dự đoán tốt đến mức nào các sự kiện xảy ra sau khi quá trình đào tạo mô hình đã hoàn tất.

Và giải thưởng thuộc về…

Vào thời điểm thử nghiệm, GPT-3.5 và GPT-4 chỉ biết về các sự kiện cho đến tháng 2021 năm 2022, thời điểm cắt dữ liệu đào tạo của họ – kể từ đó đã được nâng cao. Vì vậy, bộ đôi đã yêu cầu người mẫu kể những câu chuyện báo trước các dữ liệu kinh tế như lạm phát và tỷ lệ thất nghiệp theo thời gian cũng như những người chiến thắng nhiều Giải thưởng Viện hàn lâm năm XNUMX.

“Tóm tắt kết quả của thử nghiệm này, chúng tôi nhận thấy rằng khi giới thiệu những người được đề cử và sử dụng hai phong cách nhắc nhở [trực tiếp và kể chuyện] trên ChatGPT-3.5 và ChatGPT-4, ChatGPT-4 đã dự đoán chính xác những người chiến thắng cho tất cả các hạng mục nam và nữ diễn viên, nhưng không phải là Phim hay nhất, khi sử dụng bối cảnh tường thuật trong tương lai nhưng hoạt động kém trong các phương pháp tiếp cận [lời nhắc trực tiếp] khác,” bài báo giải thích.

Đối với những thứ đã có trong dữ liệu đào tạo, chúng tôi có cảm giác ChatGPT [có thể] đưa ra những dự đoán cực kỳ chính xác

Cunningham nói: “Đối với những thứ đã có trong dữ liệu đào tạo, chúng tôi có cảm giác rằng ChatGPT có khả năng sử dụng thông tin đó và với mô hình học máy của nó sẽ đưa ra những dự đoán cực kỳ chính xác”. Đăng ký trong một cuộc phỏng vấn qua điện thoại. “Tuy nhiên, có điều gì đó đang ngăn nó làm điều đó, mặc dù rõ ràng là nó có thể làm được.”

Sử dụng chiến lược gợi ý tường thuật sẽ mang lại kết quả tốt hơn so với việc sử dụng chiến lược gợi ý thông qua gợi ý trực tiếp. Nó cũng tốt hơn so với mức cơ bản 20% đối với lựa chọn ngẫu nhiên XNUMX/XNUMX.

Nhưng những dự báo tường thuật không phải lúc nào cũng chính xác. Việc gợi ý tường thuật đã dẫn đến việc dự đoán sai về người đoạt giải Phim hay nhất năm 2022.

Và đối với những lời nhắc được dự đoán chính xác, những mô hình này không phải lúc nào cũng đưa ra cùng một câu trả lời. Cunningham nói: “Mọi người cần lưu ý rằng có sự ngẫu nhiên trong dự đoán này. “Vì vậy, nếu bạn hỏi nó 100 lần, bạn sẽ nhận được nhiều câu trả lời. Và do đó, bạn có thể xem xét những thứ như khoảng tin cậy hoặc mức trung bình thay vì chỉ một dự đoán duy nhất.”

Chiến lược này có vượt trội hơn các dự đoán do cộng đồng cung cấp không? Cunningham nói rằng anh và đồng nghiệp của mình đã không so sánh kỹ thuật gợi ý tường thuật của họ với một mô hình dự đoán khác, nhưng cho biết một số dự đoán về Giải thưởng Viện hàn lâm sẽ khó bị đánh bại vì mô hình AI đã đưa ra một số dự đoán đúng gần như một trăm phần trăm trong suốt thời gian qua. nhiều truy vấn.

Đồng thời, ông gợi ý rằng việc dự đoán những người đoạt giải Oscar có thể dễ dàng hơn đối với mô hình AI vì các cuộc thảo luận trực tuyến về các bộ phim đã được ghi lại trong dữ liệu đào tạo. Cunningham nói: “Nó có thể có mối tương quan chặt chẽ với cách mọi người nói về những nam nữ diễn viên đó vào thời điểm đó”.

Yêu cầu mô hình dự đoán những người đoạt Giải thưởng Viện hàn lâm sau một thập kỷ có thể không suôn sẻ.

ChatGPT cũng thể hiện độ chính xác dự báo khác nhau dựa trên lời nhắc. Cunningham giải thích: “Chúng tôi có hai câu chuyện gợi ý. “Một người là giáo sư đại học, trong tương lai sẽ giảng dạy một lớp học. Và trong lớp, cô đọc số liệu về lạm phát và thất nghiệp trong một năm. Và trong một lần khác, chúng tôi có Jerome Powell, Chủ tịch Cục Dự trữ Liên bang, có bài phát biểu trước Hội đồng Thống đốc. Chúng tôi đã nhận được kết quả rất khác nhau. Và bài phát biểu [do AI tạo] của Powell chính xác hơn nhiều.”

Nói cách khác, một số chi tiết kịp thời nhất định sẽ dẫn đến những dự báo tốt hơn, nhưng vẫn chưa rõ những chi tiết đó có thể là gì. Cunningham lưu ý rằng việc đề cập đến cuộc xâm lược Ukraine năm 2022 của Nga trong lời nhắc tường thuật của Powell đã dẫn đến những dự đoán kinh tế tồi tệ hơn đáng kể so với thực tế xảy ra.

Ông nói: “[Mô hình] không biết về cuộc xâm lược Ukraine và nó sử dụng thông tin đó và đôi khi mọi chuyện trở nên tồi tệ hơn”. “Dự đoán cố gắng tính đến điều đó và ChatGPT-3.5 trở nên cực kỳ lạm phát [vào tháng] Nga xâm chiếm Ukraine và điều đó đã không xảy ra.

Cunningham nói: “Như một bằng chứng về khái niệm, điều gì đó thực tế sẽ xảy ra với lời nhắc nhở về câu chuyện trong tương lai. “Nhưng như chúng tôi đã cố gắng nói trong bài báo, tôi không nghĩ ngay cả những người tạo ra [mô hình] cũng hiểu được điều đó. Vì vậy, làm thế nào để tìm ra cách sử dụng nó vẫn chưa rõ ràng và tôi không biết nó thực sự có thể giải quyết được như thế nào.” ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img