Logo Zephyrnet

Lý luận theo chuỗi suy nghĩ giúp mạng lưới thần kinh tính toán như thế nào | Tạp chí Quanta

Ngày:

Giới thiệu

Giáo viên tiểu học của bạn có lẽ đã không chỉ cho bạn cách cộng các số có 20 chữ số. Nhưng nếu bạn biết cách cộng các số nhỏ hơn, tất cả những gì bạn cần là giấy, bút chì và một chút kiên nhẫn. Bắt đầu từ hàng đơn vị và tiến dần sang trái từng bước, chẳng mấy chốc bạn sẽ dễ dàng xếp được hàng nghìn tỷ.

Những vấn đề như thế này rất dễ xảy ra với con người nhưng chỉ khi chúng ta tiếp cận chúng đúng cách. “Cách con người chúng ta giải quyết những vấn đề này không phải là ‘nhìn chằm chằm vào nó rồi viết ra câu trả lời’,” ​​nói Eran Malach, một nhà nghiên cứu về máy học tại Đại học Harvard. “Chúng tôi thực sự đi bộ qua các bước.”

Cái nhìn sâu sắc đó đã truyền cảm hứng cho các nhà nghiên cứu nghiên cứu các mô hình ngôn ngữ lớn hỗ trợ các chatbot như ChatGPT. Mặc dù các hệ thống này có thể giải quyết tốt các câu hỏi liên quan đến một vài bước số học, nhưng chúng thường sẽ giải quyết các vấn đề liên quan đến nhiều bước, như tính tổng của hai số lớn. Nhưng vào năm 2022, một nhóm nhà nghiên cứu của Google cho thấy việc yêu cầu các mô hình ngôn ngữ tạo ra các giải pháp từng bước đã cho phép các mô hình giải quyết các vấn đề mà trước đây dường như nằm ngoài tầm với của chúng. Kỹ thuật của họ, được gọi là nhắc nhở chuỗi suy nghĩ, nhanh chóng trở nên phổ biến, ngay cả khi các nhà nghiên cứu đang nỗ lực tìm hiểu điều gì khiến nó hoạt động.

Giờ đây, một số nhóm đã khám phá sức mạnh của lý luận chuỗi suy nghĩ bằng cách sử dụng các kỹ thuật từ một nhánh phức tạp của khoa học máy tính lý thuyết được gọi là lý thuyết độ phức tạp tính toán. Đây là chương mới nhất trong dòng nghiên cứu sử dụng lý thuyết phức tạp để nghiên cứu các khả năng và hạn chế nội tại của các mô hình ngôn ngữ. Những nỗ lực này làm rõ những điểm mà chúng ta cho rằng các mô hình sẽ thất bại và chúng có thể hướng tới các phương pháp tiếp cận mới để xây dựng chúng.

“Họ loại bỏ một số phép thuật,” nói Dimitris Papailiopoulos, một nhà nghiên cứu về máy học tại Đại học Wisconsin, Madison. "Đó là một điều tốt."

Đào tạo máy biến áp

Các mô hình ngôn ngữ lớn được xây dựng xung quanh các cấu trúc toán học gọi là mạng lưới thần kinh nhân tạo. Nhiều “tế bào thần kinh” bên trong các mạng này thực hiện các phép toán đơn giản trên các chuỗi số dài biểu thị các từ riêng lẻ, chuyển đổi từng từ đi qua mạng thành một từ khác. Các chi tiết của thuật giả kim toán học này phụ thuộc vào một bộ số khác gọi là tham số của mạng, giúp định lượng độ mạnh của các kết nối giữa các nơ-ron.

Để đào tạo một mô hình ngôn ngữ nhằm tạo ra các kết quả đầu ra mạch lạc, các nhà nghiên cứu thường bắt đầu với một mạng lưới thần kinh có các tham số đều có giá trị ngẫu nhiên, sau đó cung cấp cho nó các luồng dữ liệu từ khắp nơi trên internet. Mỗi lần mô hình nhìn thấy một khối văn bản mới, nó sẽ cố gắng dự đoán lần lượt từng từ: Nó đoán từ thứ hai dựa trên từ đầu tiên, từ thứ ba dựa trên hai từ đầu tiên, v.v. Nó so sánh từng dự đoán với văn bản thực tế, sau đó điều chỉnh các tham số để giảm sự khác biệt. Mỗi điều chỉnh chỉ thay đổi dự đoán của mô hình một chút, nhưng bằng cách nào đó, hiệu ứng tổng thể của chúng cho phép mô hình phản ứng mạch lạc với các đầu vào mà nó chưa từng thấy.

Các nhà nghiên cứu đã đào tạo mạng lưới thần kinh để xử lý ngôn ngữ trong 20 năm. Nhưng công việc này thực sự thành công vào năm 2017, khi các nhà nghiên cứu tại Google giới thiệu một loại mạng mới gọi là máy biến áp.

“Điều này đã được đề xuất cách đây bảy năm, có vẻ như là thời tiền sử,” nói Pablo Barcelona, một nhà nghiên cứu về máy học tại Đại học Công giáo Chile.

Điều làm cho máy biến áp trở nên có tính biến đổi là nó dễ dàng mở rộng quy mô — để tăng số lượng tham số và lượng dữ liệu huấn luyện — mà không khiến việc huấn luyện trở nên quá tốn kém. Trước máy biến áp, mạng nơ-ron có tối đa vài trăm triệu tham số; ngày nay, các mô hình dựa trên máy biến áp lớn nhất có hơn một nghìn tỷ. Phần lớn sự cải thiện về hiệu suất của mô hình ngôn ngữ trong 5 năm qua chỉ đơn giản là do việc mở rộng quy mô.

Transformers đã thực hiện được điều này bằng cách sử dụng các cấu trúc toán học đặc biệt được gọi là đầu chú ý, giúp chúng có cái nhìn toàn cảnh về văn bản chúng đang đọc. Khi máy biến áp đọc một khối văn bản mới, đầu chú ý của nó sẽ nhanh chóng quét toàn bộ nội dung và xác định các kết nối có liên quan giữa các từ - có lẽ lưu ý rằng từ thứ tư và thứ tám có thể hữu ích nhất để dự đoán từ thứ 10. Sau đó, đầu chú ý chuyển các từ đến một mạng lưới nơ-ron khổng lồ được gọi là mạng lưới tiếp liệu, mạng này thực hiện việc xử lý số lượng lớn cần thiết để tạo ra các dự đoán giúp nó học hỏi.

Máy biến áp thực có nhiều lớp đầu chú ý được phân tách bằng mạng tiếp liệu và chỉ đưa ra dự đoán sau lớp cuối cùng. Nhưng ở mỗi lớp, người quản lý sự chú ý đã xác định được ngữ cảnh phù hợp nhất cho mỗi từ, do đó, bước chuyển tiếp chuyên sâu về mặt tính toán có thể diễn ra đồng thời cho mọi từ trong văn bản. Điều đó đẩy nhanh quá trình huấn luyện, giúp có thể huấn luyện các máy biến áp trên các tập dữ liệu ngày càng lớn. Quan trọng hơn nữa, nó cho phép các nhà nghiên cứu phân tán khối lượng tính toán khổng lồ trong việc huấn luyện một mạng lưới thần kinh khổng lồ trên nhiều bộ xử lý hoạt động song song.

Để tận dụng tối đa các tập dữ liệu khổng lồ, “bạn phải tạo ra các mô hình thực sự lớn,” cho biết David Tưởng, một nhà nghiên cứu về máy học tại Đại học Notre Dame. “Việc huấn luyện họ sẽ không thực tế trừ khi nó được thực hiện song song.”

Tuy nhiên, cấu trúc song song giúp việc huấn luyện máy biến áp trở nên dễ dàng không giúp ích gì sau khi huấn luyện — tại thời điểm đó, không cần phải dự đoán các từ đã tồn tại. Trong quá trình hoạt động bình thường, máy biến áp xuất ra từng từ một, xử lý từng đầu ra trở lại đầu vào trước khi tạo từ tiếp theo, nhưng chúng vẫn bị mắc kẹt với kiến ​​trúc được tối ưu hóa cho xử lý song song.

Khi các mô hình dựa trên máy biến áp ngày càng phát triển và một số nhiệm vụ nhất định tiếp tục gây rắc rối cho chúng, một số nhà nghiên cứu bắt đầu tự hỏi liệu việc thúc đẩy các mô hình song song hơn có phải trả giá hay không. Về mặt lý thuyết có cách nào để hiểu hành vi của máy biến áp không?

Sự phức tạp của máy biến áp

Các nghiên cứu lý thuyết về mạng lưới thần kinh gặp nhiều khó khăn, đặc biệt khi chúng cố gắng tính đến việc đào tạo. Mạng lưới thần kinh sử dụng một quy trình phổ biến để điều chỉnh các tham số của chúng ở mỗi bước của quá trình đào tạo. Nhưng có thể khó hiểu tại sao quy trình đơn giản này lại hội tụ một tập hợp các tham số tốt.

Thay vì xem xét điều gì xảy ra trong quá trình huấn luyện, một số nhà nghiên cứu nghiên cứu khả năng bên trong của máy biến áp bằng cách tưởng tượng rằng có thể điều chỉnh các tham số của chúng theo bất kỳ giá trị tùy ý nào. Điều này tương đương với việc coi máy biến áp như một loại máy tính có thể lập trình đặc biệt.

“Bạn có một số thiết bị tính toán và bạn muốn biết, 'Ồ, nó có thể làm được những gì? Nó có thể tính toán những loại chức năng nào?'” Chiang nói.

Đây là những câu hỏi trọng tâm trong nghiên cứu chính thức về tính toán. Lĩnh vực này có từ năm 1936, khi Alan Turing lần đầu tiên tưởng tượng ra một thiết bị huyền ảo, hiện được gọi là máy Turing, có thể thực hiện bất kỳ tính toán nào bằng cách đọc và ghi các ký hiệu trên một băng vô hạn. Các nhà lý thuyết về độ phức tạp tính toán sau này dựa trên công trình của Turing bằng cách chứng minh rằng các vấn đề tính toán tự nhiên rơi vào các dạng khác nhau. các lớp phức tạp được xác định bởi các nguồn lực cần thiết để giải quyết chúng.

Năm 2019, Barceló và hai nhà nghiên cứu khác chứng minh rằng một phiên bản lý tưởng hóa của máy biến áp với một số thông số cố định có thể mạnh mẽ như máy Turing. Nếu bạn thiết lập một máy biến áp để liên tục đưa đầu ra của nó trở lại làm đầu vào và đặt các tham số thành các giá trị thích hợp cho vấn đề cụ thể mà bạn muốn giải quyết, thì cuối cùng nó sẽ đưa ra câu trả lời đúng.

Kết quả đó là điểm khởi đầu, nhưng nó dựa trên một số giả định không thực tế có thể đánh giá quá cao công suất của máy biến áp. Trong những năm kể từ đó, các nhà nghiên cứu đã nỗ lực phát triển các khuôn khổ lý thuyết thực tế hơn.

Một nỗ lực như vậy bắt đầu vào năm 2021, khi William Merrill, hiện là sinh viên tốt nghiệp tại Đại học New York, sắp hoàn thành chương trình học bổng hai năm tại Viện Trí tuệ Nhân tạo Allen ở Seattle. Khi ở đó, anh ấy đã phân tích các loại mạng lưới thần kinh khác bằng cách sử dụng các kỹ thuật có vẻ không phù hợp với kiến ​​trúc song song của máy biến áp. Không lâu trước khi rời đi, anh ấy đã có cuộc trò chuyện với Viện nghiên cứu AI của Allen Ashish Sabharwal, người đã nghiên cứu lý thuyết phức tạp trước khi chuyển sang nghiên cứu AI. Họ bắt đầu nghi ngờ rằng lý thuyết phức tạp có thể giúp họ hiểu được giới hạn của máy biến thế.

“Có vẻ như đó là một mô hình đơn giản; phải có một số hạn chế mà người ta có thể giải quyết được,” Sabharwal nói.

Cặp đôi đã phân tích các máy biến áp sử dụng một nhánh của lý thuyết độ phức tạp tính toán, được gọi là độ phức tạp của mạch, thường được sử dụng để nghiên cứu tính toán song song và có gần đây đã được áp dụng đến các phiên bản đơn giản của máy biến áp. Trong năm tiếp theo, họ đã cải tiến một số giả định không thực tế trong nghiên cứu trước đó. Để nghiên cứu xem cấu trúc song song của máy biến áp có thể hạn chế khả năng của chúng như thế nào, cặp đôi đã xem xét trường hợp máy biến áp không đưa đầu ra trở lại đầu vào — thay vào đó, đầu ra đầu tiên của chúng sẽ phải là câu trả lời cuối cùng. Họ chứng minh rằng các máy biến áp trong khung lý thuyết này không thể giải quyết bất kỳ vấn đề tính toán nào nằm ngoài một lớp phức tạp cụ thể. Và nhiều bài toán, kể cả những bài toán tương đối đơn giản như giải phương trình tuyến tính, được cho là nằm ngoài lớp này.

Về cơ bản, họ đã chỉ ra rằng sự song song đã phải trả giá - ít nhất là khi các máy biến thế phải đưa ra câu trả lời ngay lập tức. Merrill nói: “Máy biến áp khá yếu nếu cách bạn sử dụng chúng là đưa ra đầu vào và bạn chỉ mong đợi một câu trả lời ngay lập tức”.

Thí nghiệm tư duy

Kết quả của Merrill và Sabharwal đã đặt ra một câu hỏi tự nhiên - máy biến áp sẽ mạnh hơn bao nhiêu khi chúng được phép tái chế đầu ra của mình? Barceló và các đồng tác giả của ông đã nghiên cứu trường hợp này trong bài phân tích về máy biến áp lý tưởng hóa năm 2019, nhưng với những giả định thực tế hơn thì câu hỏi vẫn còn bỏ ngỏ. Và trong những năm qua, các nhà nghiên cứu đã khám phá ra chuỗi suy nghĩ gợi ý, khiến câu hỏi này trở nên có liên quan mới.

Merrill và Sabharwal biết rằng phương pháp toán học thuần túy của họ không thể nắm bắt được tất cả các khía cạnh của lý luận chuỗi suy nghĩ trong các mô hình ngôn ngữ thực, trong đó cách diễn đạt trong dấu nhắc có thể rất quan trọng. Nhưng bất kể lời nhắc được diễn đạt như thế nào, miễn là nó khiến mô hình ngôn ngữ đưa ra các giải pháp từng bước, về nguyên tắc, mô hình có thể sử dụng lại kết quả của các bước trung gian trong các lần chuyển tiếp theo qua máy biến áp. Điều đó có thể cung cấp một cách để tránh các giới hạn của tính toán song song.

Trong khi đó, một nhóm từ Đại học Bắc Kinh cũng đang suy nghĩ theo hướng tương tự và kết quả ban đầu của họ rất khả quan. Trong một bài báo tháng 2023 năm XNUMX, họ đã xác định được một số bài toán mà các máy biến áp thông thường không thể thực hiện được trong khuôn khổ của Merrill và Sabharwal, và cho thấy các bước trung gian đó đã giúp máy biến áp giải quyết được những vấn đề này.

Vào tháng 10, Merrill và Sabharwal tiếp tục công việc trước đó của họ bằng một Nghiên cứu lý thuyết chi tiết về sức mạnh tính toán của chuỗi suy nghĩ. Họ đã định lượng sức mạnh tính toán bổ sung đó phụ thuộc vào số bước trung gian mà máy biến áp được phép sử dụng trước khi đưa ra câu trả lời cuối cùng. Nhìn chung, các nhà nghiên cứu mong đợi số bước trung gian thích hợp để giải quyết bất kỳ vấn đề nào sẽ phụ thuộc vào quy mô đầu vào của vấn đề. Ví dụ: chiến lược đơn giản nhất để cộng hai số có 20 chữ số yêu cầu số bước cộng trung gian gấp đôi so với cách cộng hai số có 10 chữ số.

Những ví dụ như thế này cho thấy máy biến áp sẽ không thu được nhiều lợi ích nếu chỉ sử dụng một vài bước trung gian. Thật vậy, Merrill và Sabharwal đã chứng minh rằng chuỗi suy nghĩ chỉ thực sự bắt đầu có ích khi số bước trung gian tăng tỷ lệ thuận với kích thước của đầu vào, và nhiều bài toán đòi hỏi số bước trung gian vẫn còn lớn hơn nhiều.

Sự kỹ lưỡng của kết quả đã gây ấn tượng với các nhà nghiên cứu. “Họ thực sự đã ghim chặt điều này,” nói Daniel Hsu, một nhà nghiên cứu về máy học tại Đại học Columbia.

Công trình gần đây của Merrill và Sabharwal chỉ ra rằng chuỗi suy nghĩ không phải là thuốc chữa bách bệnh - về nguyên tắc, nó có thể giúp máy biến áp giải quyết các vấn đề khó khăn hơn nhưng chỉ phải trả giá bằng nhiều nỗ lực tính toán.

Merrill cho biết: “Chúng tôi quan tâm đến những cách khác nhau để khắc phục những hạn chế của máy biến áp chỉ bằng một bước”. “Chuỗi suy nghĩ là một cách, nhưng bài báo này cho thấy rằng đó có thể không phải là cách tiết kiệm nhất”.

Trở lại với thực tế

Tuy nhiên, các nhà nghiên cứu cảnh báo rằng kiểu phân tích lý thuyết này chỉ có thể tiết lộ rất nhiều về các mô hình ngôn ngữ thực. Kết quả tích cực - bằng chứng cho thấy về nguyên tắc, máy biến áp có thể giải quyết một số vấn đề nhất định - không ngụ ý rằng mô hình ngôn ngữ sẽ thực sự học những giải pháp đó trong quá trình đào tạo.

Và ngay cả những kết quả giải quyết những hạn chế của máy biến áp cũng đi kèm với những cảnh báo: Chúng chỉ ra rằng không có máy biến áp nào có thể giải quyết một số vấn đề một cách hoàn hảo trong mọi trường hợp. Tất nhiên, đó là một tiêu chuẩn khá cao. “Có thể có những trường hợp đặc biệt của vấn đề mà nó có thể xử lý tốt,” Hsu nói.

Bất chấp những cảnh báo này, công trình mới cung cấp một mẫu để phân tích các loại kiến ​​trúc mạng thần kinh khác nhau mà cuối cùng có thể thay thế máy biến áp. Nếu phân tích lý thuyết phức tạp cho thấy rằng một số loại mạng nhất định mạnh hơn các loại mạng khác, thì đó sẽ là bằng chứng cho thấy các mạng đó cũng có thể hoạt động tốt hơn trong thế giới thực.

Chiang cũng nhấn mạnh rằng nghiên cứu về những hạn chế của máy biến thế càng có giá trị hơn khi các mô hình ngôn ngữ ngày càng được sử dụng trong nhiều ứng dụng trong thế giới thực, khiến người ta dễ dàng đánh giá quá cao khả năng của chúng.

Tưởng nói: “Thực tế có rất nhiều thứ họ làm không tốt và chúng tôi cần phải nhận thức rất rõ những hạn chế là gì”. “Đó là lý do tại sao loại công việc này thực sự quan trọng.”

tại chỗ_img

Tin tức mới nhất

tại chỗ_img