Logo Zephyrnet

Máy móc 'lò mò' dữ liệu như thế nào? | Tạp chí Quanta

Ngày:

Giới thiệu

Với tất cả sự xuất sắc của chúng, mạng lưới thần kinh nhân tạo vẫn khó hiểu hơn bao giờ hết. Khi các mạng này ngày càng lớn hơn, khả năng của chúng bùng nổ, nhưng việc giải mã hoạt động bên trong của chúng luôn là điều gần như không thể. Các nhà nghiên cứu không ngừng tìm kiếm những hiểu biết sâu sắc mà họ có thể tìm thấy về những mô hình này.

Một vài năm trước, họ đã phát hiện ra một cái mới.

Vào tháng 2022 năm XNUMX, các nhà nghiên cứu tại OpenAI, công ty đứng sau ChatGPT, báo cáo rằng những hệ thống này, khi vô tình được phép nhai dữ liệu lâu hơn bình thường, đã phát triển những cách giải quyết vấn đề độc đáo. Thông thường, khi các kỹ sư xây dựng mô hình học máy từ mạng lưới thần kinh - bao gồm các đơn vị tính toán được gọi là nơ-ron nhân tạo - họ có xu hướng dừng quá trình đào tạo tại một điểm nhất định, được gọi là chế độ trang bị quá mức. Đây là lúc mạng về cơ bản bắt đầu ghi nhớ dữ liệu huấn luyện của nó và thường không khái quát hóa thành thông tin mới, chưa được nhìn thấy. Nhưng khi nhóm OpenAI vô tình đào tạo một mạng nhỏ vượt quá điểm này, nó dường như đã phát triển sự hiểu biết về vấn đề vượt xa khả năng ghi nhớ đơn thuần - nó có thể bất ngờ đánh bại bất kỳ dữ liệu thử nghiệm nào.

Các nhà nghiên cứu đặt tên cho hiện tượng này là “lò mò mẫm”, một thuật ngữ do tác giả khoa học viễn tưởng Robert A. Heinlein đặt ra có nghĩa là hiểu một điều gì đó “kỹ lưỡng đến mức người quan sát trở thành một phần của quá trình được quan sát”. Mạng lưới thần kinh được đào tạo quá mức, được thiết kế để thực hiện một số phép toán nhất định, đã học được cấu trúc chung của các con số và nội hóa kết quả. Nó đã mò mẫm và trở thành giải pháp.

“Điều này [thật] rất thú vị và kích thích tư duy,” nói Mikhail Belkin của Đại học California, San Diego, người nghiên cứu các đặc tính lý thuyết và thực nghiệm của mạng lưới thần kinh. “Nó thúc đẩy rất nhiều công việc tiếp theo.”

Thật vậy, những người khác đã sao chép kết quả và thậm chí đảo ngược chúng. Các bài báo gần đây nhất không chỉ làm rõ những mạng lưới thần kinh này đang làm gì khi chúng mò mẫm mà còn cung cấp một lăng kính mới để kiểm tra các bộ phận bên trong của chúng. “Thiết lập Grokking giống như một sinh vật mẫu tốt để hiểu nhiều khía cạnh khác nhau của học sâu,” cho biết Eric Michaud của Viện Công nghệ Massachusetts.

Nhìn vào bên trong sinh vật này đôi khi khá lộ liễu. “Bạn không chỉ có thể tìm thấy cấu trúc đẹp mà cấu trúc đẹp đó còn quan trọng để hiểu những gì đang diễn ra bên trong,” nói. Neel Nanda, hiện có tại Google DeepMind ở London.

Vượt quá giới hạn

Về cơ bản, công việc của mô hình học máy có vẻ đơn giản: Chuyển đổi đầu vào nhất định thành đầu ra mong muốn. Nhiệm vụ của thuật toán học là tìm ra hàm tốt nhất có thể thực hiện được điều đó. Bất kỳ mô hình cụ thể nào cũng chỉ có thể truy cập vào một tập hợp chức năng giới hạn và tập hợp đó thường được quyết định bởi số lượng tham số trong mô hình, trong trường hợp mạng nơ-ron gần tương đương với số lượng kết nối giữa các nơ-ron nhân tạo.

Giới thiệu

Khi một mạng đào tạo, nó có xu hướng tìm hiểu các chức năng phức tạp hơn và sự khác biệt giữa đầu ra dự kiến ​​và đầu ra thực tế bắt đầu thuộc về dữ liệu huấn luyện. Thậm chí tốt hơn, sự khác biệt này, được gọi là mất mát, cũng bắt đầu giảm dần đối với dữ liệu thử nghiệm, vốn là dữ liệu mới không được sử dụng trong quá trình đào tạo. Nhưng tại một thời điểm nào đó, mô hình bắt đầu quá phù hợp và trong khi tổn thất trên dữ liệu huấn luyện tiếp tục giảm thì tổn thất trong dữ liệu thử nghiệm bắt đầu tăng lên. Vì vậy, thông thường, đó là lúc các nhà nghiên cứu ngừng đào tạo mạng.

Đó là quan điểm phổ biến khi nhóm tại OpenAI bắt đầu khám phá cách mạng lưới thần kinh có thể làm toán. Họ đang sử dụng một cái nhỏ biến áp — một kiến ​​trúc mạng gần đây đã cách mạng hóa các mô hình ngôn ngữ lớn — để thực hiện các loại số học mô-đun khác nhau, trong đó bạn làm việc với một tập hợp số giới hạn tự lặp lại. Ví dụ: Modulo 12 có thể được thực hiện trên mặt đồng hồ: 11 + 2 = 1. Nhóm đã đưa ra các ví dụ về mạng về phép cộng hai số, a b, để tạo ra một đầu ra, c, ở modulo 97 (tương đương với mặt đồng hồ có 97 số). Sau đó, họ thử nghiệm máy biến áp trên những tổ hợp vô hình của a b để xem liệu nó có thể dự đoán chính xác không c.

Đúng như dự đoán, khi mạng bước vào chế độ trang bị quá mức, tổn thất trên dữ liệu huấn luyện gần bằng 0 (nó đã bắt đầu ghi nhớ những gì nó đã thấy) và tổn thất trên dữ liệu thử nghiệm bắt đầu tăng lên. Nó không khái quát hóa. “Rồi một ngày, chúng tôi gặp may mắn,” trưởng nhóm Alethea Power cho biết. phát biểu vào tháng 2022 năm XNUMX tại một hội nghị ở San Francisco. “Và với từ may mắn, ý tôi là hay quên.”

Thành viên trong nhóm đang đào tạo mạng đã đi nghỉ và quên ngừng đào tạo. Khi phiên bản mạng này tiếp tục được đào tạo, nó đột nhiên trở nên chính xác đối với dữ liệu chưa được nhìn thấy. Quá trình kiểm tra tự động đã tiết lộ độ chính xác bất ngờ này cho những người còn lại trong nhóm và họ nhanh chóng nhận ra rằng mạng đã tìm ra những cách sắp xếp các con số thông minh ab. Trong nội bộ, mạng biểu thị các con số trong một số không gian chiều cao, nhưng khi các nhà nghiên cứu chiếu những con số này xuống không gian 2D và ánh xạ chúng, các con số sẽ tạo thành một vòng tròn.

Điều này thật đáng kinh ngạc. Nhóm nghiên cứu chưa bao giờ nói với mô hình rằng nó đang thực hiện phép toán modulo 97 hoặc thậm chí modulo có nghĩa là gì - họ chỉ cho nó xem các ví dụ về số học. Mô hình dường như đã tìm thấy một giải pháp phân tích sâu hơn nào đó - một phương trình tổng quát hóa cho tất cả các kết hợp của a b, thậm chí vượt ra ngoài dữ liệu đào tạo. Mạng đã gặp trục trặc và độ chính xác của dữ liệu thử nghiệm lên tới 100%. “Điều này thật kỳ lạ,” Power nói với khán giả của mình.

Nhóm đã xác minh kết quả bằng cách sử dụng các nhiệm vụ khác nhau và các mạng khác nhau. Sự khám phá đã được giữ vững.

Đồng hồ và pizza

Nhưng phương trình mà mạng đã tìm thấy là gì? Bài báo OpenAI không nói nhưng kết quả đã khiến Nanda chú ý. Nanda, người có công việc tập trung vào kỹ thuật đảo ngược, cho biết: “Một trong những bí ẩn cốt lõi và những điều khó chịu về mạng lưới thần kinh là chúng làm rất tốt những gì chúng làm, nhưng theo mặc định, chúng tôi không biết chúng hoạt động như thế nào”. mạng để tìm ra những thuật toán mà nó đã học được.

Nanda bị mê hoặc bởi khám phá OpenAI và anh quyết định tách ra một mạng lưới thần kinh đã gặp trục trặc. Anh ấy đã thiết kế một phiên bản thậm chí còn đơn giản hơn của mạng thần kinh OpenAI để có thể kiểm tra chặt chẽ các tham số của mô hình khi nó học cách tính số học mô-đun. Anh ấy cũng thấy hành vi tương tự: trang bị quá mức đã nhường chỗ cho sự khái quát hóa và sự cải thiện đột ngột về độ chính xác của bài kiểm tra. Mạng lưới của ông cũng sắp xếp các con số theo một vòng tròn. Phải mất một chút nỗ lực nhưng cuối cùng Nanda đã tìm ra lý do.

Mặc dù nó biểu diễn các số trên một vòng tròn, mạng không chỉ đơn giản đếm các chữ số giống như một học sinh mẫu giáo đang xem đồng hồ: Nó đang thực hiện một số thao tác toán học phức tạp. Bằng cách nghiên cứu các giá trị của các tham số của mạng, Nanda và đồng nghiệp tiết lộ rằng nó đang cộng các số đồng hồ bằng cách thực hiện “các phép biến đổi Fourier rời rạc” trên chúng - biến đổi các số bằng cách sử dụng các hàm lượng giác như sin và cos, sau đó xử lý các giá trị này bằng cách sử dụng các đặc tính lượng giác để đi đến lời giải. Ít nhất, đây là những gì mạng lưới cụ thể của anh ấy đang làm.

Khi một nhóm ở MIT tiếp nối về công việc của Nanda, họ đã chỉ ra rằng không phải lúc nào các mạng lưới thần kinh đang mò mẫm cũng khám phá ra thuật toán “đồng hồ” này. Thay vào đó, đôi khi, các mạng tìm thấy thứ mà các nhà nghiên cứu gọi là thuật toán “pizza”. Cách tiếp cận này tưởng tượng một chiếc bánh pizza được chia thành nhiều lát và đánh số theo thứ tự. Để cộng hai số, hãy tưởng tượng vẽ các mũi tên từ tâm của chiếc bánh pizza đến các số cần tìm, sau đó tính đường chia đôi góc tạo bởi hai mũi tên đầu tiên. Đường này đi qua giữa một miếng bánh pizza nào đó: Số miếng bánh là tổng của hai số. Các phép toán này cũng có thể được viết dưới dạng các phép tính lượng giác và đại số của sin và cosin của a bvà về mặt lý thuyết chúng chính xác như cách tiếp cận của đồng hồ.

Giới thiệu

“Cả thuật toán [đồng hồ] và pizza đều có biểu diễn hình tròn này,” cho biết Lưu Tử Minh, một thành viên của nhóm MIT. “Nhưng… cách họ tận dụng các sin và cos này là khác nhau. Đó là lý do tại sao chúng tôi gọi chúng là các thuật toán khác nhau.”

Và đó vẫn chưa phải là tất cả. Sau khi đào tạo nhiều mạng để thực hiện phép toán modulo, Liu và các đồng nghiệp đã phát hiện ra rằng khoảng 40% thuật toán được các mạng này phát hiện là các dạng thuật toán pizza hoặc đồng hồ. Nhóm đã không thể giải mã được mạng đang làm gì trong thời gian còn lại. Đối với thuật toán pizza và đồng hồ, “nó chỉ xảy ra khi nó tìm thấy thứ mà con người chúng ta có thể giải thích được,” Liu nói.

Và bất kể thuật toán nào mà mạng học được khi giải quyết một vấn đề, nó thậm chí còn có khả năng khái quát hóa mạnh hơn những gì các nhà nghiên cứu nghi ngờ. Khi một nhóm ở Đại học Maryland nuôi một mạng lưới thần kinh đơn giản dữ liệu huấn luyện có lỗi ngẫu nhiên, mạng lúc đầu hoạt động như mong đợi: Điều chỉnh quá mức dữ liệu huấn luyện, lỗi và tất cả, đồng thời hoạt động kém trên dữ liệu thử nghiệm không bị hỏng. Tuy nhiên, khi mạng bắt đầu tìm kiếm và trả lời chính xác các câu hỏi kiểm tra, nó có thể tạo ra câu trả lời đúng ngay cả với những mục nhập sai, quên đi những câu trả lời sai đã được ghi nhớ và khái quát hóa ngay cả với dữ liệu huấn luyện của nó. “Nhiệm vụ mò mẫm thực sự khá mạnh mẽ đối với những loại tham nhũng này,” cho biết Darshil Doshi, một trong những tác giả của bài báo.

Trận chiến giành quyền kiểm soát

Kết quả là, các nhà nghiên cứu hiện đang bắt đầu hiểu được quá trình dẫn đến việc mạng thu thập dữ liệu của nó. Nanda coi sự đột ngột rõ ràng của việc mò mẫm là kết quả của quá trình chuyển đổi dần dần bên trong từ ghi nhớ sang khái quát hóa, sử dụng hai thuật toán khác nhau bên trong mạng lưới thần kinh. Ông nói, khi một mạng bắt đầu học, trước tiên nó sẽ tìm ra thuật toán ghi nhớ dễ dàng hơn; tuy nhiên, mặc dù thuật toán đơn giản hơn nhưng nó đòi hỏi nguồn lực đáng kể vì mạng cần ghi nhớ từng phiên bản của dữ liệu huấn luyện. Nhưng ngay cả khi đang ghi nhớ, các phần của mạng lưới thần kinh bắt đầu hình thành các mạch thực hiện giải pháp chung. Hai thuật toán cạnh tranh nhau về tài nguyên trong quá trình huấn luyện, nhưng việc khái quát hóa cuối cùng sẽ thắng nếu mạng được huấn luyện với một thành phần bổ sung gọi là chính quy hóa.

Liu cho biết: “Việc chính quy hóa dần dần đưa giải pháp tới giải pháp tổng quát hóa. Đây là một quá trình làm giảm năng lực chức năng của mô hình - độ phức tạp của chức năng mà mô hình có thể học. Khi việc chính quy hóa giảm bớt độ phức tạp của mô hình, thuật toán tổng quát hóa, ít phức tạp hơn, cuối cùng sẽ chiến thắng. Nanda cho biết: “Việc khái quát hóa đơn giản hơn đối với cùng [mức độ] hiệu suất”. Cuối cùng, mạng nơ-ron loại bỏ thuật toán ghi nhớ.

Vì vậy, trong khi khả năng khái quát hóa bị trì hoãn dường như xuất hiện đột ngột, thì các tham số bên trong mạng đang học thuật toán tổng quát hóa một cách đều đặn. Chỉ khi mạng vừa học thuật toán khái quát hóa vừa loại bỏ hoàn toàn thuật toán ghi nhớ thì bạn mới cảm thấy khó chịu. “Có thể những điều tưởng chừng như đột ngột lại thực sự diễn ra dần dần bên dưới bề mặt,” Nanda nói - một vấn đề cũng đã được đưa ra trong nghiên cứu học máy khác.

Bất chấp những đột phá này, điều quan trọng cần nhớ là nghiên cứu mò mẫm vẫn còn ở giai đoạn sơ khai. Cho đến nay, các nhà nghiên cứu chỉ nghiên cứu các mạng cực kỳ nhỏ và không rõ liệu những phát hiện này có đúng với các mạng lớn hơn, mạnh hơn hay không. Belkin cũng cảnh báo rằng số học mô-đun chỉ là “giọt nước trong đại dương” so với tất cả các nhiệm vụ khác nhau đang được thực hiện bởi mạng lưới thần kinh ngày nay. Kỹ thuật đảo ngược giải pháp của mạng lưới thần kinh cho phép toán như vậy có thể không đủ để hiểu các nguyên tắc chung thúc đẩy các mạng này hướng tới sự khái quát hóa. “Thật tuyệt vời khi nghiên cứu về cây cối,” Belkin nói. “Nhưng chúng ta cũng phải nghiên cứu về khu rừng.”

Tuy nhiên, khả năng nhìn sâu vào bên trong các mạng này và hiểu chúng bằng phương pháp phân tích có ý nghĩa rất lớn. Đối với hầu hết chúng ta, phép biến đổi Fourier và chia đôi các cung tròn là một cách rất kỳ lạ để thực hiện phép cộng modulo - tế bào thần kinh của con người không nghĩ như vậy. Nanda nói: “Nhưng nếu bạn được xây dựng dựa trên đại số tuyến tính, thì việc làm như thế này thực sự rất có ý nghĩa.

Ông nói: “Những bộ não [nhân tạo] kỳ lạ này hoạt động khác với bộ não của chúng ta. “[Họ] có những quy tắc và cấu trúc riêng. Chúng ta cần học cách suy nghĩ về cách mạng lưới thần kinh suy nghĩ.”

tại chỗ_img

Tin tức mới nhất

tại chỗ_img