Logo Zephyrnet

Chip mới mở rộng khả năng cho AI

Ngày:

Giới thiệu

Các thuật toán trí tuệ nhân tạo không thể tiếp tục phát triển với tốc độ hiện tại. Các thuật toán như mạng lưới thần kinh sâu — được lấy cảm hứng từ bộ não, với nhiều lớp tế bào thần kinh nhân tạo được liên kết với nhau thông qua các giá trị số được gọi là trọng số — ngày càng lớn hơn mỗi năm. Nhưng ngày nay, các cải tiến phần cứng không còn bắt kịp với dung lượng bộ nhớ và khả năng xử lý khổng lồ cần thiết để chạy các thuật toán khổng lồ này. Chẳng bao lâu nữa, quy mô của các thuật toán AI có thể chạm ngưỡng.

Và ngay cả khi chúng ta có thể tiếp tục mở rộng quy mô phần cứng để đáp ứng nhu cầu của AI, vẫn có một vấn đề khác: chạy chúng trên các máy tính truyền thống sẽ lãng phí một lượng năng lượng khổng lồ. Lượng khí thải carbon cao được tạo ra từ việc chạy các thuật toán AI lớn đã gây hại cho môi trường và nó sẽ chỉ trở nên tồi tệ hơn khi các thuật toán ngày càng trở nên khổng lồ hơn.

Một giải pháp, được gọi là điện toán mô phỏng thần kinh, lấy cảm hứng từ bộ não sinh học để tạo ra các thiết kế tiết kiệm năng lượng. Thật không may, mặc dù những con chip này có thể vượt xa các máy tính kỹ thuật số trong việc tiết kiệm năng lượng, nhưng chúng lại thiếu sức mạnh tính toán cần thiết để chạy một mạng lưới thần kinh sâu khá lớn. Điều đó khiến các nhà nghiên cứu AI dễ dàng bỏ qua chúng.

Điều đó cuối cùng đã thay đổi vào tháng XNUMX, khi Vệ Văn, H.-S. Philip Hoàng, Gert Cauwenberghs và đồng nghiệp của họ tiết lộ một con chip thần kinh mới được gọi là NeuRRAM bao gồm 3 triệu ô nhớ và hàng nghìn nơ-ron được tích hợp vào phần cứng của nó để chạy các thuật toán. Nó sử dụng một loại bộ nhớ tương đối mới gọi là RAM điện trở hoặc RRAM. Không giống như các chip RRAM trước đây, NeuRRAM được lập trình để hoạt động theo kiểu tương tự nhằm tiết kiệm nhiều năng lượng và không gian hơn. Trong khi bộ nhớ kỹ thuật số là nhị phân — lưu trữ 1 hoặc 0 — các ô bộ nhớ tương tự trong chip NeuRRAM, mỗi ô có thể lưu trữ nhiều giá trị dọc theo một phạm vi hoàn toàn liên tục. Điều đó cho phép chip lưu trữ nhiều thông tin hơn từ các thuật toán AI khổng lồ trong cùng một dung lượng chip.

Do đó, con chip mới có thể thực hiện tốt các tác vụ AI phức tạp như máy tính kỹ thuật số như nhận dạng hình ảnh và giọng nói, đồng thời các tác giả khẳng định nó tiết kiệm năng lượng hơn tới 1,000 lần, mở ra khả năng cho các con chip nhỏ chạy các thuật toán ngày càng phức tạp. trong các thiết bị nhỏ trước đây không phù hợp với AI như đồng hồ thông minh và điện thoại.

Các nhà nghiên cứu không tham gia vào công việc đã bị ấn tượng sâu sắc bởi kết quả. “Bài viết này khá độc đáo,” nói Trung Thụy Vương, một nhà nghiên cứu RRAM lâu năm tại Đại học Hồng Kông. “Nó đóng góp ở các cấp độ khác nhau — ở cấp độ thiết bị, cấp độ kiến ​​trúc mạch và cấp độ thuật toán.”

Tạo Ký ức Mới

Trong các máy tính kỹ thuật số, lượng năng lượng khổng lồ bị lãng phí khi chúng chạy các thuật toán AI là do một lỗi thiết kế đơn giản và phổ biến khiến mọi phép tính đơn lẻ trở nên kém hiệu quả. Thông thường, bộ nhớ của máy tính — chứa dữ liệu và các giá trị số mà nó xử lý trong quá trình tính toán — được đặt trên bo mạch chủ cách xa bộ xử lý, nơi diễn ra quá trình tính toán.

Wan, một nhà khoa học máy tính trước đây tại Đại học Stanford, người gần đây đã chuyển đến công ty khởi nghiệp AI Aizip, cho biết: “Đối với thông tin chảy qua bộ xử lý, “giống như bạn dành XNUMX giờ để đi lại nhưng bạn làm việc trong XNUMX giờ”.

Giới thiệu

Việc khắc phục sự cố này bằng chip tất cả trong một mới đặt bộ nhớ và tính toán ở cùng một vị trí có vẻ đơn giản. Nó cũng gần giống với cách bộ não của chúng ta xử lý thông tin, vì nhiều nhà thần kinh học tin rằng tính toán xảy ra trong quần thể tế bào thần kinh, trong khi ký ức được hình thành khi các khớp thần kinh giữa các tế bào thần kinh tăng cường hoặc làm suy yếu kết nối của chúng. Nhưng việc tạo ra những thiết bị như vậy tỏ ra khó khăn, vì các dạng bộ nhớ hiện tại không tương thích với công nghệ trong bộ vi xử lý.

Các nhà khoa học máy tính cách đây nhiều thập kỷ đã phát triển các vật liệu để tạo ra các con chip mới thực hiện các phép tính trong đó bộ nhớ được lưu trữ — một công nghệ được gọi là bộ nhớ trong. Nhưng với các máy tính kỹ thuật số truyền thống hoạt động rất tốt, những ý tưởng này đã bị bỏ qua trong nhiều thập kỷ.

“Công trình đó, giống như hầu hết các công trình khoa học, đã bị lãng quên,” Wong, giáo sư tại Stanford, nói.

Thật vậy, thiết bị đầu tiên như vậy ít nhất là từ năm 1964, khi các kỹ sư điện tại Stanford phát hiện ra rằng họ có thể điều khiển một số vật liệu nhất định, được gọi là oxit kim loại, để bật và tắt khả năng dẫn điện của chúng. Điều đó rất quan trọng vì khả năng chuyển đổi giữa hai trạng thái của vật liệu cung cấp xương sống cho bộ nhớ lưu trữ truyền thống. Thông thường, trong bộ nhớ kỹ thuật số, trạng thái điện áp cao tương ứng với 1 và điện áp thấp tương ứng với 0.

Để thiết bị RRAM chuyển đổi trạng thái, bạn đặt một điện áp trên các điện cực kim loại nối với hai đầu của oxit kim loại. Thông thường, oxit kim loại là chất cách điện, có nghĩa là chúng không dẫn điện. Nhưng với đủ điện áp, dòng điện tích tụ, cuối cùng đẩy qua các điểm yếu của vật liệu và tạo ra một đường dẫn đến điện cực ở phía bên kia. Khi dòng điện đã xuyên qua, nó có thể chảy tự do dọc theo con đường đó.

Wong ví quá trình này giống như sét đánh: Khi có đủ điện tích tích tụ bên trong một đám mây, nó sẽ nhanh chóng tìm thấy đường đi có điện trở thấp và sét đánh. Nhưng không giống như tia sét, đường đi của nó biến mất, đường đi qua oxit kim loại vẫn còn, nghĩa là nó vẫn dẫn điện vô thời hạn. Và có thể xóa đường dẫn điện bằng cách đặt một điện áp khác vào vật liệu. Vì vậy, các nhà nghiên cứu có thể chuyển đổi RRAM giữa hai trạng thái và sử dụng chúng để lưu trữ bộ nhớ kỹ thuật số.

Các nhà nghiên cứu giữa thế kỷ trước đã không nhận ra tiềm năng của điện toán tiết kiệm năng lượng và họ cũng chưa cần đến nó với các thuật toán nhỏ hơn mà họ đang làm việc. Phải đến đầu những năm 2000, với việc phát hiện ra các oxit kim loại mới, các nhà nghiên cứu mới nhận ra các khả năng này.

Wong, người đang làm việc tại IBM vào thời điểm đó, nhớ lại rằng một đồng nghiệp từng đoạt giải thưởng làm việc về RRAM thừa nhận rằng anh ấy không hiểu đầy đủ về vật lý liên quan. “Nếu anh ấy không hiểu nó,” Wong nhớ lại suy nghĩ của mình, “có lẽ tôi không nên cố gắng hiểu nó.”

Nhưng vào năm 2004, các nhà nghiên cứu tại Samsung Electronics thông báo rằng họ đã tích hợp thành công bộ nhớ RRAM được xây dựng dựa trên một con chip điện toán truyền thống, cho thấy rằng cuối cùng cũng có thể có một con chip điện toán trong bộ nhớ. Wong quyết tâm ít nhất là thử.

Chip điện toán trong bộ nhớ cho AI

 Trong hơn một thập kỷ, các nhà nghiên cứu như Wong đã làm việc để xây dựng công nghệ RRAM đến mức nó có thể xử lý các tác vụ điện toán mạnh mẽ một cách đáng tin cậy. Khoảng năm 2015, các nhà khoa học máy tính bắt đầu nhận ra tiềm năng to lớn của các thiết bị tiết kiệm năng lượng này đối với các thuật toán AI lớn đang bắt đầu phát triển. Năm đó, các nhà khoa học tại Đại học California, Santa Barbara cho thấy rằng các thiết bị RRAM có thể làm được nhiều việc hơn là chỉ lưu trữ bộ nhớ theo một cách mới. Họ có thể tự thực hiện các tác vụ tính toán cơ bản — bao gồm phần lớn các phép tính diễn ra trong các nơ-ron nhân tạo của mạng nơ-ron, vốn là các tác vụ nhân ma trận đơn giản.

Trong chip NeuRRAM, các nơ-ron silicon được tích hợp vào phần cứng và các ô bộ nhớ RRAM lưu trữ các trọng số — các giá trị biểu thị cường độ kết nối giữa các nơ-ron. Và bởi vì các ô nhớ NeuRRAM là tương tự nên các trọng số mà chúng lưu trữ đại diện cho toàn bộ các trạng thái điện trở xảy ra trong khi thiết bị chuyển đổi giữa trạng thái điện trở thấp sang trạng thái điện trở cao. Điều này cho phép đạt được hiệu quả sử dụng năng lượng cao hơn cả bộ nhớ RRAM kỹ thuật số có thể đạt được vì chip có thể chạy song song nhiều phép tính ma trận — thay vì lần lượt nối tiếp nhau như trong các phiên bản xử lý kỹ thuật số.

Nhưng vì quá trình xử lý tương tự vẫn chậm hơn hàng thập kỷ so với xử lý kỹ thuật số, nên vẫn còn nhiều vấn đề cần giải quyết. Một là các chip RRAM tương tự phải có độ chính xác khác thường vì các điểm không hoàn hảo trên chip vật lý có thể gây ra sự thay đổi và tiếng ồn. (Đối với các chip truyền thống, chỉ có hai trạng thái, những điểm không hoàn hảo này gần như không quan trọng bằng.) Điều đó khiến các thiết bị RRAM tương tự khó chạy thuật toán AI hơn đáng kể, do độ chính xác của việc nhận dạng hình ảnh sẽ bị ảnh hưởng nếu trạng thái dẫn điện của thiết bị RRAM không hoàn toàn giống nhau mọi lúc.

“Khi chúng tôi nhìn vào một đường chiếu sáng, mỗi lần nó lại khác nhau,” Wong nói. “Vì vậy, do đó, RRAM thể hiện một mức độ ngẫu nhiên nhất định — mỗi khi bạn lập trình chúng sẽ hơi khác một chút.” Wong và các đồng nghiệp của ông đã chứng minh rằng các thiết bị RRAM có thể lưu trữ các trọng số AI liên tục mà vẫn chính xác như máy tính kỹ thuật số nếu các thuật toán được đào tạo để quen với tiếng ồn mà chúng gặp phải trên chip, một bước tiến giúp họ có thể sản xuất chip NeuRRAM.

Giới thiệu

Một vấn đề lớn khác mà họ phải giải quyết liên quan đến tính linh hoạt cần thiết để hỗ trợ các mạng thần kinh đa dạng. Trước đây, các nhà thiết kế chip phải sắp xếp các thiết bị RRAM nhỏ trong một khu vực bên cạnh các tế bào thần kinh silicon lớn hơn. Các thiết bị RRAM và tế bào thần kinh được kết nối cứng mà không có khả năng lập trình, vì vậy việc tính toán chỉ có thể được thực hiện theo một hướng duy nhất. Để hỗ trợ các mạng thần kinh với khả năng tính toán hai chiều, cần có thêm dây và mạch, làm tăng nhu cầu về năng lượng và không gian.

Vì vậy, nhóm của Wong đã thiết kế một kiến ​​trúc chip mới trong đó các thiết bị bộ nhớ RRAM và tế bào thần kinh silicon được trộn lẫn với nhau. Sự thay đổi nhỏ này đối với thiết kế đã giảm tổng diện tích và tiết kiệm năng lượng.

“Tôi nghĩ [sự sắp xếp] thực sự rất đẹp,” nói Melika Payvand, một nhà nghiên cứu thần kinh học tại Viện Công nghệ Liên bang Thụy Sĩ Zurich. “Tôi chắc chắn coi đó là một công việc đột phá.”

Trong vài năm, nhóm của Wong đã làm việc với các cộng tác viên để thiết kế, sản xuất, thử nghiệm, hiệu chỉnh và chạy các thuật toán AI trên chip NeuRRAM. Họ đã cân nhắc việc sử dụng các loại bộ nhớ mới nổi khác cũng có thể được sử dụng trong chip điện toán trong bộ nhớ, nhưng RRAM có lợi thế hơn nhờ các ưu điểm của nó trong lập trình tương tự và vì nó tương đối dễ tích hợp với các vật liệu điện toán truyền thống.

Kết quả gần đây của họ đại diện cho chip RRAM đầu tiên có thể chạy các thuật toán AI lớn và phức tạp như vậy — một kỳ tích mà trước đây chỉ có thể thực hiện được trong các mô phỏng lý thuyết. “Khi nói đến silicon thực sự, khả năng đó đã bị thiếu,” cho biết Anup Das, một nhà khoa học máy tính tại Đại học Drexel. “Công việc này là minh chứng đầu tiên.”

Cauwenberghs cho biết: “Các hệ thống AI kỹ thuật số rất linh hoạt và chính xác, nhưng mức độ kém hiệu quả hơn. Giờ đây, Cauwenberghs cho biết, chip RRAM tương tự linh hoạt, chính xác và tiết kiệm năng lượng của họ đã “lần đầu tiên thu hẹp khoảng cách”.

Mở rộng quy mô

Thiết kế của nhóm giữ cho chip NeuRRAM cực nhỏ — chỉ bằng kích thước của một chiếc móng tay — trong khi ép 3 triệu thiết bị bộ nhớ RRAM có thể đóng vai trò là bộ xử lý tương tự. Và mặc dù nó có thể chạy các mạng thần kinh ít nhất cũng như các máy tính kỹ thuật số, nhưng con chip này cũng (và lần đầu tiên) có thể chạy các thuật toán thực hiện tính toán theo các hướng khác nhau. Chip của họ có thể nhập điện áp vào các hàng của mảng RRAM và đọc đầu ra từ các cột như tiêu chuẩn cho chip RRAM, nhưng nó cũng có thể thực hiện ngược từ cột này sang hàng khác, vì vậy có thể sử dụng nó trong các mạng thần kinh vận hành với dữ liệu chảy theo các hướng khác nhau.

Đối với bản thân công nghệ RRAM, điều này đã có thể thực hiện được từ lâu, nhưng không ai nghĩ sẽ làm điều đó. “Tại sao chúng ta không nghĩ về điều này trước đây?” Payvand hỏi. “Trong nhận thức muộn màng, tôi không biết.”

“Điều này thực sự mở ra rất nhiều cơ hội khác,” Das nói. Ví dụ, ông đề cập đến khả năng của một hệ thống đơn giản chạy các thuật toán khổng lồ cần thiết cho các mô phỏng vật lý đa chiều hoặc ô tô tự lái.

Tuy nhiên, kích thước là một vấn đề. Các mạng thần kinh lớn nhất hiện nay chứa hàng tỷ trọng số, chứ không phải hàng triệu có trong các chip mới. Wong có kế hoạch mở rộng quy mô bằng cách xếp chồng nhiều chip NeuRRAM lên nhau.

Điều quan trọng không kém là giữ cho chi phí năng lượng thấp trong các thiết bị trong tương lai hoặc thu nhỏ chúng hơn nữa. Một cách để đạt được điều đó là bởi sao chép bộ não thậm chí chặt chẽ hơn để áp dụng tín hiệu giao tiếp được sử dụng giữa các tế bào thần kinh thực: xung điện. Đó là tín hiệu được phát ra từ nơ-ron này sang nơ-ron khác khi chênh lệch điện áp giữa bên trong và bên ngoài tế bào đạt đến ngưỡng tới hạn.

“Có những thách thức lớn ở đó,” nói Tony Kenyon, một nhà nghiên cứu công nghệ nano tại Đại học College London. “Nhưng chúng tôi vẫn có thể muốn đi theo hướng đó, bởi vì… rất có thể là bạn sẽ có hiệu suất năng lượng cao hơn nếu bạn đang sử dụng các gai rất thưa thớt.” Tuy nhiên, để chạy các thuật toán tăng đột biến trên chip NeuRRAM hiện tại có thể sẽ yêu cầu một kiến ​​trúc hoàn toàn khác, Kenyon lưu ý.

Hiện tại, hiệu quả năng lượng mà nhóm đã đạt được khi chạy các thuật toán AI lớn trên chip NeuRRAM đã tạo ra hy vọng mới rằng các công nghệ bộ nhớ có thể đại diện cho tương lai của điện toán với AI. Có thể một ngày nào đó chúng ta thậm chí sẽ có thể khớp với 86 tỷ tế bào thần kinh của bộ não con người và hàng nghìn tỷ khớp thần kinh kết nối chúng mà không bị cạn kiệt năng lượng.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img