Phỏng vấn CEO: Axel Kloth Of Abacus

Bán bàn tính Axel Kloth

Là một nhà vật lý được đào tạo, Axel đã quen với nhu cầu tính toán quy mô lớn. Ông đã phát hiện ra hơn 30 năm trước rằng khả năng mở rộng hiệu suất của bộ xử lý là điều tối quan trọng để giải quyết bất kỳ vấn đề tính toán nào. Điều đó đòi hỏi một mô hình mới trong kiến trúc máy tính. Tại Parimics, SSRLabs và Axiado, anh ấy đã có thể chỉ ra rằng tư duy mới là cần thiết và các giải pháp thực tế mới lạ có thể trông như thế nào. Axel hiện đang lặp lại cách tiếp cận đó với Abacus Semi.

Tầm nhìn của Abacus Semiconductor Corporation là gì?
Abacus Semi hình dung ra một tương lai trong đó các siêu máy tính có thể được xây dựng bằng các khối xây dựng giống như Lego – kết hợp và kết hợp mọi tổ hợp bộ xử lý, máy gia tốc và bộ nhớ đa nhà thông minh. Chúng tôi tin rằng các siêu máy tính ngày nay không đáp ứng được các yêu cầu của người dùng. Họ không quy mô gần như tuyến tính. Thông thường, 100,000 máy chủ tạo nên một siêu máy tính có thể cung cấp hiệu suất chỉ bằng 5,000 lần so với một máy chủ. Điều đó phần lớn là do thực tế là các siêu máy tính ngày nay về bản chất là các thiết bị thương mại (COTS), không có bất kỳ sự cân nhắc nào về giao tiếp giữa các máy chủ đó để hướng dẫn và chia sẻ dữ liệu ở mức độ trễ thấp và mức băng thông cao. Một nhược điểm khác là các máy gia tốc dành cho các ứng dụng có mục đích đặc biệt không dễ dàng tích hợp vào các siêu máy tính. Chúng tôi có cách nhìn khác về các khối xây dựng cơ bản – rất giống với Legos. Nếu các phần tử có thể lập trình như bộ xử lý được sử dụng để điều phối khối lượng công việc, thì các bộ tăng tốc sẽ thực hiện công việc và dữ liệu vào và ra thông qua các nút I/O chuyên dụng, trong khi các hệ thống con bộ nhớ đa nhà thông minh quy mô lớn giữ dữ liệu trung gian ở mức ra tay mọi lúc.

Tập đoàn bán dẫn Abacus đã bắt đầu như thế nào?
Axel là một nhà vật lý và nhà khoa học máy tính được đào tạo, và như vậy đã sử dụng siêu máy tính trong nhiều thập kỷ và cảm thấy thất vọng vì sự phức tạp của việc triển khai và sử dụng chúng, do thiếu quy mô tuyến tính và chi phí khổng lồ liên quan đến chúng. Kết quả là, anh ấy bắt đầu sửa chữa những gì có thể sửa chữa, luôn giả định một vài nguyên tắc cơ bản. Anh bắt đầu cuộc hành trình này với Parimics, một công ty sản xuất bộ xử lý hình ảnh vào năm 2004, sau đó với Scalable Systems Research Labs, Inc (SSRLabs) vào năm 2011, với một chặng đường ngắn để khởi nghiệp bộ xử lý an toàn, và bây giờ là Abacus Semiconductor Corporation vào năm 2020.

Một siêu máy tính hiện đại sẽ cho phép dễ dàng tích hợp các máy gia tốc cả về phần cứng và phần mềm, nó có thể cung cấp các cấu hình bộ nhớ rất lớn trong cả phân vùng bộ nhớ riêng và bộ nhớ dùng chung, đồng thời nó phải có chi phí ngang bằng với các hệ thống dựa trên COTS trong khi vẫn giữ được chi phí vận hành giảm. Đặc biệt là việc tích hợp máy gia tốc cho các ứng dụng chuyên sâu về số, cho ma trận và toán tenxơ, cho Trí tuệ nhân tạo (AI) và Học máy (ML) cũng như nhu cầu về bộ nhớ liên kết bộ đệm rất lớn được chia sẻ trên nhiều bộ xử lý chứng tỏ là tốt và có tương lai- các yêu cầu ngày nay đối với GPT-3 và ChatGPT gọi các mảng bộ nhớ có kích thước không được hỗ trợ trong các bộ xử lý ngày nay.

Là một nhà khoa học máy tính, Axel thấy rõ rằng các thiết bị có chức năng cố định mang lại hiệu suất vượt trội rất nhiều, sử dụng ít năng lượng hơn và ít bất động sản silicon hơn so với các phần tử có thể lập trình và một siêu máy tính hiện đại như vậy sẽ cho phép tích hợp tất cả các loại máy gia tốc trong khi duy trì khả năng lập trình của bộ xử lý để sắp xếp khối lượng công việc và để thực hiện những tác vụ không có phần cứng nào tồn tại.

Bạn đã đề cập rằng bạn có một số phát triển gần đây để chia sẻ. Họ là ai?
Chúng tôi rất vui mừng thông báo cho bạn biết rằng chúng tôi đã đánh giá tất cả mã và các khối xây dựng mà chúng tôi đã tạo trong hơn một thập kỷ qua và tất cả các yêu cầu của chúng tôi đều được đáp ứng. Với Server-on-a-Chip, các hệ thống con bộ nhớ đa nhà thông minh, bộ tăng tốc toán học và cơ sở dữ liệu mà chúng tôi đã chỉ ra trong các mô phỏng rằng chúng tôi sẽ đạt được khả năng mở rộng quy mô tuyến tính tốt hơn rất nhiều. Đối với hầu hết các ứng dụng và cấu hình, có vẻ như chúng tôi sẽ đạt đến hệ số mở rộng 80%, tức là một siêu máy tính bao gồm 100,000 máy chủ sẽ cung cấp khoảng 80,000 hiệu suất của một máy chủ. Giao diện của chúng tôi sẽ cung cấp đủ băng thông trên mỗi chân để cho phép hơn 3.2 TB/giây băng thông vào và ra khỏi bộ tăng tốc và bộ xử lý của chúng tôi. Hệ thống con bộ nhớ đa nhà thông minh sẽ cung cấp gần 1 TB/s băng thông vào và ra chip. Các miền bảo mật và nhất quán có thể được đặt cho từng hệ thống con bộ nhớ. Chúng tôi đã đạt được tiến bộ trong việc xây dựng đội ngũ của mình – cả về kỹ thuật và quản lý – và chúng tôi đã có trong tay bảng điều khoản. Chúng tôi vẫn đang đánh giá tính hợp lệ và tính xác thực của bảng điều khoản này, nhưng tại thời điểm này, các điều kiện có vẻ tốt.

Hãy cho chúng tôi biết về những con chip mới mà bạn đang xây dựng?
Như đã nêu trước đây, chúng tôi tin rằng để xây dựng một thế hệ siêu máy tính mới, cần có bộ xử lý mới, bộ tăng tốc và bộ nhớ đa nhà thông minh. Chúng tôi cũng đề cập đến thực tế là các lõi ngày nay cực kỳ tốt và vấn đề trong siêu máy tính không phải là lõi của bộ xử lý mà là gần như mọi thứ xung quanh chúng. Chúng tôi đang sử dụng lõi bộ xử lý RISC-V mà chúng tôi đã sửa đổi làm phần tử xây dựng cơ bản có thể lập trình được. Việc làm đó cho phép chúng tôi tham gia vào sự phát triển của hệ sinh thái xung quanh RISC-V, hệ sinh thái mà tôi tin rằng cho thấy tốc độ phát triển nhanh nhất so với bất kỳ bộ xử lý nào mà tôi từng thấy trong sự nghiệp của mình. Chúng tôi đã loại bỏ tất cả các yếu tố hạn chế hiệu suất xung quanh RISC-V, bổ sung hỗ trợ phần cứng cho ảo hóa và siêu giám sát, tối ưu hóa giao diện bộ đệm và đảm bảo rằng nó có thể kết nối với siêu xa lộ thông tin bộ xử lý nội bộ của chúng tôi. Chúng tôi cũng đang sử dụng bộ tăng tốc cho tất cả các giao diện I/O và kế thừa và vì chúng tôi làm điều này theo kiểu giống Lego nên các khối này đang được sử dụng lại trong Server-on-a-Chip và trong bộ xử lý cơ sở dữ liệu số nguyên cũng như bộ xử lý điều phối của chúng tôi , thực tế là cùng một phần cứng với phần sụn khác nhau. Các nguyên tắc giống như Lego cũng áp dụng cho hệ thống phụ bộ nhớ đa nhà thông minh của chúng tôi. Do đó, nỗ lực phát triển của chúng tôi tương đối thấp so với các công ty khác tập trung vào thiết kế bộ xử lý và siêu máy tính. Do triết lý song song của chúng tôi thay vì phải tăng tần số xung nhịp, chúng tôi không cần phải chi hàng tấn tiền cho trò chơi mèo vờn chuột cũ về thiết kế vật lý với việc đóng thời gian động trải qua nhiều vòng lặp để vắt kiệt thêm một lần nữa Hertz của tần số đồng hồ. Tất cả những điều đó đơn giản hóa việc tái sử dụng mã và khối xây dựng, và đó là lý do tại sao chúng tôi cố gắng xây dựng IP nội bộ của riêng mình và giữ nguyên như vậy.

Các con chip trong dòng Abacus Semi là gì?
Các chip chúng tôi đang thiết kế là Server-on-a-Chip kết hợp hiệu quả toàn bộ máy chủ vào một bộ xử lý, Giao diện người dùng I/O siêu máy tính giống hệt nhau, Bộ xử lý phối hợp, Bộ xử lý cơ sở dữ liệu số nguyên (cả hai đều triển khai cùng một phần cứng nhưng sử dụng chương trình cơ sở khác nhau), và một máy gia tốc toán học cũng như một bộ ký ức đa nhà thông minh.

Chip Abacus Semi được lập trình như thế nào?
Vì chúng tôi sử dụng bộ xử lý RISC-V làm thành phần có thể lập trình cơ bản nên chúng tôi có thể sử dụng hệ sinh thái hiện có. Server-on-a-Chip của chúng tôi, bộ xử lý cơ sở dữ liệu số nguyên và bộ xử lý điều phối đều hoàn toàn tương thích với Kiến trúc tập lệnh RISC-V. Nói cách khác, tất cả chúng đều chạy Linux và FreeBSD, với GCC và LLVM/CLANG làm trình biên dịch hiện có sẵn trong một thời gian. Trên thực tế, toàn bộ ngăn xếp LAMP (Linux/Apache/mySQL/PHP) và FAMP (FreeBSD/Apache/mySQL/PHP) đều có sẵn cho chúng và do đó, bất kỳ ứng dụng PHP và Perl nào chạy trên chúng đều không thay đổi. Do thực tế là chúng tôi sử dụng phương pháp tiếp cận DPU-plus để kết nối mạng, nên chúng tôi có sẵn một phần chương trình cơ sở cho các bộ xử lý hoạt động giống như một Thẻ Giao diện Mạng (NIC) lọc với khả năng giảm tải và với các chức năng DMA và DMA Từ xa, cũng như với quyền truy cập bộ nhớ trực tiếp vào bộ xử lý ứng dụng. Khả năng giảm tải tương tự cho bộ lưu trữ dung lượng lớn và giảm tải cho bộ xử lý ứng dụng khỏi các tác vụ lưu trữ dung lượng lớn, do đó giúp bộ xử lý ứng dụng có nhiều thời gian hơn cho ứng dụng người dùng, có hoặc không có trình ảo hóa. Do Server-on-a-Chip đóng vai trò là giao diện người dùng I/O cho siêu máy tính, nên lõi siêu máy tính không cần thực hiện các chức năng giao diện I/O hoặc kế thừa; tất cả những thứ này đều được chuyển xuống Server-on-a-Chip. Điều đó cho phép người dùng siêu máy tính triển khai lõi theo kiểu kim loại trần, nếu muốn. Trình tăng tốc toán học cho phép toán ma trận và tensor cũng như cho phép biến đổi sử dụng openACC và openCL làm API hướng ra bên ngoài, nhưng chúng tôi có sẵn một lớp dịch để chuyển đổi CUDA thành bộ lệnh gốc của chúng tôi.

Bạn có thể cho chúng tôi biết thêm về công nghệ đằng sau cải tiến mở rộng quy mô của bạn không?
Chúng tôi tin rằng giao tiếp là chìa khóa trong việc mở rộng quy mô và quan trọng hơn là giao tiếp băng thông cao và độ trễ thấp. Do đó, chúng tôi đã xem xét mọi thứ chúng tôi đã xây dựng cho các lớp phân cấp giao tiếp không cần thiết thông qua các cầu nối, bộ điều hợp giao diện và bộ chuyển đổi giao diện. Chúng tôi đã loại bỏ tất cả chúng khi cần thiết và có thể. Do đó, giao tiếp giữa hai hoặc nhiều phần tử bất kỳ trong kiến trúc của chúng tôi cung cấp băng thông cao nhất có thể do các hạn chế về số lượng va chạm và bóng, cũng như nhu cầu đi qua Bảng mạch in (PCB), cần có Liên kết nối tiếp tốc độ cao loại CML . Tuy nhiên, chúng tôi sử dụng FLITS ngắn nhất có thể và mã hóa tương xứng, cả hai đều cho phép giao tiếp quang và điện. Giao diện mà chúng tôi đã thiết kế có sẵn để áp dụng rộng rãi hơn cho bất kỳ ai quan tâm đến việc sử dụng giao diện đó với một khoản phí cấp phép danh nghĩa. Nó đủ rộng để cung cấp băng thông hàng đầu trong khi cho phép các tính năng phát hiện lỗi và khả năng phục hồi cho tính khả dụng của hệ thống trong khu vực sáu số chín. Nó cũng là một giao diện thông minh ở chỗ nó có thể nhận ra cấu trúc liên kết của mạng lên đến ba cấp độ sâu một cách tự động và nó được thiết kế để hoạt động trên chiplet của chính nó trong trường hợp chúng tôi tìm thấy một đối tác muốn nhưng không thể thiết kế nó thành của riêng họ thiết kế.

Khi nào chip Abacus Semi sẽ có sẵn?
Chúng tôi đang làm việc với khách hàng và đối tác để đảm bảo sản xuất băng nguyên mẫu vào quý 3 năm 2025 và sản xuất hàng loạt cho FCS vào quý 1 năm 2026.