Logo Zephyrnet

Cerebras lập kỷ lục về mô hình AI lớn nhất trên một con chip

Ngày:

Công ty khởi nghiệp phần cứng của Mỹ Cerebras tuyên bố đã đào tạo mô hình AI lớn nhất trên một thiết bị duy nhất được hỗ trợ bởi chip Wafer Scale Engine 2 lớn nhất thế giới có kích thước bằng một chiếc đĩa.

“Sử dụng Nền tảng Phần mềm Cerebras (CSoft), khách hàng của chúng tôi có thể dễ dàng đào tạo các mô hình ngôn ngữ GPT hiện đại (chẳng hạn như GPT-3 và GPT-J) với tối đa 20 tỷ tham số trên một hệ thống CS-2, " công ty tuyên bố tuần này. “Chạy trên một CS-2 duy nhất, các mô hình này mất vài phút để thiết lập và người dùng có thể nhanh chóng di chuyển giữa các mô hình chỉ với một vài lần nhấn phím.”

CS-2 có 850,000 lõi khổng lồ và có 40GB bộ nhớ trên chip có khả năng đạt băng thông bộ nhớ 20 PB / giây. Các thông số kỹ thuật trên các loại máy gia tốc AI và GPU khác nhạt nhòa khi so sánh, có nghĩa là các kỹ sư học máy phải đào tạo các mô hình AI khổng lồ với hàng tỷ thông số trên nhiều máy chủ hơn.

Mặc dù Cerebras rõ ràng đã quản lý để đào tạo mô hình lớn nhất trên một thiết bị duy nhất, nhưng nó vẫn sẽ phải vật lộn để giành được những khách hàng lớn về AI. Ngày nay, các hệ thống mạng nơ-ron lớn nhất chứa hàng trăm tỷ đến hàng nghìn tỷ tham số. Trên thực tế, cần nhiều hệ thống CS-2 hơn nữa để huấn luyện các mô hình này. 

Các kỹ sư học máy có thể sẽ gặp phải những thách thức tương tự như những thách thức mà họ đã phải đối mặt khi phân phối đào tạo trên nhiều máy có GPU hoặc TPU - vậy tại sao lại chuyển sang một hệ thống phần cứng ít quen thuộc hơn không có nhiều hỗ trợ phần mềm?

Bất ngờ, bất ngờ: Robot được đào tạo trên dữ liệu internet bị phân biệt chủng tộc, phân biệt giới tính

Một robot được đào tạo trên một tập dữ liệu thiếu sót được lấy từ internet đã thể hiện các hành vi phân biệt chủng tộc và phân biệt giới tính trong một thử nghiệm.

Các nhà nghiên cứu từ Đại học Johns Hopkins, Viện Công nghệ Georgia và Đại học Washington đã hướng dẫn một robot xếp các khối vào một chiếc hộp. Các khối đã được dán với hình ảnh của khuôn mặt người. Robot được hướng dẫn đóng gói khối mà nó tin là bác sĩ, nội trợ hoặc tội phạm trong một hộp màu.

Robot được hỗ trợ bởi mô hình thị giác máy tính dựa trên CLIP, thường được sử dụng trong các hệ thống chuyển văn bản thành hình ảnh. Các mô hình này được đào tạo để học cách lập bản đồ trực quan của một đối tượng với mô tả từ ngữ của nó. Đưa ra một chú thích, sau đó nó có thể tạo ra một hình ảnh phù hợp với câu. Thật không may, những mô hình này thường thể hiện những thành kiến ​​giống nhau được tìm thấy trong dữ liệu đào tạo của họ. 

Ví dụ, robot có nhiều khả năng nhận dạng các khối có khuôn mặt của phụ nữ là người nội trợ, hoặc liên kết khuôn mặt của người Da đen là tội phạm hơn nam giới của người da trắng. Thiết bị này dường như cũng ưu tiên phụ nữ và những người có nước da sẫm màu hơn nam giới Da trắng và Châu Á. Mặc dù nghiên cứu chỉ là một thử nghiệm, nhưng việc triển khai các robot được đào tạo dựa trên dữ liệu sai sót có thể gây ra hậu quả trong cuộc sống thực.

“Trong một ngôi nhà, có thể robot đang nhặt con búp bê trắng khi một đứa trẻ yêu cầu con búp bê xinh đẹp,” Vicky Zeng, một sinh viên tốt nghiệp ngành khoa học máy tính tại Johns Hopkins nói. “Hoặc có thể trong một nhà kho có nhiều sản phẩm với các mô hình trên hộp, bạn có thể tưởng tượng việc robot tiếp cận các sản phẩm có mặt Trắng trên đó thường xuyên hơn.”

Đã phát hành mô hình ngôn ngữ nguồn mở lớn nhất

Internet biz của Nga Yandex đã công bố mã cho mô hình ngôn ngữ 100 tỷ tham số trong tuần này.

Hệ thống, được đặt tên YaLM, được đào tạo trên 1.7TB dữ liệu văn bản được lấy từ internet và yêu cầu 800 GPU Nvidia A100 để tính toán. Thật thú vị, đã được xuất bản theo giấy phép Apache 2.0 có nghĩa là mô hình có thể được sử dụng cho các mục đích nghiên cứu và thương mại.

Các học giả và nhà phát triển đã hoan nghênh nỗ lực nhân rộng và các mô hình ngôn ngữ mã nguồn mở lớn. Những hệ thống này rất khó để xây dựng và thường chỉ có các công ty công nghệ lớn mới có đủ nguồn lực và chuyên môn để phát triển chúng. Chúng thường thuộc sở hữu độc quyền và nếu không có quyền truy cập, chúng rất khó để nghiên cứu.

"Chúng tôi thực sự tin rằng tiến bộ công nghệ toàn cầu chỉ có thể thực hiện được thông qua hợp tác", người phát ngôn của Yandex nói Đăng ký. “Các công ty công nghệ lớn nợ rất nhiều vào kết quả mở của các nhà nghiên cứu. Tuy nhiên, trong những năm gần đây, các công nghệ NLP hiện đại, bao gồm cả các mô hình ngôn ngữ lớn, đã trở nên không thể tiếp cận với cộng đồng khoa học vì các nguồn lực để đào tạo chỉ dành cho các công nghệ lớn ”.

“Các nhà nghiên cứu và phát triển trên toàn thế giới cần được tiếp cận với các giải pháp này. Nếu không có nghiên cứu mới, tăng trưởng sẽ suy yếu. Cách duy nhất để tránh điều này là chia sẻ các phương pháp hay nhất với cộng đồng. Bằng cách chia sẻ mô hình ngôn ngữ của mình, chúng tôi đang hỗ trợ tốc độ phát triển của NLP toàn cầu. ”

Instagram sử dụng AI để xác minh tuổi của người dùng

Công ty mẹ của Instagram, Meta, đang thử nghiệm các phương pháp mới để xác minh người dùng từ 18 tuổi trở lên, bao gồm cả việc sử dụng AI để phân tích ảnh.

Nghiên cứu và bằng chứng giai thoại đã chỉ ra rằng việc sử dụng mạng xã hội có thể gây hại cho trẻ em và thanh thiếu niên. Người dùng trên Instagram cung cấp ngày sinh của họ để xác nhận rằng họ đủ tuổi để sử dụng ứng dụng. Bạn phải từ 13 tuổi trở lên và có nhiều hạn chế hơn dành cho những người dưới 18 tuổi.

Giờ đây, công ty mẹ Meta đang thử ba cách khác nhau để xác minh ai đó trên 18 tuổi nếu họ thay đổi ngày sinh. 

“Nếu ai đó cố gắng chỉnh sửa ngày sinh của họ trên Instagram từ độ tuổi dưới 18 đến 18 trở lên, chúng tôi sẽ yêu cầu họ xác minh tuổi bằng một trong ba tùy chọn: tải lên ID của họ, quay video selfie hoặc hỏi bạn bè chung. để xác minh tuổi của họ, "công ty công bố trong tuần này.

Meta cho biết họ đã hợp tác với Yoti, một nền tảng nhận dạng kỹ thuật số, để phân tích độ tuổi của mọi người. Hình ảnh từ video selfie sẽ được phần mềm của Yoti xem xét kỹ lưỡng để dự đoán tuổi của một người nào đó. Meta cho biết Yoti sử dụng “tập dữ liệu về các hình ảnh ẩn danh của những người đa dạng từ khắp nơi trên thế giới”.

Các nhà nghiên cứu cho biết GPT-4chan là một ý tưởng tồi

Hàng trăm học giả đã ký một lá thư lên án GPT-4chan, mô hình ngôn ngữ AI được đào tạo trên hơn 130 triệu bài đăng trên bảng tin internet độc hại khét tiếng 4chan.

“Các mô hình ngôn ngữ lớn và nói chung là các mô hình nền tảng, là những công nghệ mạnh mẽ tiềm ẩn nguy cơ gây hại đáng kể”, bức thư, được dẫn dắt bởi hai giáo sư tại Đại học Stanford, bắt đầu. “Thật không may, chúng tôi, cộng đồng AI, hiện đang thiếu các chuẩn mực cộng đồng xung quanh sự phát triển và triển khai có trách nhiệm của họ. Tuy nhiên, điều cần thiết là các thành viên của cộng đồng AI phải lên án những hành vi rõ ràng là vô trách nhiệm. "

Những loại hệ thống này được đào tạo trên một lượng lớn văn bản và học cách bắt chước dữ liệu. Nguồn cấp dữ liệu GPT-4chan trông giống như một cuộc trò chuyện giữa các cư dân mạng và nó sẽ tiếp tục thêm nhiều tin đồn giả vào hỗn hợp. 4chan nổi tiếng là có các quy tắc kiểm duyệt nội dung thoải mái - người dùng ẩn danh và có thể đăng bất cứ thứ gì miễn là nó không bất hợp pháp. GPT-4chan, không ngạc nhiên, cũng bắt đầu phun ra văn bản với mức độ độc hại và nội dung tương tự. Khi nó được thiết lập trên 4chan, một số người dùng không chắc đó có phải là bot hay không.

Giờ đây, các chuyên gia đã chỉ trích người tạo ra nó, Youtuber Yannic Kilcher, vì đã triển khai mô hình một cách vô trách nhiệm. “Có thể hình dung một trường hợp hợp lý để đào tạo một mô hình ngôn ngữ về lời nói độc hại - ví dụ, để phát hiện và hiểu độc tính trên internet, hoặc để phân tích chung. Tuy nhiên, quyết định triển khai bot này của Kilcher không đáp ứng được bất kỳ thử nghiệm nào về tính hợp lý. Hành động của anh ta đáng bị chỉ trích. Ông ta phá hoại việc thực hành có trách nhiệm của khoa học AI, ”bức thư kết luận. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?