Logo Zephyrnet

Điều gì xảy ra khi hiệu suất AI tiệm cận? bởi @ttunguz

Ngày:

Trước đây, mô hình AI càng lớn thì hiệu suất càng tốt. Ví dụ: trên các mô hình của OpenAI, các thông số đã tăng hơn 1000 lần và hiệu suất đã tăng gần gấp ba.

Mô hình OpenAI Phát hành ngày Thông số, B MMLU
GPT2 2/14/19 1.5 0.324
GPT3 6/11/20 175 0.539
GPT3.5 3/15/22 175 0.7
GPT4 3/14/23 1760 0.864

Nhưng hiệu suất của mô hình sẽ sớm tiệm cận – ít nhất là trên thước đo này.

hình ảnh

Đây là một biểu đồ về hiệu suất của nhiều mô hình AI gần đây theo một tiêu chuẩn được chấp nhận rộng rãi gọi là MMLU. 1 MMLU đo lường hiệu suất của mô hình AI so với học sinh trung học.

Tôi đã phân loại các mô hình theo cách này:

  • Lớn: > 100 tỷ tham số
  • Trung bình: tham số 15 đến 100b
  • Nhỏ : < 15b tham số

Theo thời gian, hiệu suất sẽ hội tụ nhanh chóng ở cả các kích cỡ mô hình và các nhà cung cấp mô hình.

Điều gì xảy ra khi mô hình nguồn mở của Facebook và mô hình nguồn đóng của Google hỗ trợ các mô hình của Google.com & của OpenAI hỗ trợ ChatGPT đều hoạt động tốt như nhau?

Các nhà khoa học máy tính đã gặp khó khăn trong việc phân biệt hiệu suất tương đối của các mô hình này bằng nhiều thử nghiệm khác nhau. Người dùng sẽ khó có thể làm tốt hơn.

Tại thời điểm đó, giá trị trong lớp mô hình sẽ bị thu gọn. Nếu một mô hình nguồn mở có sẵn miễn phí cũng tốt như mô hình trả phí, tại sao không sử dụng mô hình miễn phí? Và nếu một mô hình nguồn mở nhỏ hơn, ít tốn kém hơn cũng tốt như vậy thì tại sao không sử dụng mô hình đó?

Sự phát triển nhanh chóng của AI đã thúc đẩy sự quan tâm ngày càng tăng đối với chính các mô hình. Nhưng khá nhanh chóng, lớp cơ sở hạ tầng sẽ trở thành hàng hóa, giống như đã xảy ra trong đám mây nơi ba nhà cung cấp chiếm 65% thị phần: Amazon Web Services, Azure và Google Cloud Platform.

Các ứng dụng và công cụ dành cho nhà phát triển xung quanh các công ty môi giới hàng hóa AI khổng lồ là giai đoạn phát triển tiếp theo - nơi sự khác biệt hóa và phân phối sản phẩm thay vì những tiến bộ kỹ thuật thô sơ, rực rỡ.2


1 MMLU đo lường 57 nhiệm vụ khác nhau bao gồm toán, lịch sử, khoa học máy tính và các chủ đề khác. Đó là một thước đo của nhiều người và nó không hoàn hảo – giống như bất kỳ điểm chuẩn nào. Có những hệ thống khác bao gồm cả hệ thống Elo. Đây là một tổng quan về sự khác biệt.. Mỗi điểm chuẩn đánh giá mô hình theo một phạm vi khác nhau: độ lệch,
lý luận toán học là hai ví dụ khác.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img