Logo Zephyrnet

Tại sao Copilot hiện tại chỉ chạy cục bộ trên PC AI

Ngày:

Bình luận Định nghĩa của Microsoft về những gì tạo nên và không tạo nên một PC AI đang hình thành. Với phiên bản Windows mới nhất, khóa Copilot chuyên dụng và NPU có khả năng thực hiện ít nhất 40 nghìn tỷ thao tác mỗi giây, bạn sẽ sớm có thể chạy Microsoft Copilot cục bộ trên máy của mình.

Redmond yêu cầu cho mô hình AI trên Windows đã được chính thức công bố bởi Intel - một trong những người cổ vũ mạnh mẽ nhất cho danh mục AI PC - trong thời gian diễn ra cuộc họp của gã khổng lồ chip. Hội nghị thượng đỉnh về AI ở Đài Bắc tuần này.

Chạy mô hình ngôn ngữ lớn (LLM) cục bộ có một số lợi ích nội tại. Về mặt lý thuyết, người dùng cuối sẽ có độ trễ thấp hơn và do đó thời gian phản hồi được cải thiện vì các truy vấn không cần phải được gửi đến và đi từ trung tâm dữ liệu từ xa, cộng với nhiều quyền riêng tư hơn. Trong khi đó, đối với Microsoft, việc chuyển nhiều khối lượng công việc AI hơn sang các thiết bị của khách hàng sẽ giải phóng tài nguyên của chính họ cho các tác vụ khác, chẳng hạn như giúp đào tạo mô hình OpenAI tiếp theo hoặc cung cấp mô hình đó dưới dạng API đám mây.

Microsoft hy vọng cuối cùng sẽ chạy Copilot LLM hoàn toàn trên NPU hoặc bộ xử lý thần kinh trong PC chạy Windows AI của mọi người. bình luận rõ ràng được thực hiện bởi các nhà điều hành Intel tại hội nghị thượng đỉnh. Chúng ta có thể tưởng tượng con goliath x86 đẩy dòng đó để thuyết phục mọi người rằng silicon của nó đủ mạnh để chạy những thứ của Redmond ở nhà hoặc ở văn phòng.

Mặc dù ý tưởng tách Copilot khỏi rốn của Azure có thể hấp dẫn đối với một số người, nhưng dường như không phải ai cũng là người hâm mộ Clippy hóa thân và ít nhất một số lượng xử lý gần như chắc chắn sẽ được thực hiện trên đám mây trong tương lai gần.

Các giám đốc điều hành của Intel đã nói nhiều như vậy: Phần cứng nhanh hơn sẽ cho phép nhiều “thành phần” hơn của Copilot chạy cục bộ. Nói cách khác, bạn vẫn sẽ phải phụ thuộc vào kết nối mạng để thực hiện ít nhất một số chức năng và phần còn lại PC AI sẽ tự xử lý.

Lý do không có gì đáng ngạc nhiên. Những PC AI này có tài nguyên hữu hạn và mô hình cung cấp năng lượng cho Copilot - GPT-4 của OpenAI - là rất lớn. Chúng tôi không biết chính xác phiên bản Microsoft đang sử dụng lớn đến mức nào, nhưng dự toán đặt mô hình GPT-4 đầy đủ ở khoảng 1.7 nghìn tỷ thông số. Ngay cả khi lượng tử hóa hoặc chạy mô hình ở INT4, bạn vẫn cần khoảng 900GB bộ nhớ.

Chúng tôi nghĩ nó sẽ hoạt động như thế nào

GPT-4 được gọi là mô hình hỗn hợp các chuyên gia. Tóm lại, điều này có nghĩa là nó thực sự được tập hợp từ một số mô hình nhỏ hơn, được đào tạo trước chuyên biệt để định tuyến các truy vấn. Bằng cách tối ưu hóa nhiều mô hình để tạo văn bản, tóm tắt, tạo mã, v.v., hiệu suất suy luận có thể được cải thiện do toàn bộ mô hình không cần phải chạy để hoàn thành một tác vụ.

Việc Intel sử dụng thuật ngữ “các yếu tố” để mô tả việc chạy các tính năng Copilot cục bộ gợi ý rằng một số chuyên gia này có thể được thay thế bằng các mẫu máy nhỏ hơn, nhanh nhẹn hơn có khả năng chạy trên phần cứng máy tính xách tay. Như chúng ta đã khám phá trước đây, phần cứng cá nhân hiện tại có nhiều khả năng chạy các mô hình AI nhỏ hơn như Mistral hoặc Meta.

Thật trùng hợp, Microsoft gần đây Bơm 15 triệu euro (16.3 triệu USD) vào nhà xây dựng mô hình mini Mistral AI của Pháp, với kế hoạch cung cấp sản phẩm của mình cho khách hàng Azure. Với kích thước chỉ 7 tỷ thông số, Mistral-7B chắc chắn đủ nhỏ để vừa vặn thoải mái với bộ nhớ của PC AI, yêu cầu bộ nhớ gần 4GB khi sử dụng lượng tử hóa 4 bit.

Và đó là cho một mô hình có mục đích chung. Có thể hình dung, bạn có thể sử dụng các mô hình thậm chí còn nhỏ hơn được điều chỉnh để tạo mã nguồn chỉ được tải vào bộ nhớ khi ứng dụng, chẳng hạn như Visual Studio Code, được khởi chạy và phát hiện đăng ký Github Copilot đang hoạt động. Hãy nhớ rằng, Copilot không chỉ là một chatbot; đó là một bộ tính năng AI đang được đưa vào thư viện phần mềm và hệ điều hành của Microsoft.

Redmond chưa cho biết thông số kỹ thuật AI PC của họ yêu cầu bao nhiêu bộ nhớ, nhưng theo kinh nghiệm của chúng tôi với LLM địa phương, 16GB DDR5 tốc độ cao là đủ.

Dù Microsoft chọn con đường nào, sự kết hợp giữa mô hình cục bộ và từ xa có thể dẫn đến một số hành vi thú vị. Chúng tôi vẫn chưa biết trong hoàn cảnh nào các mô hình địa phương này sẽ tiếp quản, nhưng tập đoàn Microsoft về Thiết bị Windows Pavan Davuluri đã gợi ý rằng sự kết hợp có thể rất năng động.

“Chúng tôi muốn có thể tải sự thay đổi giữa đám mây và máy khách để cung cấp khả năng tính toán tốt nhất trên cả hai thế giới đó,” anh nói trên sân khấu trong Triển lãm AI tiến bộ của AMD. sự kiện vào tháng Mười Hai. “Nó tập hợp các lợi ích của điện toán cục bộ, những thứ như quyền riêng tư, khả năng phản hồi và độ trễ nâng cao nhờ sức mạnh của đám mây, mô hình hiệu suất cao, tập dữ liệu lớn, suy luận đa nền tảng.”

Như vậy, chúng ta có thể thấy một số tình huống về cách Microsoft có thể sử dụng AI cục bộ. Đầu tiên là giảm tải công việc từ máy chủ của Microsoft và cải thiện thời gian phản hồi. Khi phần cứng được cải thiện, nhiều tính năng Copilot hơn có thể được đưa ra khỏi đám mây và đưa vào thiết bị người dùng.

Thứ hai là sử dụng nó như một phương án dự phòng trong trường hợp mạng bị gián đoạn. Bạn có thể tưởng tượng chiếc PC AI của mình sẽ trở nên ngu ngốc hơn thay vì dừng hoàn toàn khi bị cắt khỏi mạng.

Hạn chế về phần cứng

Trước khi bạn quá hào hứng với việc các PC AI có bộ não phân chia soạn thảo các bản kê khai ngoài lưới, hiện tại không có máy nào đáp ứng được các yêu cầu về phần cứng và không phải vì thiếu khóa Copilot.

Vấn đề là NPU vẫn còn tương đối mới trong silicon x86 và những gì hiện có gần như không đủ mạnh. AMD là một trong những hãng đầu tiên bổ sung NPU vào bộ xử lý di động của mình vào đầu năm 2023 với việc ra mắt Ryzen 7040 loạt chip.

Đội hình đó đã nhận được sự thay đổi đồng hồ vào tháng 12 trong sự kiện AI tiến bộ của House of Zen. AMD cũng đưa NPU của mình lên máy tính để bàn bằng việc ra mắt APU 8000G tại CES vào tháng 1 năm nay.

Intel đã tung ra các khối tăng tốc AI chuyên dụng của mình bằng việc ra mắt hồ sao băng bộ phận vi xử lý vào cuối tháng 12. Các chip Core Ultra này có NPU lấy từ bộ xử lý thị giác Movidius (VPU) của Intel. demo chạy nhiều khối lượng công việc khác nhau trong sự kiện Đổi mới năm ngoái.

Thật không may, các con chip chỉ có khả năng thực hiện 10 đến 16 nghìn tỷ hoạt động (thường là INT4) mỗi giây, thấp hơn nhiều so với thông số 40 TOPS của Microsoft. Điều đó có nghĩa là hầu hết những chiếc được gọi là PC AI trên thị trường sẽ không đáp ứng được yêu cầu – không thể không dựa vào GPU để tạo nên sự khác biệt.

Cả Intel và AMD đều có những con chip mạnh mẽ hơn đi kèm với silicon Lunar Lake và Strix Point. Tuy nhiên, trong thời gian tới, có vẻ như Qualcomm sẽ dồn thị trường vào chân tường.

Máy tính xách tay sử dụng Snapdragon X Elite của Qualcomm bộ xử lý di động sẽ ra mắt vào khoảng giữa năm 2024 và sẽ có NPU có khả năng 45 TOPS. Kết hợp với GPU Adreno có khả năng đạt hiệu suất 4.6 teraFLOPS FP32, Qualcomm cho biết bộ phận này sẽ có thể chạy các mô hình AI lên tới 13 tỷ tham số hoàn toàn trên thiết bị và tạo ra 30 mã thông báo mỗi giây khi chạy LLM 7 tỷ tham số nhỏ hơn.

Khi các PC có NPU hiệu suất cao hơn và kho lưu trữ bộ nhớ lớn hơn xuất hiện cũng như các mẫu máy tính nhỏ ngày càng có nhiều khả năng hơn, chúng tôi nghi ngờ rằng Microsoft sẽ bắt đầu cung cấp thêm chức năng cho các thiết bị cục bộ – một khi phần cứng có thể xử lý được các chức năng đó. ®

tại chỗ_img

Tin tức mới nhất

tại chỗ_img