Logo Zephyrnet

Giải thích các thuật ngữ chính về AI sáng tạo – KDnuggets

Ngày:

Giải thích các thuật ngữ chính về AI sáng tạo
Hình ảnh của Tác giả
 

Trong vài năm qua, và đặc biệt là kể từ khi ChatGPT xuất hiện chỉ hơn 12 tháng trước, các mô hình AI tổng quát để tạo văn bản, hình ảnh, video và âm thanh tổng hợp thực tế đã xuất hiện và phát triển nhanh chóng kể từ đó. Những gì bắt đầu là nghiên cứu khiêm tốn đã nhanh chóng phát triển thành các hệ thống có khả năng tạo ra kết quả đầu ra chất lượng cao, giống con người trên nhiều phương tiện khác nhau được đề cập ở trên. Được thúc đẩy đặc biệt bởi những đổi mới quan trọng trong mạng lưới thần kinh và sự gia tăng mạnh mẽ về sức mạnh tính toán, ngày càng có nhiều công ty cung cấp quyền truy cập miễn phí và/hoặc trả phí vào các mô hình này để tăng khả năng với tốc độ đáng kể.

Tuy nhiên, AI sáng tạo không chỉ có cầu vồng và chó con. Mặc dù hứa hẹn sẽ tăng cường khả năng sáng tạo của con người trong nhiều ứng dụng khác nhau, nhưng vẫn còn những lo ngại về cách đánh giá, kiểm tra và triển khai một cách có trách nhiệm các hệ thống tạo sinh này. Có sự lo lắng đặc biệt liên quan đến việc truyền bá thông tin sai lệch, cùng với những lo ngại về sự thiên vị, tính trung thực và các tác động xã hội do công nghệ này mang lại.

Tuy nhiên, điều đầu tiên cần làm với bất kỳ công nghệ mới nào là cố gắng hiểu nó trước khi chúng ta khai thác hoặc chỉ trích nó. Bắt đầu làm như vậy là những gì chúng tôi đã lên kế hoạch cho bài viết này. Chúng tôi dự định đưa ra một số thuật ngữ AI tổng quát quan trọng và cố gắng hết sức để làm cho chúng dễ hiểu ở mức độ trực quan cho người mới bắt đầu, nhằm cung cấp nền tảng cơ bản và mở đường cho việc học chuyên sâu hơn về phía trước. Theo hướng đó, đối với mỗi thuật ngữ chính bên dưới, bạn sẽ tìm thấy các liên kết đến tài liệu liên quan để bắt đầu điều tra thêm theo ý muốn.

Bây giờ, hãy bắt đâù.

Xử lý ngôn ngữ tự nhiên

 
Xử lý ngôn ngữ tự nhiên (NLP) là một trường con AI tập trung vào việc cho phép máy móc hiểu, diễn giải và tạo ra ngôn ngữ của con người bằng cách cung cấp cho các máy này các công cụ cần thiết theo chương trình. NLP thu hẹp khoảng cách giữa giao tiếp của con người và sự hiểu biết của máy tính. NLP lần đầu tiên được sử dụng các phương pháp dựa trên quy tắc, tiếp theo là các phương pháp học máy “truyền thống”, trong khi hầu hết NLP tiên tiến ngày nay đều dựa trên nhiều kỹ thuật mạng thần kinh.

Mạng lưới thần kinh

 
Mạng lưới thần kinh là các mô hình tính toán học máy lấy cảm hứng từ (Không bản sao của) bộ não con người, được sử dụng để học từ dữ liệu. Mạng lưới thần kinh bao gồm các lớp (nhiều lớp = học sâu) xử lý các nơ-ron nhân tạo và truyền các mẩu dữ liệu nhỏ riêng lẻ, điều chỉnh dữ liệu này để hoạt động và cập nhật lặp đi lặp lại các trọng số liên quan đến các nơ-ron xử lý nhằm cố gắng “phù hợp hơn” với dữ liệu đến chức năng. Mạng lưới thần kinh rất cần thiết cho khả năng học tập và ra quyết định của AI ngày nay. Nếu không có cuộc cách mạng học sâu bắt đầu cách đây hơn một thập kỷ, phần lớn những gì chúng ta gọi là AI sẽ không thể thực hiện được.

Trí tuệ nhân tạo

 
Trí tuệ nhân tạo là một loại trí tuệ nhân tạo, được hỗ trợ bởi mạng lưới thần kinh, tập trung vào việc tạo ra nội dung mới. Nội dung này có thể có nhiều dạng, từ văn bản, hình ảnh, âm thanh và hơn thế nữa. Điều này khác với các loại AI “truyền thống” tập trung vào phân loại hoặc phân tích dữ liệu hiện có, thể hiện khả năng “tưởng tượng” và tạo ra nội dung mới dựa trên dữ liệu đào tạo.

Tạo nội dung

 
Tạo nội dung là quá trình thực tế trong đó các mô hình tổng hợp được đào tạo tạo ra văn bản, hình ảnh, video và âm thanh tổng hợp, thực hiện với các mẫu đã học từ dữ liệu đào tạo của chúng, tạo ra đầu ra phù hợp theo ngữ cảnh để đáp ứng đầu vào hoặc lời nhắc của người dùng. Những lời nhắc này cũng có thể ở bất kỳ dạng nào được đề cập ở trên. Ví dụ: văn bản có thể được sử dụng làm lời nhắc tạo thêm văn bản hoặc tạo hình ảnh dựa trên mô tả văn bản hoặc thay vào đó là một đoạn âm thanh hoặc video. Tương tự, một hình ảnh có thể được sử dụng làm lời nhắc để tạo một hình ảnh, văn bản hoặc video khác, v.v. Cũng có thể sử dụng lời nhắc đa phương thức, trong đó, chẳng hạn, văn bản và hình ảnh có thể được sử dụng để tạo âm thanh.

Mô hình ngôn ngữ lớn

 
Mô hình ngôn ngữ lớn (LLM) là các mô hình học máy chuyên dụng được thiết kế để xử lý và “hiểu” ngôn ngữ của con người. LLM được đào tạo về số lượng lớn dữ liệu văn bản, cho phép họ phân tích và tái tạo các cấu trúc, sắc thái và bối cảnh ngôn ngữ phức tạp. Bất kể mô hình và kỹ thuật LLM chính xác nào đang được sử dụng, toàn bộ bản chất của các mô hình này là tìm hiểu và dự đoán từ tiếp theo hoặc mã thông báo (nhóm chữ cái) theo sau hiện tại, v.v. LLM về cơ bản là những “công cụ đoán từ tiếp theo” cực kỳ phức tạp và việc cải thiện khả năng đoán từ tiếp theo là một chủ đề nghiên cứu rất nóng vào thời điểm hiện tại, như bạn có thể đã nghe.

Mô hình nền tảng

 
Các mô hình nền tảng là những hệ thống AI được thiết kế với các khả năng rộng rãi, sau đó có thể được điều chỉnh cho nhiều nhiệm vụ cụ thể. Các mô hình cơ bản cung cấp cơ sở để xây dựng các ứng dụng chuyên biệt hơn, chẳng hạn như điều chỉnh mô hình ngôn ngữ chung cho chatbot, trợ lý cụ thể hoặc các chức năng tổng hợp bổ sung. Tuy nhiên, các mô hình cơ bản không chỉ giới hạn ở các mô hình ngôn ngữ mà còn tồn tại cho các tác vụ tạo như hình ảnh và video. Ví dụ về các mô hình nền tảng nổi tiếng và đáng tin cậy bao gồm GPT, BERT và Khuếch tán ổn định.

Thông số

 
Trong bối cảnh này, các tham số là các giá trị số xác định cấu trúc, hành vi vận hành và khả năng học hỏi và dự đoán của mô hình. Ví dụ: hàng tỷ tham số trong GPT-4 của OpenAI ảnh hưởng đến khả năng dự đoán từ và tạo hội thoại của nó. Về mặt kỹ thuật hơn, các kết nối giữa mỗi nơ-ron trong mạng nơ-ron mang các trọng số (đã đề cập ở trên), với mỗi trọng số này là một tham số mô hình duy nhất. Càng nhiều nơ-ron → càng nhiều trọng số → càng nhiều tham số → càng có nhiều khả năng cho một mạng (được đào tạo tốt) học hỏi và dự đoán.

Từ nhúng

 
Từ nhúng là một kỹ thuật trong đó các từ hoặc cụm từ được chuyển đổi thành các vectơ số có số chiều xác định trước, nhằm cố gắng nắm bắt ý nghĩa và mối quan hệ ngữ cảnh của chúng trong một không gian đa chiều có kích thước nhỏ hơn nhiều so với những gì cần thiết để mã hóa một lần mỗi chiều từ (hoặc cụm từ) trong từ vựng. Nếu bạn tạo một ma trận gồm 500,000 từ trong đó mỗi hàng được tạo cho một từ duy nhất và mỗi cột trong hàng đó được đặt thành “0” ngoại trừ một cột đại diện cho từ được đề cập, ma trận sẽ là 500,000 x 500,000 hàng x cột và cực kỳ thưa thớt. Đây sẽ là một thảm họa cho cả lưu trữ và hiệu suất. Bằng cách đặt các cột thành các giá trị phân số khác nhau trong khoảng từ 0 đến 1 và giảm số lượng cột xuống, chẳng hạn như 300 (kích thước), chúng tôi có cấu trúc lưu trữ tập trung hơn nhiều và vốn dĩ đã tăng hiệu suất hoạt động. Là một tác dụng phụ, bằng cách cho các giá trị nhúng thứ nguyên này được học bởi mạng thần kinh, các thuật ngữ giống nhau sẽ “gần” hơn về giá trị thứ nguyên so với các thuật ngữ không giống nhau, cung cấp cho chúng ta cái nhìn sâu sắc về ý nghĩa của từ tương đối.

Mô hình máy biến áp

 
Model máy biến áp là các kiến ​​trúc AI xử lý đồng thời toàn bộ câu, điều này rất quan trọng để nắm bắt ngữ cảnh ngôn ngữ và các mối liên hệ lâu dài. Chúng xuất sắc trong việc phát hiện mối quan hệ giữa các từ và cụm từ, ngay cả khi chúng ở xa nhau trong câu. Ví dụ: khi “cô ấy” được thiết lập sớm trong một đoạn văn bản dưới dạng danh từ và/hoặc đại từ đề cập đến một cá nhân cụ thể, người chuyển đổi có thể “ghi nhớ” mối quan hệ này.

Mã hóa vị trí

 
Mã hóa vị trí đề cập đến một phương pháp trong các mô hình máy biến áp giúp duy trì thứ tự tuần tự của các từ. Đây là một thành phần quan trọng để hiểu ngữ cảnh trong một câu và giữa các câu.

Học tăng cường từ phản hồi của con người

 
Học tăng cường từ phản hồi của con người (RLHF) đề cập đến một phương pháp đào tạo LLM. Giống như học tăng cường truyền thống (RL), RLHF đào tạo và sử dụng mô hình khen thưởng, mặc dù mô hình này xuất phát trực tiếp từ phản hồi của con người. Sau đó, mô hình phần thưởng được sử dụng làm chức năng khen thưởng trong quá trình đào tạo LLM bằng cách sử dụng thuật toán tối ưu hóa. Mô hình này rõ ràng luôn cập nhật thông tin cho con người trong quá trình đào tạo mô hình, với hy vọng rằng phản hồi của con người có thể cung cấp phản hồi cần thiết và có lẽ không thể đạt được cần thiết cho LLM được tối ưu hóa.

Hành vi nổi bật

 
Hành vi mới nổi đề cập đến những kỹ năng bất ngờ được thể hiện bằng các mô hình ngôn ngữ lớn và phức tạp, những kỹ năng không thể hiện được trong các mô hình đơn giản hơn. Những kỹ năng bất ngờ này có thể bao gồm các khả năng như viết mã, sáng tác âm nhạc và viết tiểu thuyết. Những kỹ năng này không được lập trình rõ ràng trong các mô hình mà xuất hiện từ các kiến ​​trúc phức tạp của chúng. Tuy nhiên, câu hỏi về những khả năng mới nổi có thể vượt xa những kỹ năng phổ biến hơn này; ví dụ là lý thuyết tâm lý một hành vi mới nổi?

Ảo giác

 
Ảo giác là thuật ngữ được đưa ra khi LLM tạo ra các phản hồi không chính xác hoặc phi logic về mặt thực tế do những hạn chế về dữ liệu và kiến ​​trúc. Bất chấp những khả năng nâng cao mà mô hình sở hữu, những lỗi này vẫn có thể xảy ra cả khi gặp phải các truy vấn không có căn cứ về dữ liệu huấn luyện của mô hình và khi dữ liệu huấn luyện của mô hình bao gồm thông tin không chính xác hoặc không thực tế.

Nhân hóa

 
Thuyết nhân chủng học là xu hướng gán những phẩm chất giống con người cho các hệ thống AI. Điều quan trọng cần lưu ý là, mặc dù chúng có khả năng bắt chước cảm xúc hoặc lời nói của con người và bản năng của chúng ta khi nghĩ về các mô hình hoặc là “anh ấy” hoặc “cô ấy” (hoặc bất kỳ đại từ nào khác) trái ngược với “nó”, các hệ thống AI không có cảm xúc hay ý thức.

Bias

 
Xu hướng là một thuật ngữ phổ biến trong nghiên cứu AI và có thể đề cập đến một số thứ khác nhau. Trong ngữ cảnh của chúng tôi, sai lệch đề cập đến các lỗi trong kết quả đầu ra của AI do dữ liệu đào tạo bị sai lệch, dẫn đến các dự đoán không chính xác, gây khó chịu hoặc gây hiểu lầm. Xu hướng phát sinh khi các thuật toán ưu tiên các đặc điểm dữ liệu không liên quan hơn các mẫu có ý nghĩa hoặc hoàn toàn thiếu các mẫu có ý nghĩa.

 
 

Matthew Mayo (@ mattmayo13) có bằng Thạc sĩ về khoa học máy tính và bằng tốt nghiệp về khai thác dữ liệu. Với tư cách là Tổng biên tập của KDnuggets, Matthew đặt mục tiêu làm cho các khái niệm khoa học dữ liệu phức tạp có thể tiếp cận được. Mối quan tâm nghề nghiệp của anh bao gồm xử lý ngôn ngữ tự nhiên, thuật toán học máy và khám phá AI mới nổi. Anh ấy được thúc đẩy bởi sứ mệnh dân chủ hóa kiến ​​thức trong cộng đồng khoa học dữ liệu. Matthew đã viết mã từ năm 6 tuổi.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img