Logo Zephyrnet

Mũ đọc suy nghĩ này có thể dịch suy nghĩ thành văn bản nhờ AI

Ngày:

Đội chiếc mũ có gắn điện cực có tua tủa dây điện, một chàng trai trẻ thầm đọc một câu trong đầu. Một lúc sau, một giọng nói giống Siri vang lên, cố gắng chuyển suy nghĩ của mình thành văn bản, “Vâng, làm ơn cho tôi một bát súp gà.” Đây là ví dụ mới nhất về máy tính dịch suy nghĩ của con người thành từ và câu.

Trước đây, các nhà nghiên cứu đã sử dụng các thiết bị cấy ghép được phẫu thuật đặt trong não hoặc các máy móc cồng kềnh, đắt tiền để chuyển hoạt động của não thành văn bản. Các cách tiếp cận mới, được trình bày tại hội nghị NeurIPS tuần này bởi các nhà nghiên cứu từ Đại học Công nghệ Sydney, rất ấn tượng vì việc sử dụng nắp EEG không xâm lấn và khả năng khái quát hóa ra ngoài một hoặc hai người.

Nhóm đã xây dựng một mô hình AI có tên DeWave được đào tạo về hoạt động của não và ngôn ngữ, đồng thời liên kết nó với một mô hình ngôn ngữ lớn—công nghệ đằng sau ChatGPT—để giúp chuyển đổi hoạt động của não thành lời nói. trong một bản in trước được đăng trên arXiv, mô hình này đã đánh bại các điểm cao nhất trước đó về dịch thuật chuyển văn bản suy nghĩ thành văn bản bằng EEG với độ chính xác khoảng 40%. Chin-Teng Lin, tác giả tương ứng của bài báo, nói với MSN gần đây họ đã tăng độ chính xác lên 60%. Kết quả vẫn đang được bình duyệt.

Mặc dù còn một chặng đường dài để đạt được độ tin cậy, nhưng nó cho thấy sự tiến bộ trong các phương pháp đọc và dịch suy nghĩ sang ngôn ngữ không xâm lấn. Nhóm nghiên cứu tin rằng công việc của họ có thể mang lại tiếng nói cho những người không còn có thể giao tiếp do chấn thương hoặc bệnh tật hoặc được sử dụng để điều khiển máy móc, như robot biết đi hoặc cánh tay robot, chỉ bằng suy nghĩ.

Đoán xem tôi đang nghĩ gì

Bạn có thể nhớ những tiêu đề về máy “đọc suy nghĩ” dịch suy nghĩ thành văn bản với tốc độ cao. Đó là bởi vì những nỗ lực như vậy hầu như không mới.

Đầu năm nay, các nhà nghiên cứu của Stanford công việc được mô tả với một bệnh nhân, Pat Bennett, người đã mất khả năng nói do ALS. Sau khi cấy bốn cảm biến vào hai phần não và được đào tạo chuyên sâu, Bennett có thể giao tiếp bằng cách điều khiển suy nghĩ của mình. chuyển đổi thành văn bản với tốc độ 62 từ mỗi phút—một sự cải thiện so với kỷ lục năm 2021 của cùng nhóm là 18 từ mỗi phút.

Đó là một kết quả đáng kinh ngạc, nhưng cấy ghép não có thể có nhiều rủi ro. Các nhà khoa học rất muốn có được kết quả tương tự mà không cần phẫu thuật.

In một nghiên cứu khác trong năm nay, các nhà nghiên cứu tại Đại học Texas ở Austin đã chuyển sang sử dụng công nghệ quét não có tên fMRI. Trong nghiên cứu, bệnh nhân phải nằm yên trong một chiếc máy ghi lại lưu lượng máu trong não khi họ nghe kể chuyện. Sau khi sử dụng dữ liệu này để huấn luyện một thuật toán—một phần dựa trên tổ tiên ChatGPT, GPT-1—nhóm đã sử dụng hệ thống này để đoán những gì người tham gia đang nghe thấy dựa trên hoạt động não của họ.

Độ chính xác của hệ thống không hoàn hảo, nó đòi hỏi khả năng tùy biến cao cho từng người tham gia và máy fMRI rất cồng kềnh và đắt tiền. Tuy nhiên, nghiên cứu này đóng vai trò là bằng chứng cho thấy suy nghĩ có thể được giải mã một cách không xâm lấn và công nghệ AI mới nhất có thể giúp biến điều đó thành hiện thực.

Mũ phân loại

In Harry Potter, học sinh được sắp xếp vào các ngôi trường bằng chiếc mũ thần kỳ có thể đọc được suy nghĩ. Chúng tôi dùng đến những chiếc mũ bơi trông buồn cười bị thủng bởi dây và điện cực. Được gọi là mũ điện não đồ (EEG), những thiết bị này đọc và ghi lại hoạt động điện trong não của chúng ta. Ngược lại với cấy ghép não, chúng không cần phẫu thuật nhưng kém chính xác hơn đáng kể. Khi đó, thách thức là tách tín hiệu khỏi nhiễu để có được kết quả hữu ích.

Trong nghiên cứu mới, nhóm nghiên cứu đã sử dụng hai bộ dữ liệu chứa bản ghi theo dõi mắt và bản ghi điện não đồ của 12 và 18 người tương ứng khi họ đọc văn bản. Dữ liệu theo dõi mắt đã giúp hệ thống phân tích hoạt động của não theo từng từ. Nghĩa là, khi mắt một người chuyển từ từ này sang từ khác, điều đó có nghĩa là phải có một khoảng nghỉ giữa hoạt động não liên quan đến từ đó và hoạt động lẽ ra phải tương quan với từ tiếp theo.

Sau đó, họ huấn luyện DeWave về dữ liệu này và theo thời gian, thuật toán đã học cách liên kết các mẫu sóng não cụ thể với các từ. Cuối cùng, với sự trợ giúp của mô hình ngôn ngữ lớn được đào tạo trước có tên là BART—được tinh chỉnh để hiểu đầu ra duy nhất của mô hình—các mối liên hệ giữa sóng não với từ của thuật toán đã được dịch trở lại thành câu.

Trong các thử nghiệm, DeWave vượt trội hơn các thuật toán hàng đầu trong danh mục ở cả việc dịch sóng não thô và sóng não được cắt lát theo từng từ. Cái sau chính xác hơn, nhưng vẫn tụt hậu so với khả năng dịch giữa các ngôn ngữ—như tiếng Anh và tiếng Pháp—và nhận dạng giọng nói. Họ cũng nhận thấy thuật toán được thực hiện tương tự giữa những người tham gia. Các thử nghiệm trước đây có xu hướng báo cáo kết quả cho một người hoặc yêu cầu tùy chỉnh cao độ.

Nhóm nghiên cứu cho biết nghiên cứu này cung cấp nhiều bằng chứng hơn cho thấy các mô hình ngôn ngữ lớn có thể giúp cải thiện hệ thống chuyển não thành văn bản. Mặc dù họ đã sử dụng một thuật toán tương đối cổ xưa trong nghiên cứu chính thức, nhưng trong tài liệu bổ sung, họ bao gồm các kết quả từ các mô hình lớn hơn, bao gồm cả thuật toán Llama ban đầu của Meta. Điều thú vị là các thuật toán lớn hơn không cải thiện kết quả nhiều.

Các tác giả viết: “Điều này nhấn mạnh sự phức tạp của vấn đề và những thách thức trong việc kết nối các hoạt động của não với LLM,” đồng thời kêu gọi nghiên cứu sâu hơn trong tương lai. Tuy nhiên, nhóm nghiên cứu hy vọng họ có thể đẩy hệ thống của mình đi xa hơn, có thể đạt độ chính xác lên tới 90%.

Công việc cho thấy sự tiến bộ trong lĩnh vực này.

Craig Jin của Đại học Sydney nói: “Mọi người đã muốn biến EEG thành văn bản từ lâu và mô hình của nhóm đang cho thấy mức độ chính xác đáng kể”. MSN. “Vài năm trước, việc chuyển đổi từ EEG sang văn bản đã hoàn tất và hoàn toàn vô nghĩa.”

Ảnh: Đại học Công nghệ Sydney

tại chỗ_img

Tin tức mới nhất

tại chỗ_img