Logo Zephyrnet

Robot này dự đoán khi nào bạn sẽ cười—Sau đó cười lại ngay khi có tín hiệu

Ngày:

Câu lạc bộ hài kịch là chuyến đi chơi cuối tuần yêu thích của tôi. Tập hợp một số bạn bè, uống vài ly và khi một câu chuyện cười đến với tất cả chúng ta—có một khoảnh khắc kỳ diệu khi ánh mắt chúng ta chạm nhau và chúng ta nở một nụ cười táo bạo.

Mỉm cười có thể biến người lạ thành người bạn thân thiết nhất. Nó thúc đẩy gặp dễ thương Những âm mưu của Hollywood, hàn gắn những mối quan hệ tan vỡ và gắn bó chặt chẽ với những cảm giác vui vẻ, ấm áp mờ nhạt.

Ít nhất là đối với con người. Đối với robot, nỗ lực tạo ra nụ cười chân thật của chúng thường rơi vào thung lũng kỳ lạ—đủ gần để giống con người, nhưng gây ra cảm giác bất an. Về mặt logic, bạn biết họ đang cố gắng làm gì. Nhưng trực giác mách bảo bạn rằng có điều gì đó không ổn.

Có thể là do thời gian. Robot được huấn luyện để bắt chước nét mặt của một nụ cười. Nhưng họ không biết khi nào nên cười toe toét. Khi con người kết nối, chúng ta thực sự mỉm cười cùng nhau mà không có bất kỳ kế hoạch có ý thức nào. Robot cần có thời gian để phân tích nét mặt của một người để tạo ra nụ cười toe toét. Đối với con người, ngay cả sự chậm trễ chỉ tính bằng mili giây cũng dựng tóc gáy—giống như một bộ phim kinh dị, có điều gì đó mang lại cảm giác sai lầm và lôi kéo.

Tuần trước, một nhóm nghiên cứu tại Đại học Columbia đã giới thiệu một thuật toán dạy robot chia sẻ nụ cười với người điều khiển chúng. AI phân tích những thay đổi nhỏ trên khuôn mặt để dự đoán biểu cảm của người vận hành khoảng 800 mili giây trước khi chúng xảy ra—thời gian vừa đủ để robot cười toe toét đáp lại.

Nhóm đã huấn luyện một khuôn mặt hình người robot mềm mại có tên Emo để dự đoán và khớp các biểu cảm của người bạn đồng hành là con người. Với khuôn mặt silicon nhuốm màu xanh lam, Emo trông giống như người ngoài hành tinh khoa học viễn tưởng thập niên 60. Nhưng nó sẵn sàng cười toe toét với đối tác con người của mình trên cùng một bước sóng “cảm xúc”.

Robot hình người thường vụng về và cứng nhắc khi giao tiếp với con người, đã viết Tiến sĩ Rachael Jack tại Đại học Glasgow, người không tham gia vào nghiên cứu. ChatGPT và các thuật toán ngôn ngữ lớn khác đã có thể khiến giọng nói của AI trở nên giống con người hơn, nhưng giao tiếp phi ngôn ngữ rất khó để tái tạo.

Cô viết: Lập trình các kỹ năng xã hội — ít nhất là biểu cảm khuôn mặt — vào robot vật lý là bước đầu tiên hướng tới việc giúp “robot xã hội tham gia vào thế giới xã hội loài người”.

Under the Hood

Từ robot tới máy chủ robot mang đồ ăn và đồ uống đến cho bạn, robot tự động đang ngày càng xâm nhập vào cuộc sống của chúng ta.

Ở London, New York, Munich và Seoul, quyền tự trị robot lướt qua các sân bay hỗn loạn để cung cấp hỗ trợ cho khách hàng—làm thủ tục chuyến bay, tìm cổng hoặc tìm lại hành lý bị thất lạc. Ở Singapore, một số robot cao 360 foot có tầm nhìn XNUMX độ dạo chơi sân bay đánh dấu các vấn đề bảo mật tiềm ẩn. Trong thời kỳ đại dịch, chó robot thực thi giãn cách xã hội.

Nhưng robot có thể làm được nhiều hơn thế. Đối với những công việc nguy hiểm—chẳng hạn như dọn dẹp đống đổ nát của những ngôi nhà hoặc cây cầu bị phá hủy—họ có thể đi tiên phong trong nỗ lực cứu hộ và tăng cường sự an toàn cho những người ứng cứu đầu tiên. Với dân số toàn cầu ngày càng già đi, họ có thể giúp các y tá hỗ trợ người già.

Current robot hình người đều đáng yêu như hoạt hình. Nhưng yếu tố chính để robot bước vào thế giới của chúng ta là sự tin tưởng. Khi các nhà khoa học chế tạo robot có khuôn mặt ngày càng giống con người, chúng ta muốn biểu cảm của chúng phù hợp với mong đợi của chúng ta. Nó không chỉ là bắt chước nét mặt. Một nụ cười được chia sẻ chân thành “vâng, tôi biết” trước một trò đùa đáng xấu hổ sẽ tạo nên sự gắn kết.

Giao tiếp phi ngôn ngữ—biểu hiện, cử chỉ tay, tư thế cơ thể—là những công cụ chúng ta sử dụng để thể hiện bản thân. Với ChatGPT và các ứng dụng khác trí tuệ nhân tạo, máy móc đã có thể “giao tiếp bằng video và bằng lời nói,” nói tác giả nghiên cứu Tiến sĩ Hod Lipson cho Khoa học.

Nhưng khi nói đến thế giới thực—nơi mà một cái liếc mắt, một cái nháy mắt và nụ cười có thể tạo nên sự khác biệt—đó là “một kênh hiện đang bị thiếu,” Lipson nói. “Mỉm cười không đúng lúc có thể phản tác dụng. [Nếu trễ vài mili giây], có thể bạn sẽ có cảm giác như đang chiều theo ý mình vậy.”

Nói phô mai

Để khiến robot thực hiện hành động phi ngôn ngữ, nhóm đã tập trung vào một khía cạnh—nụ cười chia sẻ. Các nghiên cứu trước đây đã lập trình sẵn các robot để bắt chước nụ cười. Nhưng vì chúng không tự phát nên nó gây ra độ trễ nhẹ nhưng đáng chú ý và khiến nụ cười trông giả tạo.

Lipson cho biết: “Có rất nhiều thứ diễn ra trong giao tiếp phi ngôn ngữ” rất khó định lượng. “Lý do chúng ta cần nói 'pho mát' khi chụp ảnh là vì mỉm cười theo yêu cầu thực sự khá khó khăn."

Nghiên cứu mới tập trung vào thời gian.

Nhóm đã thiết kế một thuật toán có thể dự đoán nụ cười của một người và đồng thời tạo ra nụ cười toe toét trên khuôn mặt hoạt hình giống con người. Được gọi là Emo, khuôn mặt robot có 26 bánh răng—hãy nghĩ đến cơ bắp nhân tạo—được bao bọc trong một “lớp da” silicon co giãn. Mỗi thiết bị được gắn vào “bộ xương” robot chính bằng nam châm để di chuyển lông mày, mắt, miệng và cổ. Đôi mắt của Emo có camera tích hợp để ghi lại môi trường xung quanh và kiểm soát chuyển động của nhãn cầu cũng như chuyển động chớp mắt.

Tự nó, Emo có thể theo dõi nét mặt của chính nó. Mục tiêu của nghiên cứu mới là giúp nó diễn giải cảm xúc của người khác. Nhóm đã sử dụng một thủ thuật mà bất kỳ thiếu niên hướng nội nào cũng có thể biết: Họ yêu cầu Emo nhìn vào gương để học cách điều khiển các bánh răng và tạo ra một biểu cảm khuôn mặt hoàn hảo, chẳng hạn như một nụ cười. Robot dần dần học cách kết hợp biểu cảm của nó với các lệnh vận động—chẳng hạn như “ngẩng má lên”. Sau đó, nhóm đã loại bỏ bất kỳ chương trình nào có thể khiến khuôn mặt bị kéo căng quá mức, gây tổn thương cho lớp da silicon của robot.

“Hóa ra…[việc tạo ra] một khuôn mặt robot có thể mỉm cười là một thách thức vô cùng lớn từ góc nhìn cơ học. Nó khó hơn việc chế tạo một bàn tay robot”, Lipson nói. “Chúng ta rất giỏi trong việc phát hiện những nụ cười giả dối. Vì vậy, chúng tôi rất nhạy cảm với điều đó.”

Để chống lại thung lũng kỳ lạ, nhóm đã huấn luyện Emo dự đoán chuyển động trên khuôn mặt bằng cách sử dụng video quay cảnh con người cười, ngạc nhiên, cau mày, khóc và thực hiện các biểu cảm khác. Cảm xúc rất phổ biến: Khi bạn cười, khóe miệng cong lên thành hình trăng lưỡi liềm. Khi bạn khóc, lông mày nhíu lại với nhau.

AI đã phân tích chuyển động khuôn mặt của từng khung hình theo từng khung hình. Bằng cách đo khoảng cách giữa mắt, miệng và các “điểm mốc trên khuôn mặt” khác, nó đã tìm ra các dấu hiệu nhận biết tương ứng với một cảm xúc cụ thể - ví dụ: khóe miệng nhếch lên gợi ý một nụ cười, trong khi chuyển động đi xuống có thể gợi ý một nụ cười. cau mày lại.

Sau khi được đào tạo, AI chỉ mất chưa đầy một giây để nhận ra các dấu hiệu trên khuôn mặt này. Khi cấp nguồn cho Emo, khuôn mặt robot có thể đoán trước nụ cười dựa trên tương tác của con người trong vòng một giây, để nó cười toe toét với người tham gia.

Nói rõ hơn, AI không “cảm nhận được”. Đúng hơn, nó cư xử giống như con người khi cười khúc khích trước một tình huống hài hước với nụ cười có vẻ chân thật.

Biểu cảm khuôn mặt không phải là tín hiệu duy nhất chúng ta nhận thấy khi tương tác với mọi người. Những cái lắc đầu, gật đầu, nhướng mày hay cử chỉ tay tinh tế đều tạo nên dấu ấn. Bất kể nền văn hóa nào, “ừm”, “ahhs” và “thích”—hoặc những từ tương đương của chúng—đều được tích hợp vào các tương tác hàng ngày. Hiện tại, Emo giống như một đứa bé học cách mỉm cười. Nó chưa hiểu các bối cảnh khác.

“Còn rất nhiều thứ phải đi,” nói Lipson. Chúng ta chỉ mới bắt đầu bước vào giao tiếp phi ngôn ngữ đối với AI. Nhưng “nếu bạn cho rằng việc tương tác với ChatGPT là thú vị, hãy đợi cho đến khi những thứ này trở thành hiện thực và tất cả các cược sẽ bị hủy.”

Ảnh: Yuhang Hu, Kỹ thuật Columbia qua YouTube

tại chỗ_img

Tin tức mới nhất

tại chỗ_img