Logo Zephyrnet

Theo dõi vị trí bóng trên đám mây với PGA TOUR | Dịch vụ web của Amazon

Ngày:

PGA TOUR tiếp tục nâng cao trải nghiệm chơi gôn bằng dữ liệu thời gian thực giúp người hâm mộ đến gần hơn với trận đấu. Để mang lại những trải nghiệm phong phú hơn nữa, họ đang theo đuổi việc phát triển hệ thống theo dõi vị trí bóng thế hệ tiếp theo, tự động theo dõi vị trí của bóng trên sân cỏ.

TOUR hiện sử dụng ShotLink do CDW cung cấp, một hệ thống tính điểm hàng đầu sử dụng hệ thống camera phức tạp với khả năng tính toán tại chỗ để theo dõi chặt chẽ vị trí bắt đầu và kết thúc của mỗi lần quay. TOUR muốn khám phá các kỹ thuật thị giác máy tính và học máy (ML) để phát triển quy trình dựa trên đám mây thế hệ tiếp theo nhằm xác định vị trí bóng gôn trên khu lỗ gôn.

Trung tâm đổi mới AI sáng tạo Amazon (GAIIC) đã chứng minh tính hiệu quả của các kỹ thuật này trong một tập dữ liệu mẫu từ sự kiện PGA TOUR gần đây. GAIIC đã thiết kế một đường ống mô-đun xếp tầng một loạt mạng lưới thần kinh tích chập sâu giúp định vị thành công người chơi trong tầm nhìn của camera, xác định người chơi nào đang đặt và theo dõi quả bóng khi nó di chuyển về phía cốc.

Trong bài đăng này, chúng tôi mô tả quá trình phát triển của đường ống này, dữ liệu thô, thiết kế của mạng nơ ron tích chập bao gồm đường ống và đánh giá hiệu suất của nó.

Ngày

TOUR cung cấp video liên tục trong 3 ngày về một giải đấu gần đây từ ba camera 4K được đặt xung quanh khu vực hố xanh trên một lỗ. Hình dưới đây hiển thị khung hình từ một camera được cắt và thu phóng để người chơi có thể dễ dàng nhìn thấy. Lưu ý rằng mặc dù máy ảnh có độ phân giải cao nhưng do khoảng cách từ khu vực màu xanh lá cây, quả bóng có vẻ nhỏ (thường là 3×3, 4×4 hoặc 5×5 pixel) và các mục tiêu có kích thước này có thể khó xác định chính xác.

Ngoài nguồn cấp dữ liệu máy ảnh, TOUR còn cung cấp cho GAIIC dữ liệu tính điểm có chú thích trên mỗi lần quay, bao gồm vị trí thế giới của vị trí nghỉ và dấu thời gian. Điều này cho phép hiển thị trực quan từng cú putt trên green, cũng như khả năng kéo tất cả các video clip về người chơi putt, có thể được gắn nhãn thủ công và sử dụng để huấn luyện các mô hình phát hiện tạo nên quy trình. Hình dưới đây hiển thị ba chế độ xem camera với các lớp phủ đường đẩy bóng gần đúng, ngược chiều kim đồng hồ từ trên cùng bên trái. Ghim được di chuyển mỗi ngày, trong đó ngày 1 tương ứng với màu xanh lam, ngày 2 tương ứng với màu đỏ và ngày 3 tương ứng với màu cam.

Tổng quan về đường ống

Hệ thống tổng thể bao gồm cả đường dẫn đào tạo và đường dẫn suy luận. Sơ đồ sau minh họa kiến ​​trúc của quy trình đào tạo. Điểm bắt đầu là nhập dữ liệu video, từ mô-đun phát trực tuyến như Amazon Kinesis cho video trực tiếp hoặc vị trí trực tiếp vào Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3) dành cho video lịch sử. Quy trình đào tạo yêu cầu xử lý trước video và gắn nhãn hình ảnh bằng tay với Sự thật về mặt đất của Amazon SageMaker. Mô hình có thể được đào tạo với Amazon SageMaker và các tạo phẩm của họ được lưu trữ bằng Amazon S3.

Đường dẫn suy luận, được hiển thị trong sơ đồ sau, bao gồm một số mô-đun trích xuất thông tin liên tiếp từ video thô và cuối cùng dự đoán tọa độ thế giới của quả bóng đang đứng yên. Ban đầu, màu xanh lá cây được cắt từ trường nhìn lớn hơn từ mỗi camera, để giảm diện tích pixel mà người mẫu phải tìm kiếm người chơi và quả bóng. Tiếp theo, mạng nơ ron tích chập sâu (CNN) được sử dụng để tìm vị trí của những người trong trường nhìn. Một CNN khác được sử dụng để dự đoán loại người nào đã được tìm thấy nhằm xác định xem có ai sắp đánh bóng hay không. Sau khi một cú gạt bóng có khả năng đã được định vị trong trường quan sát, mạng tương tự sẽ được sử dụng để dự đoán vị trí của quả bóng gần cú đánh bóng. CNN thứ ba theo dõi quả bóng trong quá trình chuyển động của nó và cuối cùng, áp dụng chức năng chuyển đổi từ vị trí pixel của camera sang tọa độ GPS.

Phát hiện người chơi

Mặc dù có thể chạy CNN để phát hiện bóng trên toàn bộ khung hình 4K trong một khoảng thời gian nhất định, với kích thước góc của quả bóng ở những khoảng cách camera này, bất kỳ vật thể nhỏ màu trắng nào cũng sẽ kích hoạt phát hiện, dẫn đến nhiều cảnh báo sai. Để tránh tìm kiếm quả bóng trong toàn bộ khung hình, có thể tận dụng mối tương quan giữa tư thế của người chơi và vị trí quả bóng. Quả bóng sắp được đẩy phải ở cạnh một cầu thủ, vì vậy việc tìm kiếm các cầu thủ trong tầm nhìn sẽ hạn chế rất nhiều vùng pixel mà máy dò phải tìm kiếm quả bóng.

Chúng tôi có thể sử dụng CNN đã được đào tạo trước để dự đoán các hộp giới hạn xung quanh tất cả những người trong một cảnh, như minh họa trong hình sau. Thật không may, thường có nhiều hơn một quả bóng trên green, vì vậy cần phải có logic hơn ngoài việc chỉ tìm tất cả mọi người và tìm kiếm một quả bóng. Điều này đòi hỏi một CNN khác để tìm người chơi hiện đang đặt.

Phân loại cầu thủ và phát hiện bóng

Để thu hẹp hơn nữa vị trí có thể có bóng, chúng tôi đã tinh chỉnh CNN phát hiện đối tượng được huấn luyện trước (YOLO v7) để phân loại tất cả những người trên sân cỏ. Một thành phần quan trọng của quy trình này là gắn nhãn thủ công cho một tập hợp hình ảnh bằng SageMaker Ground Truth. Các nhãn này cho phép CNN phân loại người chơi gạt bóng với độ chính xác cao. Trong quá trình dán nhãn, quả bóng cũng được phác thảo cùng với cú đẩy bóng của người chơi, vì vậy CNN này cũng có thể thực hiện phát hiện bóng, vẽ một khung giới hạn ban đầu xung quanh quả bóng trước khi thực hiện cú đẩy bóng và cung cấp thông tin vị trí vào CNN theo dõi bóng xuôi dòng. .

Chúng tôi sử dụng bốn nhãn khác nhau để chú thích các đối tượng trong ảnh:

  • đặt người chơi – Người chơi cầm gậy và ở vị trí gạt bóng
  • người chơi không đặt – Người chơi không ở vị trí gạt bóng (cũng có thể đang cầm gậy)
  • người khác – Bất kỳ người nào khác không phải là người chơi
  • bóng golf – Quả bóng gôn

Hình dưới đây cho thấy CNN đã được tinh chỉnh bằng cách sử dụng nhãn từ SageMaker Ground Truth để phân loại từng người trong trường xem. Điều này khó khăn vì có rất nhiều hình ảnh trực quan của người chơi, caddie và người hâm mộ. Sau khi một người chơi được phân loại là gạt bóng, CNN tinh chỉnh để phát hiện bóng sẽ được áp dụng cho khu vực nhỏ ngay xung quanh người chơi đó.

Theo dõi đường dẫn bóng

CNN thứ ba, một kiến ​​trúc ResNet được đào tạo trước để theo dõi chuyển động, được sử dụng để theo dõi quả bóng sau khi nó được đẩy bóng. Theo dõi chuyển động là một vấn đề được nghiên cứu kỹ lưỡng nên mạng này hoạt động tốt khi được tích hợp vào đường ống mà không cần tinh chỉnh thêm.

Đầu ra đường ống

Dòng CNN đặt các hộp giới hạn xung quanh mọi người, phân loại mọi người trên green, phát hiện vị trí bóng ban đầu và theo dõi bóng khi nó bắt đầu di chuyển. Hình dưới đây hiển thị đầu ra video được gắn nhãn của đường ống. Vị trí pixel của quả bóng khi nó di chuyển sẽ được theo dõi và ghi lại. Lưu ý rằng những người trên vùng xanh đang được theo dõi và khoanh vùng bằng các hộp giới hạn; gậy gạt bóng ở phía dưới được dán nhãn chính xác là “người chơi đẩy bóng” và quả bóng đang chuyển động đang được theo dõi và phác thảo bằng một hộp giới hạn nhỏ màu xanh lam.

HIỆU QUẢ

Để đánh giá hiệu suất của các thành phần của đường ống, cần phải có dữ liệu được dán nhãn. Mặc dù chúng tôi đã được cung cấp thông tin về vị trí thực tế trên mặt đất của quả bóng, nhưng chúng tôi không có điểm trung gian cho thông tin thực tế về mặt đất, chẳng hạn như vị trí pixel cuối cùng của quả bóng hoặc vị trí pixel của người chơi đang đẩy bóng. Với công việc ghi nhãn mà chúng tôi đã thực hiện, chúng tôi đã phát triển dữ liệu thực tế cơ bản cho các đầu ra trung gian này của quy trình cho phép chúng tôi đo lường hiệu suất.

Phân loại cầu thủ và độ chính xác phát hiện bóng

Để phát hiện thao tác đẩy bóng của người chơi và vị trí bóng ban đầu, chúng tôi đã gắn nhãn tập dữ liệu và tinh chỉnh mô hình YOLO v7 CNN như mô tả trước đó. Mô hình này đã phân loại đầu ra từ mô-đun phát hiện người trước đó thành bốn lớp: người chơi đẩy bóng, người chơi không đẩy bóng, những người khác và quả bóng gôn, như minh họa trong hình dưới đây.

Hiệu suất của mô-đun này được đánh giá bằng ma trận nhầm lẫn, được hiển thị trong hình dưới đây. Các giá trị trong các hộp chéo cho biết tần suất lớp được dự đoán khớp với lớp thực tế từ các nhãn chân lý cơ bản. Mô hình có tỷ lệ thu hồi 89% hoặc cao hơn cho từng hạng người và 79% thu hồi đối với bóng gôn (điều này được mong đợi vì mô hình đã được đào tạo trước về các ví dụ với mọi người chứ không phải về các ví dụ với bóng gôn; điều này có thể được cải thiện với nhiều quả bóng golf được dán nhãn hơn trong tập huấn luyện).

Bước tiếp theo là kích hoạt trình theo dõi bóng. Vì đầu ra phát hiện bóng là xác suất tin cậy nên cũng có thể đặt ngưỡng cho “bóng được phát hiện” và quan sát xem điều đó thay đổi kết quả như thế nào, được tóm tắt trong hình sau. Có một sự cân bằng trong phương pháp này vì ngưỡng cao hơn nhất thiết sẽ có ít cảnh báo sai hơn nhưng cũng bỏ lỡ một số ví dụ ít chắc chắn hơn về quả bóng. Chúng tôi đã kiểm tra ngưỡng tin cậy 20% và 50% và nhận thấy khả năng phát hiện bóng lần lượt là 78% và 61%. Theo thước đo này, ngưỡng 20% ​​là tốt hơn. Sự đánh đổi rõ ràng là đối với ngưỡng tin cậy 20%, 80% tổng số lần phát hiện thực sự là quả bóng (20% dương tính giả), trong khi đối với ngưỡng tin cậy 50%, 90% là quả bóng (dương tính giả 10%). Để có ít kết quả dương tính giả hơn, ngưỡng tin cậy 50% sẽ tốt hơn. Cả hai biện pháp này đều có thể được cải thiện với nhiều dữ liệu được dán nhãn hơn cho tập huấn luyện lớn hơn.

Thông lượng của đường dẫn phát hiện ở mức 10 khung hình/giây, do đó, ở dạng hiện tại, một phiên bản duy nhất không đủ nhanh để chạy liên tục trên đầu vào ở tốc độ 50 khung hình/giây. Việc đạt được mốc 7 giây cho đầu ra sau các bước bóng sẽ yêu cầu tối ưu hóa hơn nữa về độ trễ, có thể bằng cách chạy song song nhiều phiên bản của đường dẫn và nén các mô hình CNN thông qua lượng tử hóa (ví dụ).

Độ chính xác theo dõi đường bóng

Mô hình CNN được đào tạo trước từ MMTracking hoạt động tốt, nhưng vẫn có những trường hợp thất bại thú vị. Hình dưới đây cho thấy trường hợp trình theo dõi bắt đầu trên quả bóng, mở rộng hộp giới hạn của nó để bao gồm cả đầu gậy putter và bóng, sau đó không may theo dõi đầu gậy putter và quên bóng. Trong trường hợp này, đầu gậy putter xuất hiện màu trắng (có thể do phản xạ gương), nên việc nhầm lẫn là điều dễ hiểu; dữ liệu được gắn nhãn để theo dõi và tinh chỉnh CNN theo dõi có thể giúp cải thiện điều này trong tương lai.

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về việc phát triển một đường ống mô-đun giúp định vị người chơi trong tầm nhìn của camera, xác định người chơi nào đang đặt và theo dõi quả bóng khi nó di chuyển về phía cốc.

Để biết thêm thông tin về sự cộng tác của AWS với PGA TOUR, hãy tham khảo PGA TOUR hợp tác với AWS để tái tạo lại trải nghiệm của người hâm mộ.


Về các tác giả

James vàng là một nhà khoa học ứng dụng tại Amazon Bedrock với nền tảng về học máy và khoa học thần kinh.

Henry Vương là một nhà khoa học ứng dụng tại Trung tâm đổi mới AI sáng tạo của Amazon, nơi ông nghiên cứu và xây dựng các giải pháp AI sáng tạo cho khách hàng AWS. Anh ấy tập trung vào các ngành thể thao, truyền thông & giải trí, đồng thời đã từng làm việc với nhiều liên đoàn, đội và đài truyền hình thể thao khác nhau trong quá khứ. Trong thời gian rảnh rỗi, anh ấy thích chơi quần vợt và chơi gôn.

Tryambak Gangopadhyay là Nhà khoa học ứng dụng tại Trung tâm đổi mới AI sáng tạo AWS, nơi ông cộng tác với các tổ chức thuộc nhiều ngành công nghiệp khác nhau. Vai trò của anh liên quan đến việc tiến hành nghiên cứu và phát triển các giải pháp Generative AI để giải quyết những thách thức kinh doanh quan trọng và đẩy nhanh việc áp dụng AI.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img