Zephyrnet-Logo

Ein umfassender Leitfaden zur Einschätzung der menschlichen Haltung

Datum:

Die Schätzung der menschlichen Haltung ist eine Computer-Vision-Aufgabe, die die Orientierung einer Person in einem grafischen Format darstellt. Diese Technik wird häufig angewendet, um die Körperteile oder die Gelenkposition einer Person vorherzusagen. Es ist eines der spannendsten Forschungsgebiete im Bereich Computer Vision, das aufgrund seiner Fülle von Anwendungen, die von einer solchen Technologie profitieren können, viel Anklang gefunden hat.

Der heutige Artikel beleuchtet die Einschätzung der menschlichen Pose und wie sie funktioniert. Außerdem werde ich versuchen, einige Top- und Open-Source-Posenschätzungsprojekte auf Github zusammen mit einigen hochmodernen Modellen, Techniken und Arten der Posenschätzung zu behandeln, die sich als enorme Fortschritte in diesem Bereich erweisen.

Wenn Sie diesen umfassenden Leitfaden durchgehen, werden Sie auf die folgenden Themen stoßen:

  1. Was ist die Schätzung der menschlichen Haltung?
  2. Bedeutung der Schätzung der menschlichen Haltung
  3. Unterschied zwischen 2D und 3D Schätzung der menschlichen Haltung
  4. Arten von Modellen zur Schätzung der menschlichen Haltung
  5. Bottom-Up-VS. Top-Down-Methoden der Posenschätzung
  6. Wie funktioniert die Schätzung der menschlichen Haltung?
  7. Einfacher Code zur Schätzung der menschlichen Haltung
  8. Anwendungen der Schätzung der menschlichen Haltung
  9. Zusammenfassung
  10. Über den Autor
  11. Bibliographie

Was ist die Schätzung der menschlichen Haltung?

Schätzung der menschlichen Haltung mit maschinellem Lernen in Python

https://www.analyticsvidhya.com/blog/2021/10/human-pose-estimation-using-machine-learning-in-python/

Human Pose Estimation identifiziert und klassifiziert die Posen menschlicher Körperteile und Gelenke in Bildern oder Videos. Im Allgemeinen wird eine modellbasierte Technik verwendet, um menschliche Körperhaltungen im 2D- und 3D-Raum darzustellen und abzuleiten.

Im Wesentlichen ist es eine Möglichkeit, eine Reihe von Koordinaten zu erfassen, indem die Gelenke des menschlichen Körpers wie Handgelenk, Schulter, Knie, Augen, Ohren, Knöchel und Arme definiert werden, was ein wichtiger Punkt in Bildern und Videos ist, die eine Pose einer Person beschreiben können .

Wenn dann ein Bild oder Video als Eingabe an das Posenschätzermodell gegeben wird, identifiziert es die Koordinaten dieser erfassten Körperteile und Gelenke als Ausgabe und einen Konfidenzwert, der die Genauigkeit der Schätzungen anzeigt.

Bedeutung der Schätzung der menschlichen Haltung

Die Erkennung von Personen ist seit langem ein zentrales Diskussionsthema für verschiedene Anwendungen in der traditionellen Objekterkennung. Mit den jüngsten Entwicklungen bei maschinellen Lernalgorithmen können Computer jetzt die menschliche Körpersprache verstehen, indem sie Posenerkennung und Posenverfolgung durchführen. Die Genauigkeit dieser Erkennungen und die Hardwareanforderungen, um sie auszuführen, haben jetzt einen Punkt erreicht, an dem sie kommerziell rentabel sind.

Darüber hinaus wird das Wachstum der Technologie auch inmitten der Coronavirus-Pandemie grundlegend verändert, bei der eine leistungsstarke Echtzeit-Poseerkennung und -verfolgung einige der einflussreichsten Trends in der Computer Vision hervorbringen wird. Es kann beispielsweise für die soziale Distanzierung verwendet werden, indem die Heuristik der menschlichen Pose und der Distanzprojektion kombiniert wird. Es hilft Menschen, an einem überfüllten Ort physischen Abstand zueinander zu wahren.

Die Einschätzung der menschlichen Haltung wird sich erheblich auf verschiedene Branchen auswirken, darunter Sicherheit, Business Intelligence, Gesundheit und Sicherheit sowie Unterhaltung. Ein Bereich, in dem sich diese Technik bereits bewährt hat, ist das autonome Fahren. Mithilfe der Echtzeiterkennung und -verfolgung der menschlichen Haltung können Computer das Verhalten von Fußgängern gründlich erfassen und vorhersagen – was ein gleichmäßigeres Fahren ermöglicht.

Unterschied zwischen 2D und 3D Schätzung der menschlichen Haltung

https://openaccess.thecvf.com/content_cvpr_2017/papers/Chen_3D_Human_Pose_CVPR_2017_paper.pdf

Es gibt hauptsächlich zwei Techniken, bei denen Posenschätzungsmodelle menschliche Posen erkennen können.

  1. Schätzung der 2D-Haltung: Bei dieser Art der Posenschätzung schätzen Sie einfach die Positionen der Körpergelenke im 2D-Raum relativ zu den Eingabedaten (dh Bild- oder Videoframe). Die Position wird mit X- und Y-Koordinaten für jeden Schlüsselpunkt dargestellt.
  2. Schätzung der 3D-Haltung: Bei dieser Art der Posenschätzung wandeln Sie ein 2D-Bild in ein 3D-Objekt um, indem Sie eine zusätzliche Z-Dimension zur Vorhersage schätzen. Die 3D-Posenschätzung ermöglicht es uns, die genaue räumliche Positionierung einer dargestellten Person oder Sache vorherzusagen.

Die 3D-Posenschätzung ist eine erhebliche Herausforderung für Ingenieure des maschinellen Lernens, da die Erstellung von Datensätzen und Algorithmen komplex ist, die mehrere Faktoren schätzen, wie die Hintergrundszene eines Bildes oder Videos, die Lichtverhältnisse und mehr.

Arten von Modellen zur Schätzung der menschlichen Haltung

Es gibt drei Haupttypen von Modellen zur Schätzung der menschlichen Pose, die verwendet werden, um den menschlichen Körper in 2D- und 3D-Ebenen darzustellen.

Schätzung der menschlichen Haltung mit OpenCV und Python - TechVidvan

https://www.semanticscholar.org/paper/Deep-Learning-Based-Human-Pose-Estimation%3A-A-Survey-Zheng-Wu/0edef16d8fb78625ec5a050e2a7ae4efffef3689

#1. Skelettbasiertes Modell: Dieser Vertreter wird auch als kinematisches Modell bezeichnet und enthält eine Reihe von Schlüsselpunkten (Gelenken) wie Knöchel, Knie, Schultern, Ellbogen, Handgelenke und Ausrichtungen der Gliedmaßen, die hauptsächlich für die 3D- und 2D-Posenschätzung verwendet werden.

Dieses flexible und intuitive Modell des menschlichen Körpers umfasst die Skelettstruktur des menschlichen Körpers und wird häufig verwendet, um die Beziehungen zwischen verschiedenen Körperteilen zu erfassen.

#2. Konturbasiertes Modell: Auch als planares Modell bezeichnet, wird es für die 2D-Posenschätzung verwendet und besteht aus der Kontur und der groben Breite des Körpers, des Rumpfes und der Gliedmaßen. Im Grunde stellt es das Aussehen und die Form eines menschlichen Körpers dar, wobei Körperteile mit Begrenzungen und Rechtecken der Kontur einer Person dargestellt werden.

Ein berühmtes Beispiel ist die Aktives Formmodell (ASM), das das gesamte menschliche Körperdiagramm und die Silhouettenverformungen unter Verwendung der Hauptkomponentenanalyse (PCA) erfasst.

# 3. Volumenbasiertes Modell: auch als volumetrisches Modell bezeichnet, wird zur 3D-Posenschätzung verwendet. Es besteht aus mehreren beliebten 3D-Modellen des menschlichen Körpers und Posen, die durch menschliche geometrische Netze und Formen dargestellt werden, die im Allgemeinen für die Deep-Learning-basierte 3D-Pose-Schätzung erfasst werden.

Bottom-Up-VS. Top-Down-Methoden der Posenschätzung

Alle Methoden zur Schätzung der menschlichen Pose können in zwei Hauptansätze eingeteilt werden: Bottom-Up und Top-Down.

  1. Bottom-up-Methoden Bewerten Sie zuerst jedes Körpergelenk und ordnen Sie sie dann an, um eine einzigartige Pose zu erstellen.
  2. Top-down-Methoden Lassen Sie zuerst einen Körperdetektor laufen und bestimmen Sie Körperverbindungen innerhalb der entdeckten Begrenzungsrahmen.

Wie funktioniert die Schätzung der menschlichen Haltung?

Nachdem Sie nun wissen, was Posenschätzung ist, warum sie so wichtig ist und wie sich verschiedene Methoden, Modelle und Techniken unterscheiden, ist es jetzt an der Zeit, sich mit ihrer Funktionsweise zu befassen. Ja, wir werden darüber sprechen, wie die Schätzung der menschlichen Pose funktioniert, und dieser Abschnitt ist jeweils in 3 Unterkategorien unterteilt:

  • Basisstruktur
  • Überblick über die Modellarchitektur
  • Verschiedene Ansätze für die Schätzung der menschlichen Haltung

Human Activity Recognition für Fitness- und Therapie-App – InData Labs

https://indatalabs.com/resources/human-activity-recognition-fitness-app

Grundstruktur

Ein Leitfaden für 2019 zur Schätzung der menschlichen Haltung mit Deep Learning

https://nanonets.com/blog/human-pose-estimation-2d-guide/

Es gibt mehrere Lösungsvorschläge für das Problem der Schätzung der menschlichen Haltung. Insgesamt lassen sich die bestehenden Verfahren jedoch in drei Gruppen unterteilen, nämlich Absolute Pose Estimation, Relative Pose Estimation und die passende Pose Estimation, die eine Kombination aus beiden ist.

Die erste: Die Methode zur absoluten Posenschätzung basiert auf satellitengestützten Navigationssignalen, Navigationsbaken, aktiven und passiven Landmarken und Heatmap-Abgleich. Das zweite: Relative Pose-Schätzverfahren basiert auf Koppelnavigation, die die menschliche Pose inkrementell aktualisiert, indem die Entfernung von einem bekannten Gelenk geschätzt wird, dh die anfängliche Position und Orientierung eines Menschen.

Grundsätzlich verwenden die meisten Algorithmen die menschliche Pose und Orientierung, um den Standort einer Person in Bezug auf den Hintergrund vorherzusagen. Es ist ein 2-Schritte-Framework, das menschliche Bounding-Boxen identifiziert und dann die Pose jeder Box bewertet.

Als nächstes schätzt es die wichtigsten Punkte für eine Person ab, die gelenkig werden würde, wie Ellbogen, Knie, Handgelenke usw. Je nach Anwendung können wir Posen für eine einzelne Person oder mehrere Personen schätzen.

Bei der Einzelposenschätzung schätzt das Modell die Posen für eine einzelne Person in einer gegebenen Szene. Im Gegensatz dazu schätzt das Modell bei der Multi-Pose-Schätzung die Posen für mehrere Personen in der gegebenen Eingabesequenz.

Überblick über die Modellarchitektur

https://nanonets.com/blog/human-pose-estimation-2d-guide/

Mehrere spezifische neuronale Netzwerkarchitekturen können hier nicht in einem einzigen Artikel behandelt werden, aber wir werden über einige robuste, zuverlässige Architekturen sprechen, die gute Ausgangspunkte darstellen.

Modelle zur Schätzung der menschlichen Haltung gibt es in einigen Varianten, dh in den oben erwähnten Bottom-Up- und Top-Down-Ansätzen. Die bekannteste Architektur beginnt mit einem Encoder, der ein Eingabebild aufnimmt und Merkmale unter Verwendung einer Reihe von sich verengenden Faltungsblöcken extrahiert. Der nächste Schritt nach einem Encoder hängt von der Methode ab, die zur Posenschätzung verwendet wird.

Das konzeptionell einfachste System praktiziert einen Regressor für die endgültigen Ausgabevorhersagen jeder Schlüsselpunktposition, indem es ein Eingabebild akzeptiert und X-, Y- und Z-Koordinaten für jeden Schlüsselpunkt ausgibt, den Sie vorhersagen möchten. Diese Architektur wird jedoch praktisch nicht verwendet, da sie ohne weitere Verfeinerung keine genauen Ergebnisse liefert.

Ein etwas komplexerer Ansatz praktiziert eine Encoder-Decoder-Architektur. Anstatt gemeinsame Koordinaten direkt in dieser Architektur zu berechnen, wird der Encoder in einen Decoder eingespeist, der Heatmaps generiert. Diese Heatmaps stellen die Wahrscheinlichkeit dar, mit der eine Verbindung in einem bestimmten Abschnitt eines Eingabebilds erkannt wird.

Die genauen Koordinaten werden ausgewählt, indem während der Nachbearbeitung Heatmap-Standorte mit der höchsten Verbindungswahrscheinlichkeit ausgewählt werden. Ferner umfasst im Fall einer Multi-Pose-Schätzung eine Heatmap mehrere Regionen mit hoher Keypoint-Wahrscheinlichkeit, beispielsweise 2 oder mehr linke Hände in einem Bild. Es wird getan, um jeden Standort einem bestimmten menschlichen Modell zuzuordnen.

Die oben diskutierten Architekturen gelten gleichermaßen für die 2D- und 3D-Posenschätzung.

Verschiedene Bibliotheken für die Einschätzung der menschlichen Haltung

Mit der rasanten Entwicklung der klassischen Computer-Vision-Methoden hat sich die Posenschätzung, einschließlich Bildsegmentierung und Objekterkennung, in verschiedenen Aufgabenstellungen übertroffen.

In diesem Abschnitt werden die fünf beliebtesten Bibliotheken zur Posenschätzung aufgelistet und überprüft, die im Internet zur öffentlichen Verwendung verfügbar sind. Sie können einen benutzerdefinierten Schätzer für die menschliche Pose mithilfe der folgenden Bibliotheken implementieren.

#1. OpenPose

Logo

Dokumentation: https://cmu-perceptual-computing-lab.github.io/openpose/web/html/doc/index.html

Github-Link: https://github.com/CMU-Perceptual-Computing-Lab/openpose

Github-Stars: 22.8k

Github-Fork: 6.8k

OpenPose ist eine kostenlose Bibliothek zur Erkennung menschlicher Gelenke, die in Echtzeit funktioniert. Es erkennt Schlüsselpunkte für die Körper-, Gesichts-, Hand- und Fußschätzung. Es ist das erste Mehrpersonensystem, das insgesamt 135 Schlüsselpunkte auf einem einzigen Eingabebild gemeinsam erkennt. Es ist eine der beliebtesten Bibliotheken zur Schätzung der menschlichen Pose für mehrere Personen, die einen Bottom-up-Ansatz verwendet.

OpenPose ist eine Open-Source-API, die Benutzern die Flexibilität bietet, Eingabebilder aus Kamerafeldern, Webcams und anderen Quellen für eingebettete Systemanwendungen auszuwählen. Es unterstützt verschiedene Hardwarearchitekturen, einschließlich CUDA-GPUs, OpenCL-GPUs und reine CPU-Systeme. Es wird häufig für die 2D-Posenschätzung (Ganzkörper), die 3D-Posenrekonstruktion und -schätzung (Ganzkörper) sowie das Unity-Plugin verwendet.

#2. Posenerkennung

Github-Link: https://github.com/tensorflow/tfjs-models/tree/master/pose-detection

Github-Stars: 10.3k

Github-Fork: 3.2k

Pose Detection ist eine Open-Source-Bibliothek zur Echtzeit-Poseerkennung, die menschliche Posen in Bildern oder Videos erkennen kann. Es handelt sich um eine auf tensorflow.js basierende Posenschätzerarchitektur, mit der Sie Körperteile wie Ellbogen, Hüften, Handgelenke, Knie, Knöchel und andere entweder für eine einzelne Pose oder mehrere Posen erkennen können.

Es ist so konzipiert, dass es auf leichten Geräten wie Browsern oder Mobilgeräten effizient ausgeführt wird. Dieses Paket bietet drei hochmoderne Modelle für die Ausführung der Echtzeit-Posenschätzung:

  • MoveNet (erkennt 17 Schlüsselpunkte und läuft mit 50+ fps)
  • BlazePose (erkennt 33 Schlüsselpunkte)
  • PoseNet (kann mehrere Posen erkennen und jede Pose enthält 17 Schlüsselpunkte)

#3. DichtePose

Dokumentation: http://densepose.org/

Github-Link: https://github.com/facebookresearch/Densepose

Github-Stars: 6.2k

Github-Fork: 1.2k

Dense Human Pose Estimate ist eine kostenlose Open-Source-Bibliothek, die alle menschlichen Pixel von 2D-RGB-Bildern in Echtzeit auf ein oberflächenbasiertes 3D-Modell des Körpers abbilden kann. Diese Bibliothek ist im Detectron-Framework von caffe2 implementiert und kann auch für Einzel- und Mehrfachposenschätzungsprobleme verwendet werden.

#4. AlphaPose


Dokumentation: https://www.mvig.org/research/alphapose.html

Github-Link: https://github.com/MVIG-SJTU/AlphaPose

Github-Stars: 5.7k

Github-Fork: 1.6k

Alphapose ist eine Open-Source-Bibliothek zur Echtzeit-Posenschätzung für mehrere Personen, die einen beliebten Top-Down-Ansatz verwendet und sehr genau ist. Diese Bibliothek hilft bei der Erkennung von Posen in Gegenwart ungenauer menschlicher Begrenzungsrahmen und ist eine optimale Architektur zum Bestimmen menschlicher Haltungen durch optimal erkannte Begrenzungsrahmen.

Alphapose bietet auch einen effizienten Online-Pose-Tracker, um Posen zuzuordnen, die dieselbe Person über Frames hinweg anzeigen. Es ist der erste Open-Source-Online-Pose-Tracker und heißt PoseFlow. Diese Bibliothek kann genaue Echtzeit-Schlüsselpunkte für mehrere Personen und einzelne Personen in Bildern, Videos und Bildlisten erkennen.

#5. HRNet (Hochauflösendes Netz)


Dokumentation: https://jingdongwang2017.github.io/Projects/HRNet/PoseEstimation.html

Github-Link: https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

Github-Stars: 3.5k

Github-Fork: 810

HRNet ist eine Architektur, die zur Schätzung der menschlichen Haltung verwendet wird, um herauszufinden, was wir als Schlüsselpunkte in Bezug auf bestimmte Objekte oder Personen in einem Bild kennen. Es behält während des gesamten Prozesses hochauflösende Darstellungen bei und prognostiziert eine sehr genaue Schlüsselpunkt-Heatmap.

Darüber hinaus eignet sich diese Architektur zum Erfassen der menschlichen Körperhaltung bei Sportübertragungen im Fernsehen. Viele andere dichte Vorhersageaufgaben wie Segmentierung, Gesichtsausrichtung, Objekterkennung usw. haben von HRNet profitiert.

Einfacher Code zur Schätzung der menschlichen Haltung

Es gibt viele öffentliche Datensätze sowohl für die 3D- als auch für die 2D-Posenschätzung.

3D-Positionsschätzungs-Datasets

2D-Positionsschätzungs-Datasets

In unserem Beispiel verwenden wir das vortrainierte Modell des Openpose-Teams mit Caffe auf dem MPI-Datensatz, das 15 Schlüsselpunkte zur Identifizierung verschiedener Gelenke im menschlichen Körper enthält.

"Head": 0, "Neck": 1, "RShoulder": 2, "RElbow": 3, "RWrist": 4, "LShoulder": 5, "LElbow": 6, "LWrist": 7, "RHip ." ": 8, "RKnee": 9, "RAnkle": 10, "LHip": 11, "LKnee": 12, "LAnkle": 13, "Brust": 14, "Hintergrund": 15

Definieren Sie die Posenpaare, die verwendet werden, um die Gliedmaßen zu erstellen, die die Schlüsselpunkte verbinden. Laden Sie dann die pro trainierten Modelle herunter.

Pose_Pairs = [ ["Kopf", "Hals"], ["Neck", "RShoulder"], ["RShoulder", "RElbow"], ["RElbow", "RWrist"], ["Neck", "LShoulder "], ["LShoulder", "LElbow"], ["LElbow", "LWrist"], ["Neck", "Brust"], ["Brust", "RHip"], ["RHip", "RKnee "], ["RKnee", "RAnkle"], ["Brust", "LHip"], ["LHip", "LKnee"], ["LKnee", "LAnkle"] ] MODEL_URL="http:// posefs1.perception.cs.cmu.edu/OpenPose/models/" POSE_FOLDER="pose/" MPI_FOLDER=${POSE_FOLDER}"mpi/" MPI_MODEL=${MPI_FOLDER}"pose_iter_160000.caffemodel" wget -c ${MODEL_URL {MPI_MODEL} -P ${MPI_FOLDER}

#1. Lesen Sie die .prototxt-Datei und laden Sie die vortrainierten Gewichte in das Netzwerk.

net = cv.dnn.readNetFromCaffe(args.proto, args.model)

#2. Laden Sie als Nächstes Bilder in einem Stapel und leiten Sie sie durch das neuronale Netzwerk.

blob = cv.dnn.blobFromImage(Bild, Skalierungsfaktor, Größe, Mittelwert, swapRB, Zuschneiden)

#3. Rufen Sie die Weiterleitungsfunktion auf, um die Inferenz für die Eingabebilder auszuführen. Generieren Sie dann die Konfidenzkarte für jeden Schlüsselpunkt.

inp = cv.dnn.blobFromImage(frame, 1.0 / 255, (inWidth, inHeight), (0, 0, 0), swapRB=False, crop=False) net.setInput(inp)

out = net.forward()


#4. Zeigen Sie diese kritischen Punkte auf dem Originalbild an.

for i in range(len(BODY_PARTS)): # Slice-Heatmap des entsprechenden Körperteils. heatMap = out[0, i, :, :] # Ursprünglich versuchen wir, alle lokalen Maxima zu finden. Um ein Beispiel # zu vereinfachen, finden wir einfach ein globales. Allerdings konnte auf diese Weise nur eine einzige Pose gleichzeitig # erkannt werden. _, conf, _, point = cv.minMaxLoc(heatMap) x = (frameWidth * point[0]) / out.shape[3] y = (frameHeight * point[1]) / out.shape[2] # Add ein Punkt, wenn das Vertrauen höher als der Schwellenwert ist. points.append((int(x), int(y)) if conf > args.thr else None)
für Paar in POSE_PAIRS: partFrom = pair[0] partTo = pair[1] assert(partFrom in BODY_PARTS) assert(partTo in BODY_PARTS) idFrom = BODY_PARTS[partFrom] idTo = BODY_PARTS[partTo] if points[idFrom] and points[idTo ]: cv.line(frame, points[idFrom], points[idTo], (255, 74, 0), 3) cv.ellipse(frame, points[idFrom], (4, 4), 0, 0, 360 , (255, 255, 255), cv.FILLED) cv.ellipse(frame, points[idTo], (4, 4), 0, 0, 360, (255, 255, 255), cv.FILLED) cv. putText(frame, str(idFrom), points[idFrom], cv.FONT_HERSHEY_SIMPLEX, 0.75, (255, 255, 255),2,cv.LINE_AA) cv.putText(frame, str(idTo), points[idTo], cv.FONT_HERSHEY_SIMPLEX, 0.75, (255, 255, 255),2,cv.LINE_AA)

#5. Speichern Sie die Datei und führen Sie sie über die Eingabeaufforderung mit den zugewiesenen Argumenten aus.

python3 sample.py --input sample.jpg --protopose/mpi/pose_deploy_linevec_faster_4_stages.prototxt --modelpose/mpi/pose_iter_160000.caffemodel --dataset MPI

#6. Ergebnisse

Ergebnisse der Posenschätzung, die auf einem Bild ausgeführt wird

Anwendungen der Schätzung der menschlichen Haltung

Die Schätzung der menschlichen Haltung ist das am meisten diskutierte Thema in der Computer Vision und wird in einer Vielzahl von Anwendungen und Anwendungsfällen eingesetzt. Einige umfassen die Mensch-Computer-Interaktion, Bewegungsanalyse, Augmented Reality und Robotik.

Im Allgemeinen hat die Schätzung der menschlichen Pose endlose Anwendungen in fast allen Bereichen. Einige der gängigsten Anwendungen, die sich in der Entwicklung befinden, sind:

1. Schätzung der menschlichen Aktivität und Bewegung

Eine der offensichtlichsten Dimensionen, die bei der Posenschätzung anwendbar ist, ist die Verfolgung und Messung menschlicher Aktivitäten und Bewegungen. Viele Architekturen wie OpenPose, PoseNet und DensePose werden oft für Aktions-, Gesten- oder Gangerkennung praktiziert. Einige Beispiele für das Tracking menschlicher Aktivitäten sind:

  • KI-gestützte Sporttrainer oder persönlicher Fitnesstrainer
  • Sitzgestenerkennung
  • Überwachung der Arbeitsplatzaktivität
  • Gebärdensprachkommunikation für Behinderte
  • Signalerkennung von Verkehrspolizisten
  • Cricket-Schiedsrichter-Signalerkennung
  • Erkennung von Tanztechniken
  • Überwachung von Bewegungen in Sicherheit und Überwachung
  • Massenzählung und -verfolgung für Einzelhandelsgeschäfte

2. Augmented Reality & Virtual Reality (AR/VR)

In Kombination mit Augmented- und Virtual-Reality-Anwendungen bietet die Schätzung der menschlichen Pose die Möglichkeit, realistischere und reaktionsschnellere Erlebnisse zu schaffen. Beispielsweise können Sie über virtuelle Tutoren, die Posen illustriert haben, verschiedene Spiele wie Tennis oder Golf lernen. Mehr noch, die US-Armee hat AR-Programme im Kampf implementiert. Es hilft Soldaten, zwischen Feinden und befreundeten Truppen zu unterscheiden.

3. Robotik

Herkömmliche Industrieroboter basieren auf 2D-Vision-Systemen mit vielen Einschränkungen. Anstelle der manuellen Programmierung von Robotern zum Erlernen von Bewegungen kann eine 3D-Posenschätzungstechnik verwendet werden. Dieser Ansatz schafft reaktionsschnellere, flexiblere und realitätsgetreuere Robotiksysteme. Es ermöglicht Robotern, Aktionen und Bewegungen zu verstehen, indem sie der Haltung, dem Aussehen oder dem Aussehen des Tutors folgen.

4. Animation & Spiele

Moderne Fortschritte in der Posenschätzung und Motion-Capture-Technologie machen die Charakteranimation zu einem optimierten und automatisierten Prozess. Beispielsweise erfasst die Kinect-Tiefenkamera von Microsoft mithilfe von IR-Sensordaten in Echtzeit menschliche Bewegungen und überträgt damit die Aktionen der Charaktere virtuell in die Spielumgebung. Ebenso kann die Aufnahme von Animationen für immersive Videospielerlebnisse mühelos durch verschiedene Architekturen zur Posenschätzung automatisiert werden.

Endnotes

Die Pose Estimation ist eine faszinierende Computer-Vision-Komponente, die von mehreren Domänen verwendet wird, darunter Technologie, Gesundheitswesen, Spiele usw. Ich hoffe, mein umfassender Leitfaden zur Human Pose Estimation hat dazu beigetragen, die Grundlagen der menschlichen Posenschätzung, ihre Arbeitsprinzipien und ihre Verwendung zu erklären in der echten Welt.

Über den Autor

Mrinal Walia ist ein professioneller Python-Entwickler mit einem Bachelor-Abschluss in Informatik mit den Schwerpunkten maschinelles Lernen, künstliche Intelligenz und Computer Vision. Mrinal ist auch ein freiberuflicher Blogger, Autor und Geek mit vier Jahren Erfahrung in seiner Arbeit.

Wenn dir mein Artikel gefallen hat, verbinde dich mit mir auf meinen Social-Media-Profilen und folge mir auf eine schnelle virtuelle Tasse Kaffee.

Instagram | Facebook | LinkedIn | Github | E-Mail |

Danke, und haben Sie keinen guten Tag, haben Sie einen schönen Tag!

Lesen Sie weitere Artikel hier auf Menschen- und Objekterkennung.

Bibliographie

  • https://www.researchgate.net/publication/225561390_A_Novel_Pose_Estimation_System_for_Indoor_Mobile_Robots_Based_on_Two_Optical_Sensors
  • https://viso.ai/deep-learning/pose-estimation-ultimate-overview/
  • https://www.fritz.ai/pose-estimation/#part-how
  • https://learnopencv.com/deep-learning-based-human-pose-estimation-using-opencv-cpp-python/
  • https://cv-tricks.com/pose-estimation/using-deep-learning-in-opencv/

Die in diesem Artikel gezeigten Medien sind nicht Eigentum von Analytics Vidhya und werden nach Ermessen des Autors verwendet. 

Quelle: https://www.analyticsvidhya.com/blog/2022/01/a-comprehensive-guide-on-human-pose-estimation/

spot_img

Neueste Intelligenz

spot_img