Für Robotik im Alltag relevante Interaktionstechnologien
Interaktionstechnologien wie die Personen-Erkennung und das Personen-Tracking sind Voraussetzung für die Mensch-Roboter-Interaktion und damit sehr relevant für Robotik im Alltag. Dabei geht es vor allem um eine präzise sogenannte Handlungserkennung und eine effektive „Szenenanalyse“. Beide sind notwendig für die Entwicklung komplexer, auf den Menschen ausgerichteter Robotik-Anwendungen und der Umsetzung von Sicherheitsaspekten: Was tut oder wie reagiert der Mensch, mit dem der Roboter interagiert?
Die dafür notwendigen Techniken stehen jedoch vor großen Herausforderungen: Die Algorithmen, die für die Personenerkennung benötigt werden, sind äußerst ressourcenintensiv (zum Beispiel in Bezug auf Rechenkapazität). Dies führt zu einer Abhängigkeit von leistungsstarken Cloud-Diensten oder hoch performanten Rechnerclustern. Der Zugriff auf diese wiederum macht Systeme aber anfällig für Risiken wie Hackerangriffe, weswegen der Schutz von persönlichen und geschäftlichen Daten stets mitgedacht werden muss.

Weiterhin relevant, und seit den aktuellen Veröffentlichungen von ChatGPT in 2022 und 2023 in aller Munde, sind die Entwicklungen rund um sogenannte Large Language Models (LLMs). Die unter anderem dahinterstehende Forschung an einer verständlichen Kontextcodierung, die sowohl für Menschen als auch Maschinen zugänglich ist, eröffnet die Möglichkeit zur Steuerung von Robotern mithilfe natürlicher Sprache.
Trotz des großen Potenzials stehen solche Ansätze jedoch nach wie vor vor diversen Herausforderungen. Auch das Training der LLMs erfordert umfangreiche Datenmengen und erhebliche Rechenleistung, um eine brauchbare Leistung zu erzielen. Zudem besteht mit einer großen Abhängigkeit von der Qualität der zugrundeliegenden Trainingsdaten stets die Gefahr der Übernahme und Verstärkung von Vorurteilen oder Wissenslücken aus der Datengrundlage. Ein weiteres Problem ist das Auftreten von sogenannten „Halluzinationen“, bei denen die Systeme über wahrscheinliche Wortfolgen Informationen generieren, für die keine Quellen existieren oder die inhaltlich nicht korrekt sind. Darüber hinaus bleibt auch in diesem Kontext der Schutz der Privatsphäre und sensibler Daten eine anhaltende Herausforderung.

Übersicht über häufig in diesem Zusammenhang genutzte OS Software
Open-Source-Frameworks für Computer Vision (CV)
Empfehlenswert ist der Blick auf folgende Open Source Computer Vision Frameworks: Computer Vision und Bildverarbeitung mit Open CV / OpenCV.js (intel)
Code: https://github.com/opencv
Lizenz: Apache 2.0
Mehr zu Open CV
Mehr zu Lizenzarten
Maschinelles Lernen und KI mit Tensor Flow (google)
Code: https://github.com/tensorflow
Lizenz: Apache 2.0
Mehr zu TensorFlow
Mehr zu Lizenzarten
Deep Learning on Irregular Input Data mit PyTorch (linuxfoundation)
Code: https://github.com/pytorch
Lizenz: BSD-3
Mehr zu Lizenzarten
Deep Learning und Computer Vision mit ImageAI (privat)
Code: https://github.com/OlafenwaMoses/ImageAI
Lizenz: MIT License
Mehr zu Lizenzarten
Open-Source-Framework für Personen-Tracking / Human Tracking
Empfehlenswert ist der Blick auf folgende Open Source Human Tracking Frameworks: Echtzeit-Objekterkennung mit „Youonlylookonce“ (YOLO)
Code: https://github.com/ultralytics/yolov5
Lizenz: AGPL-3.0, Enterprise
Mehr zu YOLO (Link zu Wissensplattform-Seite folgt)
Mehr zu Lizenzarten
Markerlose Bewegungserfassung mit freemocap:
Code: https://github.com/freemocap
Lizenz: GNU AfferoGeneral Public License v3.0
Mehr zu FreeMoCap
Mehr zu Lizenzarten
Schätzung von Körperhaltungen mit OpenPose(CMU):
Code: https://github.com/CMU-Perceptual-Computing-Lab/openpose
Lizenz: MIT License
Mehr zu OpenPose (Link zu Wissensplattform-Seite folgt)
Mehr zu Lizenzarten
Open Source Large Language Models and Frameworks
Empfehlenswert – Stand September 2023 – ist der den Blick auf folgende Large Language Models (bitte beachten, dass hier in der Zwischenzeit viel passiert sein kann): ChatGPT (OpenAI)
Lizenz: Unterliegt den AGB von OpenAI
Mehr zu ChatGPT
Mehr zu Lizenzarten
Bard / PALM-E (google)
Lizenz: Apache License 2.0
Mehr zu Bard/PALM-E
Mehr zu Lizenzarten
LLaMA(Meta AI)
Lizenz: Apache License 2.0
Mehr zu LLaMA
Mehr zu Lizenzarten
Koala (Berkeley + LLaMA)
Lizenz: MIT license
Mehr zu Koala
Mehr zu Lizenzarten
Referenzen
[1] Z. Cao, T. Simon, S.-E. Wei und Y. Sheikh. (2016, Dezember 6). Realtime Multi-Person 2D Human Pose Estimation using Part Affinity Fields, CVPR 2017 Oral. [Online]. Verfügbar: https://youtu.be/pW6nZXeWlGM. [Abruf Februar 8, 2024].
[2] Underfitted. (2023, April 25). We integrated ChatGPT with our robots. [Online]. Verfügbar: https://youtu.be/Y1-s37zrm1M. [Abruf Februar 8, 2024].
Weiterführende Links
Z. Cao, T. Simon, S.-E. Wei und Y. Sheikh. (2017, April 14). Realtime multi-person 2d pose estimation using part affinity fields. [Online]. Verfügbar: https://arxiv.org/abs/1611.08050. [Abruf Februar 8, 2024].