Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe

MediaPipe, Open Source, Software Schlagwörter: , , 0 Kommentare

Die Objekterkennung ist ein umfassend untersuchtes Problem der Computer-Sicht, aber der Großteil der Forschung hat sich auf 2D konzentriert. Durch die Erweiterung der Vorhersage auf 3D kann man die Größe, Position und Orientierung eines Objekts in der Welt erfassen, was zu einer Vielzahl von Anwendungen in der Robotik, bei selbstfahrenden Fahrzeugen, der Bildgewinnung und der erweiterten Realität führt.

Sie haben es eilig? Dann speichern Sie diesen Blogartikel von R23 als PDF

Brauchen Sie den Inhalt dieses Artikels "Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe" schnell und bequem? Dann speichern Sie ihn doch einfach als PDF!

Obwohl die 2D-Objekterkennung relativ ausgereift ist und in der Industrie weit verbreitet ist, stellt die 3D-Objekterkennung ein schwieriges Problem dar.

veröffentlichte im März MediaPipe, eine mobilen Echtzeit-3D-Objekterkennungs-Pipeline für Alltagsgegenstände. Diese Pipeline erkennt Objekte in 2D-Bildern und schätzt ihre Posen und Größen anhand eines ML-Modells (Machine Learning), das auf einem neu erstellten 3D-Datensatz trainiert wurde.

Implementiert in MediaPipe, einem plattformübergreifenden Open-Source-Framework für den Bau von Pipelines zur Verarbeitung von Wahrnehmungsdaten verschiedener Modalitäten, berechnet Objectron orientierte 3D-Bounding-Boxen von Objekten in Echtzeit auf mobilen Geräten.

AR Synthetische Datenerzeugung

Ein beliebter Ansatz ist die Ergänzung von Daten aus der realen Welt durch synthetische Daten, um die Genauigkeit der Vorhersage zu erhöhen. Versuche führen jedoch oft zu schlechten, unrealistischen Daten oder erfordern im Falle einer fotorealistischen Darstellung einen erheblichen Aufwand und Rechenaufwand.

Der neuartige Ansatz, der als AR Synthetic Data Generation bezeichnet wird, platziert virtuelle Objekte in Szenen mit AR-Sitzungsdaten, wodurch wir Kamerapositionen, erkannte ebene Oberflächen und geschätzte Beleuchtung nutzen können, um Platzierungen zu generieren, die physikalisch wahrscheinlich sind und mit einer Beleuchtung, die der Szene entspricht.

Dieser Ansatz führt zu hochwertigen synthetischen Daten mit gerenderten Objekten, die die Szenengeometrie respektieren und nahtlos in reale Hintergründe passen. Durch die Kombination von Daten aus der realen Welt und synthetischen AR-Daten können wir die Genauigkeit um etwa 10 % erhöhen.

Eine ML-Pipeline für die 3D-Objekterkennung

hat ein einstufiges Modell aufgebaut, um die Pose und die physikalische Größe eines Objekts aus einem einzigen RGB-Bild vorherzusagen. Das Modell-Backbone hat eine Encoder-Decoder-Architektur, die auf MobileNetv2 aufbaut. verwendet einen Multi-Task-Learning-Ansatz, bei dem sie gemeinsam die Form eines Objekts mit Erkennung und Regression vorhersagen. Die Shape-Task prognostiziert die Formsignale des Objekts in Abhängigkeit davon, welche Ground-Truth-Annotation verfügbar ist, z.B. Segmentierung. Dies ist optional, wenn keine Shape-Annotation in den Trainingsdaten vorhanden ist.

Objectron-Datensatz

Nun stellt den Objectron-Datensatz anderen Forschern kostenlos zur Verfügung.

Objectron-Datensatz

Der Objectron-Datensatz ist eine Sammlung kurzer, objektorientierter Videoclips, die von AR-Sitzungsmetadaten begleitet werden, zu denen Kamerapositionen, spärliche Punktwolken und die Charakterisierung der planaren Oberflächen in der Umgebung gehören.

In jedem Video bewegt sich die Kamera um das Objekt herum und fängt es aus verschiedenen Winkeln ein. Die Daten enthalten auch manuell kommentierte 3D-Bounding-Boxen für jedes Objekt, die die Position, Orientierung und Abmessungen des Objekts beschreiben.

Der Datensatz besteht aus 15K annotierten Videoclips, ergänzt durch über 4M annotierte Bilder in den folgenden Kategorien: Fahrräder, Bücher, Flaschen, Kameras, Schachteln, Stühle, Tassen, Laptops und Schuhe.

Um die Geodiversität zu gewährleisten, wird der Datensatz darüber hinaus in 10 Ländern auf fünf Kontinenten gesammelt. Zusammen mit dem Datensatz steht auch eine 3D-Objekterkennungslösung für vier Objektkategorien - Schuhe, Stühle, Tassen und Kameras - zur Verfügung.

Diese Modelle werden anhand dieses Datensatzes trainiert und in MediaPipe veröffentlicht, Googles Open-Source-Framework für plattformübergreifende, anpassbare ML-Lösungen für Live- und Streaming-Medien.

Tutorials

Links

https://mediapipe.dev/

https://github.com/google/mediapipe

Objectron Dataset

https://github.com/google-research-datasets/Objectron/

Wie können wir Ihnen helfen?

Wir unterstützen Sie bei der Umsetzung Ihres Augmented Reality (AR) oder Virtual Reality (VR) Projektes! Ob Produktfotografie, 3D-Scan-Service, 3D-Visualisierung oder fertige 3D-Modelle für AR/VR - wir beraten Sie persönlich und unverbindlich.

Wenn Sie ein individuelles Angebot auf Basis Ihrer aktuellen Vorlagen (Fotos, Zeichnungen, Skizzen) wünschen, nutzen Sie einfach unser Anfrageformular.

Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe 3

R23 Newsletter

ABONNIEREN SIE UNSEREN NEWSLETTER

Liebe Leserin, lieber Leser,

wenn Sie sich für aktuelle Themen und Tipps rund um unser Atelier für Virtual & Augmented Reality interessieren, dann melden Sie sich jetzt für unseren kostenlosen Newsletter an. Sie erhalten wöchentlich eine E-Mail mit spannenden Artikeln, exklusiven Angeboten und praktischen Ratschlägen.

Um sich anzumelden, füllen Sie einfach das folgende Formular aus und klicken Sie auf “SETZ DICH AUF DIE LISTE”. Sie können sich jederzeit wieder abmelden, wenn Sie möchten.

Wir freuen uns auf Ihre Anmeldung!

Wir senden keinen Spam! Erfahren Sie mehr in unserer Datenschutzerklärung.

Gefällt Ihnen dieser Beitrag? Teilen Sie ihn mit anderen. Sie machen uns damit eine große Freude!
R23
R23 : Metaverse, Augmented Reality, Virtual Reality

Kommentar verfassen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Ralf Dreiundzwanzig: Atelier für Virtual & Augmented Reality

Aktuell

Virtuelle Influencerin

Charakterdesign
In unserem r23 Atelier in Hagen entwerfen wir für Ihr Unternehmen, Ihre Organisation oder Ihr Projekt die passende virtuelle Influencerin. Wir entwerfen gerade eine virtuelle Influencerin für uns selbst. Verfolgen Sie die Entstehung auf https://blog.r23.de/tag/claudia/
Virtuelle Influencer von R23