Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe

Nov 16, 2020

—

von

Die Objekterkennung ist ein umfassend untersuchtes Problem der Computer-Sicht, aber der Großteil der Forschung hat sich auf 2D konzentriert. Durch die Erweiterung der Vorhersage auf 3D kann man die Größe, Position und Orientierung eines Objekts in der Welt erfassen, was zu einer Vielzahl von Anwendungen in der Robotik, bei selbstfahrenden Fahrzeugen, der Bildgewinnung und der erweiterten Realität führt.

Sie haben es eilig? Dann speichern Sie diesen Blogartikel von R23 als PDF

Brauchen Sie den Inhalt dieses Artikels “Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe” schnell und bequem? Dann speichern Sie ihn doch einfach als PDF!

Download PDF

Obwohl die 2D-Objekterkennung relativ ausgereift ist und in der Industrie weit verbreitet ist, stellt die 3D-Objekterkennung ein schwieriges Problem dar.

Google veröffentlichte im März MediaPipe, eine mobilen Echtzeit-3D-Objekterkennungs-Pipeline für Alltagsgegenstände. Diese Pipeline erkennt Objekte in 2D-Bildern und schätzt ihre Posen und Größen anhand eines ML-Modells (Machine Learning), das auf einem neu erstellten 3D-Datensatz trainiert wurde.

Wir visualisieren Ideen!

R23 ist Ihre Digitalagentur für Virtual & Augmented Reality. Wir investieren in immersive Technologien wie Augmented Reality und künstliche Intelligenz, die die Grundlage für die Art und Weise sein werden, wie wir in Zukunft online einkaufen. Mit neuen visuellen Entdeckungstools helfen wir Käufer:innen, neue Produkte zu finden, und mit AR-Erlebnissen helfen wir Menschen, Artikel zu visualisieren, bevor sie sie kaufen.

Fotorealistische Visualisierungen und 3D-Animationen lassen sich schnell und kostengünstig erzeugen und in Ihrem Online-Shop veröffentlichen.

Beispiel 3D-Modell Stilvoll. Modern. Zeitlos. Couch

Implementiert in MediaPipe, einem plattformübergreifenden Open-Source-Framework für den Bau von Pipelines zur Verarbeitung von Wahrnehmungsdaten verschiedener Modalitäten, berechnet Objectron orientierte 3D-Bounding-Boxen von Objekten in Echtzeit auf mobilen Geräten.

Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe 1

Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe 2

AR Synthetische Datenerzeugung

Ein beliebter Ansatz ist die Ergänzung von Daten aus der realen Welt durch synthetische Daten, um die Genauigkeit der Vorhersage zu erhöhen. Versuche führen jedoch oft zu schlechten, unrealistischen Daten oder erfordern im Falle einer fotorealistischen Darstellung einen erheblichen Aufwand und Rechenaufwand.

Der neuartige Ansatz, der als AR Synthetic Data Generation bezeichnet wird, platziert virtuelle Objekte in Szenen mit AR-Sitzungsdaten, wodurch wir Kamerapositionen, erkannte ebene Oberflächen und geschätzte Beleuchtung nutzen können, um Platzierungen zu generieren, die physikalisch wahrscheinlich sind und mit einer Beleuchtung, die der Szene entspricht.

Dieser Ansatz führt zu hochwertigen synthetischen Daten mit gerenderten Objekten, die die Szenengeometrie respektieren und nahtlos in reale Hintergründe passen. Durch die Kombination von Daten aus der realen Welt und synthetischen AR-Daten können wir die Genauigkeit um etwa 10 % erhöhen.

Eine ML-Pipeline für die 3D-Objekterkennung

Google hat ein einstufiges Modell aufgebaut, um die Pose und die physikalische Größe eines Objekts aus einem einzigen RGB-Bild vorherzusagen. Das Modell-Backbone hat eine Encoder-Decoder-Architektur, die auf MobileNetv2 aufbaut. Google verwendet einen Multi-Task-Learning-Ansatz, bei dem sie gemeinsam die Form eines Objekts mit Erkennung und Regression vorhersagen. Die Shape-Task prognostiziert die Formsignale des Objekts in Abhängigkeit davon, welche Ground-Truth-Annotation verfügbar ist, z.B. Segmentierung. Dies ist optional, wenn keine Shape-Annotation in den Trainingsdaten vorhanden ist.

Objectron-Datensatz

Nun stellt Google den Objectron-Datensatz anderen Forschern kostenlos zur Verfügung.

Der Objectron-Datensatz ist eine Sammlung kurzer, objektorientierter Videoclips, die von AR-Sitzungsmetadaten begleitet werden, zu denen Kamerapositionen, spärliche Punktwolken und die Charakterisierung der planaren Oberflächen in der Umgebung gehören.

In jedem Video bewegt sich die Kamera um das Objekt herum und fängt es aus verschiedenen Winkeln ein. Die Daten enthalten auch manuell kommentierte 3D-Bounding-Boxen für jedes Objekt, die die Position, Orientierung und Abmessungen des Objekts beschreiben.

Der Datensatz besteht aus 15K annotierten Videoclips, ergänzt durch über 4M annotierte Bilder in den folgenden Kategorien: Fahrräder, Bücher, Flaschen, Kameras, Schachteln, Stühle, Tassen, Laptops und Schuhe.

Um die Geodiversität zu gewährleisten, wird der Datensatz darüber hinaus in 10 Ländern auf fünf Kontinenten gesammelt. Zusammen mit dem Datensatz steht auch eine 3D-Objekterkennungslösung für vier Objektkategorien – Schuhe, Stühle, Tassen und Kameras – zur Verfügung.

Diese Modelle werden anhand dieses Datensatzes trainiert und in MediaPipe veröffentlicht, Googles Open-Source-Framework für plattformübergreifende, anpassbare ML-Lösungen für Live- und Streaming-Medien.

Tutorials

Links

https://mediapipe.dev/

https://github.com/google/mediapipe

Objectron Dataset

https://github.com/google-research-datasets/Objectron/

Deep Learning Künstliche Intelligenz Machine Learning

Hallo > Blog > Software > Open Source > MediaPipe > Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe

Gefällt Ihnen dieser Beitrag? Teilen Sie ihn mit anderen. Sie machen uns damit eine große Freude!

Wie können wir Ihnen helfen?

Wir unterstützen Sie bei der Umsetzung Ihres Augmented Reality (AR) oder Virtual Reality (VR) Projektes! Ob Produktfotografie, 3D-Scan-Service, 3D-Visualisierung oder fertige 3D-Modelle für AR/VR – wir beraten Sie persönlich und unverbindlich.

Wenn Sie ein individuelles Angebot auf Basis Ihrer aktuellen Vorlagen (Fotos, Zeichnungen, Skizzen) wünschen, nutzen Sie einfach unser Anfrageformular.

3D-Modelle für Metaverse und Echtzeit-Anwendungen: VR, AR und mehr

Als Atelier für Metaverse Inhalte und interaktive Markenerlebnisse bieten wir Ihnen eine breite Palette an 3D-Modellen, die sich perfekt für Echtzeitanwendungen eignen. Ob Sie in eine virtuelle Welt eintauchen wollen (Virtual Reality, VR), virtuelle Objekte in die reale Welt einblenden wollen (Augmented Reality, AR) oder beides kombinieren wollen (Mixed Reality, MR) – unsere Modelle sind für alle Formen von Extended Reality (XR) optimiert. Dank unserer Expertise können Sie wertvolle Entwicklungszeit und -kosten sparen. Nutzen Sie unsere 3D-Modelle als Prototypen für Ihre XR-Erfahrungen oder integrieren Sie sie in Ihr fertiges Projekt. Wir stehen Ihnen gerne mit Rat und Tat zur Seite und sorgen dafür, dass Ihre Markenerlebnisse einzigartig und unvergesslich werden.

3D-Visualisierung
3D-Scan – Dienstleistung

Angebot anfordern