Virtual Reality

Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe

Die Objekterkennung ist ein umfassend untersuchtes Problem der Computer-Sicht, aber der Großteil der Forschung hat sich auf 2D konzentriert. Durch die Erweiterung der Vorhersage auf 3D kann man die Größe, Position und Orientierung eines Objekts in der Welt erfassen, was zu einer Vielzahl von Anwendungen in der Robotik, bei selbstfahrenden Fahrzeugen, der Bildgewinnung und der erweiterten Realität führt.

Sie haben es eilig? Dann speichern Sie diesen Blogartikel von R23 als PDF

Brauchen Sie den Inhalt dieses Artikels “Echtzeit-3D-Objekterkennung auf mobilen Geräten mit MediaPipe” schnell und bequem? Dann speichern Sie ihn doch einfach als PDF!

Obwohl die 2D-Objekterkennung relativ ausgereift ist und in der Industrie weit verbreitet ist, stellt die 3D-Objekterkennung ein schwieriges Problem dar.

veröffentlichte im März MediaPipe, eine mobilen Echtzeit-3D-Objekterkennungs-Pipeline für Alltagsgegenstände. Diese Pipeline erkennt Objekte in 2D-Bildern und schätzt ihre Posen und Größen anhand eines ML-Modells (Machine Learning), das auf einem neu erstellten 3D-Datensatz trainiert wurde.

V/AR Modelle bereit für Metaverse

Sparen Sie Entwicklungszeit und -kosten, machen Sie Prototypenerfahrungen oder verwenden Sie unsere 3D-Modelle in Ihrem V/AR Projekt.
Charakterdesign / Maskottchen

Der neue Trend nennt sich VR-Commcere. Mit dem Browser in die erweiterte Realität, ohne App. Wir haben es umgesetzt.

Implementiert in MediaPipe, einem plattformübergreifenden Open-Source-Framework für den Bau von Pipelines zur Verarbeitung von Wahrnehmungsdaten verschiedener Modalitäten, berechnet Objectron orientierte 3D-Bounding-Boxen von Objekten in Echtzeit auf mobilen Geräten.

AR Synthetische Datenerzeugung

Ein beliebter Ansatz ist die Ergänzung von Daten aus der realen Welt durch synthetische Daten, um die Genauigkeit der Vorhersage zu erhöhen. Versuche führen jedoch oft zu schlechten, unrealistischen Daten oder erfordern im Falle einer fotorealistischen Darstellung einen erheblichen Aufwand und Rechenaufwand.

Der neuartige Ansatz, der als AR Synthetic Data Generation bezeichnet wird, platziert virtuelle Objekte in Szenen mit AR-Sitzungsdaten, wodurch wir Kamerapositionen, erkannte ebene Oberflächen und geschätzte Beleuchtung nutzen können, um Platzierungen zu generieren, die physikalisch wahrscheinlich sind und mit einer Beleuchtung, die der Szene entspricht.

Dieser Ansatz führt zu hochwertigen synthetischen Daten mit gerenderten Objekten, die die Szenengeometrie respektieren und nahtlos in reale Hintergründe passen. Durch die Kombination von Daten aus der realen Welt und synthetischen AR-Daten können wir die Genauigkeit um etwa 10 % erhöhen.

Eine ML-Pipeline für die 3D-Objekterkennung

hat ein einstufiges Modell aufgebaut, um die Pose und die physikalische Größe eines Objekts aus einem einzigen RGB-Bild vorherzusagen. Das Modell-Backbone hat eine Encoder-Decoder-Architektur, die auf MobileNetv2 aufbaut. verwendet einen Multi-Task-Learning-Ansatz, bei dem sie gemeinsam die Form eines Objekts mit Erkennung und Regression vorhersagen. Die Shape-Task prognostiziert die Formsignale des Objekts in Abhängigkeit davon, welche Ground-Truth-Annotation verfügbar ist, z.B. Segmentierung. Dies ist optional, wenn keine Shape-Annotation in den Trainingsdaten vorhanden ist.

Objectron-Datensatz

Nun stellt den Objectron-Datensatz anderen Forschern kostenlos zur Verfügung.

Objectron-Datensatz

Der Objectron-Datensatz ist eine Sammlung kurzer, objektorientierter Videoclips, die von AR-Sitzungsmetadaten begleitet werden, zu denen Kamerapositionen, spärliche Punktwolken und die Charakterisierung der planaren Oberflächen in der Umgebung gehören.

In jedem bewegt sich die Kamera um das Objekt herum und fängt es aus verschiedenen Winkeln ein. Die Daten enthalten auch manuell kommentierte 3D-Bounding-Boxen für jedes Objekt, die die Position, Orientierung und Abmessungen des Objekts beschreiben.

Der Datensatz besteht aus 15K annotierten Videoclips, ergänzt durch über 4M annotierte Bilder in den folgenden Kategorien: Fahrräder, Bücher, Flaschen, Kameras, Schachteln, Stühle, Tassen, Laptops und Schuhe.

Um die Geodiversität zu gewährleisten, wird der Datensatz darüber hinaus in 10 Ländern auf fünf Kontinenten gesammelt. Zusammen mit dem Datensatz steht auch eine 3D-Objekterkennungslösung für vier Objektkategorien – Schuhe, Stühle, Tassen und Kameras – zur Verfügung.

Diese Modelle werden anhand dieses Datensatzes trainiert und in MediaPipe veröffentlicht, Googles Open-Source-Framework für plattformübergreifende, anpassbare ML-Lösungen für Live- und Streaming-Medien.

Tutorials

Links

https://mediapipe.dev/

https://github.com/google/mediapipe

Objectron Dataset

https://github.com/google-research-datasets/Objectron/

Gefällt Ihnen dieser Beitrag? Teilen Sie ihn mit anderen. Sie machen uns damit eine große Freude!

Wie können wir Ihnen helfen?

Wir unterstützen Sie bei der Umsetzung Ihres Augmented Reality (AR) oder Virtual Reality (VR) Projektes! Ob Produktfotografie, 3D-Scan-Service, 3D-Visualisierung oder fertige 3D-Modelle für AR/VR – wir beraten Sie persönlich und unverbindlich.

Wenn Sie ein individuelles Angebot auf Basis Ihrer aktuellen Vorlagen (Fotos, Zeichnungen, Skizzen) wünschen, nutzen Sie einfach unser Anfrageformular.


Beitragsautor R23

3D-Modelle für Metaverse und Echtzeit-Anwendungen: VR, AR und mehr

Als Atelier für Metaverse Inhalte und interaktive Markenerlebnisse bieten wir Ihnen eine breite Palette an 3D-Modellen, die sich perfekt für Echtzeitanwendungen eignen. Ob Sie in eine virtuelle Welt eintauchen wollen (Virtual Reality, VR), virtuelle Objekte in die reale Welt einblenden wollen (Augmented Reality, AR) oder beides kombinieren wollen (Mixed Reality, MR) – unsere Modelle sind für alle Formen von Extended Reality (XR) optimiert. Dank unserer Expertise können Sie wertvolle Entwicklungszeit und -kosten sparen. Nutzen Sie unsere 3D-Modelle als Prototypen für Ihre XR-Erfahrungen oder integrieren Sie sie in Ihr fertiges Projekt. Wir stehen Ihnen gerne mit Rat und Tat zur Seite und sorgen dafür, dass Ihre Markenerlebnisse einzigartig und unvergesslich werden.

3D-Visualisierung
3D-Scan – Dienstleistung

Angebot anfordern


Kommentare

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert