Tiefenwahrnehmung bei Drohnenaufnahmen durch neue JKU Technologie
Die visuelle Tiefenwahrnehmung des Menschen, also die Möglichkeit, Objekte in unterschiedlichen Entfernungen wahrzunehmen, basiert im Wesentlichen auf der Tatsache, dass unsere Augen perspektivisch leicht unterschiedliche Bilder sehen. Dieser stereoskopische Effekt wird auch in 3D-Kinos genutzt, um Filme plastisch wirken zu lassen. Aber nicht nur Human Vision nutzt diesen Effekt, sondern auch Computer Vision. Das heißt, der Computer verarbeitet stereoskopische oder auch multiskopische (mehr als zwei) Bildaufnahmen aus unterschiedlichen Perspektiven, um daraus Tiefeninformationen der aufgenommenen Szene zu errechnen.
Für Mensch und Computer klappt die stereoskopische Tiefenwahrnehmung allerdings nicht, wenn die beobachtete Szene teilweise verdeckt ist. Findet unser Gehirn oder der Computer in beiden Bildern nicht mehr genügend Übereinstimmungen, sind beide nicht in der Lage, die Tiefe abzuschätzen.
Human Vision und Computer Vision ergänzen sich
Eine gemeinsame Studie zwischen dem Institut für Computer Grafik der JKU (Leitung: Univ.-Prof. Dr. Oliver Bimber) und der Cambridge University hat nun untersucht, ob und unter welchen Bedingungen stereoskopische Tiefenwahrnehmungen von stark verdeckten Szenen möglich sind. Das Ergebnis überrascht: Mit heutigen, rein computerbasierten Ansätzen gar nicht - durch die Synergie zwischen Computer Vision und menschlicher visueller Wahrnehmung allerdings ist es durchaus möglich.
Die Forscher*innen untersuchten dabei stereoskopische Wärmebildaufnahmen, die Drohnen über dicht bewaldetem Gebiet aufgenommen haben. Ziel war es, verdeckte Personen, die sich im Wald befinden, zu finden und deren Größe abzuschätzen. Es stellte sich heraus, dass state-of-the-art 3D Computer-Rekonstruktionsverfahren hier zu 100% versagten. Menschliche Proband*innen, die im Rahmen einer groß angelegten Benutzer*innenstudie diese Bilddaten mittels 3D-Brillen betrachteten, hatten zunächst auch nicht mehr Erfolg.
Dann kam die Neuerung an die Reihe: Verrechnet man vorab die Bilddaten mit einem an der JKU entwickelten Bildgebungsverfahren - Airborne Optical Sectioning (AOS) - um Verdeckungen, die durch die Vegetation entstehen, visuell zu reduzieren, dann wurde die Detektion und Tiefenabschätzung für Menschen sehr gut möglich, während die rein computergestützten Verfahren immer noch keine Ergebnisse liefern konnten.
"Die Studie zeigt, dass der Mensch beim Lösen schwieriger Probleme nicht immer ganz durch den Computer ersetzt werden kann - auch nicht im Zeitalter der Künstlichen Intelligenz. Die Synergien beider bieten oft Möglichkeiten, die von einer Seite alleine aus nicht erreicht werden können", so Univ.-Prof. Bimber.
Die in der Studie erlangten Ergebnisse können nun praktisch genutzt werden. Drohnen werden heute zur Personensuche, Waldbrandbekämpfung, Wildbeobachtung und vielem mehr eingesetzt. Tiefenwahrnehmung wird in den angezeigten 2D-Bildern allerdings nicht unterstützt - sie wäre aber für die Interpretation der betrachteten Szene von Vorteil.
Die sogenannte first-person-view (FPV) Option, die einige Drohnen heute bereits bieten, ermöglicht dabei die Echtzeitübertragung der aufgezeichneten Videodaten auf einer von den Pilot*innen getragenen Videobrille. Damit erhalten Pilot*innen die direkte Sicht der Drohne - allerdings immer noch zweidimensional, da handelsübliche Drohnen keine stereoskopischen Kameras nutzen.
Praktische Einsatzmöglichkeit
Das neue AOS Verfahren überträgt nun in Echtzeit stereoskopische Bilddaten, in denen die Verdeckung der Vegetation weggerechnet wurde, die dann auf einer 3D-Videobrille während des Flugs angezeigt werden. Das funktioniert selbst mit handelsüblichen Drohnen, die nur über einfache Kameras und keine stereoskopischen Kameras verfügen. Die für die 3D-Wahrnehmung benötigten perspektivischen Bilder berechnet AOS dann über die Einzelaufnahmen, die über die zurückgelegte Flugstrecke aufgezeichnet wurden.
Weit entfernte Objekte, deren Distanz ein Mensch mit seinem geringen Augenabstand von ein paar wenigen Zentimetern nicht mehr erkennen kann, können hier auch durch digitale Skalierung (also einer Simulation von Augenabständen von mehreren Metern) unterschieden werden. Mit diesem System ist es nun möglich, live aufgenommene Drohnenaufnahmen umgehend und dreidimensional in ihrer gesamten Tiefe und in verschiedenen Wellenlängen des Lichtes (z.B. der sichtbare Bereich regulärer Farbkameras, oder der Infrarotbereich von Wärmebildkameras) zu sehen und wahrzunehmen - selbst bei starken Verdeckungen durch Vegetation, und selbst bei weiter Entfernung.
Die Ergebnisse der Studie werden nun im renommierten Fachjournal Nature Scientific Reports veröffentlicht. Die Vorveröffentlichung ist bereits jetzt erhältlich: https://arxiv.org/abs/2310.16120
Weitere Informationen: https://github.com/JKU-ICG/AOS/
Kontakt: Univ.-Prof. Dr. Oliver Bimber Institute of Computer Graphics Tel.: 0732 2468 6631 Mail: oliver.bimber@jku.at Mag. Christian Savoy PR-Manager Universitätskommunikation T +43 732 2468 3012 christian.savoy@jku.at