Das Leben im öffentlichen Raum

Hat der Virus unser Sozialverhalten verändert? Disclaimer: Work In Progress

Diese Frage hat mein Interesse für Webcambilder geweckt, woraufhin ich mit dieser Analyse angefangen habe. Eine interessante Variable des Sozialverhaltens ist die Intimdistanz. Diese kann durch eine quantitative Untersuchung der Distanzen zwischen Menschen einer Gruppe beziffert werden. Um diese Verhaltensänderung zu finden, müssen wir erst einmal unsere Daten gut verstehen.

0:00
/

Als Datenquelle hat sich mit freundlicher Erlaubnis der NZZ deren Sicht auf den Sechseläutenplatz in Zürich als interessant erwiesen:

- Bildqualität:
   - Auflösung von 15707 × 2048 Pixel
   - Detailreiches jpg mit 5.8Mb Größe
- Zeitliche Auflösung:
   - letzten 5 Jahre mit einem Bild pro Tag zur Mittagszeit
   - letzten 2 Jahre mit einem Bild alle 10 Minuten
- hohe Positionierung der Kamera:
   - unverdeckte und vollständige Übersicht des Platzes
   - geringer Größenkontrast
- Datenschutz:
   - Personen anonym durch geringen Abbildungsgröße

Eine hervorragende Sicht auf den Sechseläutenplatz 

Damit sind die Voraussetzungen erfüllt das Leben diesen Platzes genauer zu untersuchen. Schon ein visueller Check zeigt in den Dynamiken wiederkehrende Muster durch Jahreszeiten, alltäglichen Nutzung und Veranstaltungen wie Zirkus, Streetparade und Weihnachtsmarkt. Als Data Scientist möchte ich solche Muster anhand von messbaren Faktoren beschreiben, welche durch statistischen Methoden erhoben werden. Dieser Prozess komplexe und unüberschaubare "rohe" Daten mit Komponenten zu erklären nennt sich Feature-Engineering oder Feature-Extraction. Die stärke des Feature Engineerings zeigt sich besonders stark in diesem ersten Fall, der Bildanalyse.

Von Pixeln zum Inhalt: Image Segmentation

Die Rohdaten unsere Analyse sind 2 Billion Zahlen/Pixel, die die Farben Rot, Gelb und Blau in 2000 Bildern beschreiben. Ein Mensch ist mit seiner visuelle Wahrnehmung extrem gut Muster und inhaltlich zusammenhängenden Regionen in Bildern zu erkennen. Diese Klassifizierung von Objekten ist für einen Computer eine komplexe Aufgabe, da klassische Algorithmen die unzähligen Variationen einer zweidimensionalen Abbildungen aus der dreidimensionalen Welt nicht erkennen. Daher ist der nächste Schritt mit Methoden der Künstliche-Intelligenz eine so genannte Segmentierung des Bildes durchzuführen, bei dem Regionen des Bildes einer inhaltlich sinnvollen Sache zugeordnet werden.

Umgesetzt wurde diese Idee mit Detectron2, einer von Facebook AI Research entwickelte Open Source Software. Die Wahl ist auf diesen modernste Erkennungs- und Segmentierungsalgorithmen gefallen, da er fertige Modelle zur Verfügung stellt mit denen das rechenintensive Trainingsprozess entfällt.

0:00
/
Hier ein Beispiel, bei dem die Segmente mit Personen dargestellt wurden

Trotz der guten Ergebnisse mit den bereits trainierten Modell wäre es sinnvoll in einem weiteren Schritt das neuronale Netzwerk nachträglich weiter zu trainieren. Dabei wird das Modell für unsere Bilder optimiert. Dies würde die Erkennung von Personen in schwierigeren Situationen erhöhen. Dazu zähle beispielsweise, wie im Video zu erkennen, im Schatten sitzende Personen.

Verräumlichung

Nachdem erfolgreichen Segmentieren von Personen aus einem Bild können wir nun die Distanz zwischen Personen anhand von Pixeln im Bild beschreiben. Für eine Distanz in Metern müssen wir die relativen Positionen im Bild in absolute Positionen in der Welt übertragen. Dafür wird die Homographie-Transformation genutzt, die eine Fläche eines Bildes übersetzen kann. Dabei gehen wir davon aus, dass die Oberfläche des öffentlichen Platzes keine Wölbung hat sondern eine Ebene darstellt.

Beispiel für Homographie bei Fernsehübertragungen

Homographie ist mathematisch korrekt gelöst, wenn die Abbildungseigenschaften der Kamera bekannt sind. Diese Eigenschaften können mit einer Referenzaufnahme eines Schachbrettmuster bestimmt werden. Bekannt ist diese Technologie bei der Übertragung von Sportevents. Beispielsweise kann beim Skispringen die Landungspunkt als virtuelle Linie, die Flagge des Schwimmers auf die Oberfläche der Schwimmbahn oder ein 5 m Radius um einen Fußballspieler auf den Rasen virtuell projiziert werden. Dabei wird ein Punkt auf einer Fläche von kartesischen Koordinaten (x,y in Metern der realen Welt) einem Pixel (x_i, y_i) zugeordnet. Diese Umrechnung geschieht über eine Matrixmultiplikation und lässt sich dadurch für unseren Fall umgekehrt nutzen: Wir haben einen Punkt als Pixel(x_i, y_i) im Bild und möchten herausgezoomt als Sicht aus dem Weltall (kartesisch) diesem Punkt eine Koordinate auf der Erde zuordnen.

Ein weiteres Beispiel für eine projektive Transformation oder Homographie link

Da es in diesem Fall weder möglich war die Optik der Kamera zu kennen noch ein Referenzaufnahme zu erstellen, musste mit Referenzpunkten gearbeitet werden. In den nächsten beiden Bildern sind Punkte eingezeichnet, die selbe Position darstellen. Einmal im Bild der Webcam und einmal auf der Karte. Dabei wurden eindeutige Punkte wie Bäume, Laternen und Hausecken gewählt, die sowohl in dem Bild als auch auf der Karte zu finden sind.

Sich der Webcam auf den Sechseläutenplatz mit Referenzpunkten
Darstellung der Referenzpunkte (nicht komplett übereinstimmend mit Bild) und der Kameraposition. Auf das eingefärbte quadrat gehen wir später ein

Die dargestellte Punkte wurden genutzt um die homographische Transformation zu kalibrieren: H((px,py))-->(lat, lng). Wie bereits erwähnt funktioniert Homographie nur für flache Ebenen. Nicht flache Gegenstände mit einer Höhe werden dabei verzerrt. Zur Veranschaulichung wurde die Kamerasicht im folgenden Bild so transformiert, dass sie auf eine Karte gelegt werden könnte. Nun können Distanzen im Bild direkt zu Distanzen in der Wirklichkeit umgerechnet werden.

projektive Transformation der Kamerasicht

Dynamikvergleich mit Bevölkerungsdichte

Um die Ergebnisse zu verifizieren wurden nicht nur Personen in einzelnen Bildern nachgezählt sondern bereits akkumulierte Daten verglichen. Dafür eignet sich die Swisscom Heatmap als Bevölkerungsdichte, da diese eine sehr hohe Dynamik mit stündlicher Auflösung aufweisen.

Das gewählte Hektar repräsentiert nicht die komplette Sicht der Webcam, weshalb die absoluten Werte nicht verglichen werden können. Trotzdem ist die Ähnlichkeit des Verlaufes offensichtlich.

In der Nacht gibt es von der Webcam keine Zahlen, da diese nur bei Tageslicht funktioniert.

Work in process: Wie kann es weiter gehen?

In einem nächsten Schritt wird, basierend auf den absoluten Positionen der Personen, die intime Zone berechnet und über die Zeit analysiert werden. Mit dieser ersten Studie wurde gezeigt, dass Webcambilder herangezogen werden können um Verhalten von Menschen auf öffentlichen Plätzen zu studieren. Dies könnte genutzt werden um öffentliche Räume in der Zukunft besser designen zu können. Bei den Daten vom Sechseläutenplatz haben wir eine zeitliche Auflösung von 10 Minuten. Diese reicht nicht aus um die Laufwege von Menschen zu berechnen. Mit einer höheren zeitlichen Auflösung könnte sogar der Einfluss von Architektur auf die Streckenwahl beim Spaziergang analysiert werden.