Audio aus Video: Gefilmte Topfpflanze verrät Gespräche

Forscher am MIT(öffnet im neuen Fenster) haben Chipstüten, Wassergläser oder Topfpflanzen durch schalldichtes Glas gefilmt, um anschließend mit Hilfe von Algorithmen aus den Vibrationen der Objekte Gespräche zu rekonstruieren. Für ihre Experimente nutzen sie Hochgeschwindigkeitskameras, mit herkömmlichen DSLRs mit 60 fps lässt sich immerhin das Geschlecht der Gesprächspartner ermitteln.

Die Kamera wurde den Forschern zufolge etwa 4,5 Meter von dem zu filmenden Objekt aufgestellt. Die Aufnahmen erfolgten mit 2.000 bis 6.000 Bildern pro Sekunde. Bei einer genauen Rekonstruktion von Audio aus Video muss die Bildfrequenz nach einem Blogeintrag der Universität(öffnet im neuen Fenster) höher sein als die Tonfrequenz.
Dabei nutzen sie die Randpixel zwischen dem Objekt selbst und dem andersfarbigen Hintergrund. Je nach Vibration ändert sich die Sättigung der Farbe etwa eines lila Tons zwischen einem blauen Hintergrund und einem roten Objekt. Sie stützten sich dabei auf vergangene Forschung an Algorithmen, die für das menschliche Auge unsichtbare Teilbereiche von Videoaufnahmen so verstärken, dass sie wahrnehmbar sind. So kann beispielsweise der Puls eines Menschen dargestellt werden, indem sich der Farbton seiner Haut verändert(öffnet im neuen Fenster) .
Gesprächsanalyse bei 60 fps
Aus dieser Technik und einer Reihe anderer Bildfilter entwickelten die MIT-Forscher den Algorithmus, der die Bildfluktuationen an verschiedenen Stellen der aufgenommenen Chipstüte oder Zimmerpflanze verarbeitet und dabei die deutlichsten Stellen analysiert. Sie entwickelten den Algorithmus weiter, damit er auch bei einer konventionellen Bildrate von 60 fps interpretierbare Ergebnisse liefert.
Dabei nutzen sie eine Schwäche herkömmlicher DSLR-Kameras: Die einzelnen Pixel werden reihenweise ausgelesen. Bei sich schnell bewegenden Objekten können bereits dadurch Unterschiede im Video auftauchen, die normalerweise als störende Artefakte im Videomaterial erscheinen. Aus diesen können die Forscher zu einem gewissen Grad hochfrequente Bewegungen herausfiltern. Dadurch lassen sich aus Videoaufnahmen bei herkömmlichen 60 Bildern pro Sekunde immerhin die Anzahl der Gesprächsteilnehmer oder deren Geschlecht bestimmen, wenn auch nicht der genaue Inhalt der Gespräche.
Materialforschung und Patientenüberwachung
Auch wenn ihre Forschung vor allem Geheimdienste interessieren dürfte, heißt es in dem Blogeintrag, dass die Forscher sich einen Einsatz in der Materialforschung vorstellten, bei der Beobachtung von Maschinen oder Patienten im Krankenhaus. Ihre Forschung wollen Frédo Durand und Bill Freeman und ihre Helfer vom MIT auf der Siggraph 2014(öffnet im neuen Fenster) vorstellen, der jährlichen Konferenz zu Computergrafik. Hilfe für ihre Forschung bekamen sie von Adobe und Microsoft.
Für das Aushorchen gibt es ohnehin die Lasermikrofone, die seit Jahren im Einsatz sind. Gegen sie und die vom MIT entwickelte Technik hilft indes nur eines - Vorhänge zuziehen.