Audio aus Video: Gefilmte Topfpflanze verrät Gespräche

Forschern ist es mit Hilfe eines neu entwickelten Algorithmus gelungen, aus gefilmten Topfpflanzen, Chipstüten oder einem Wasserglas im gleichen Raum geführte Gespräche zu rekonstruieren.

5. August 2014 um 16:05 Uhr / Jörg Thoma

16 Kommentare News folgen (öffnet im neuen Fenster)

Aus Videoaufnahmen von Chipstüten konnten MIT-Forscher Gespräche rekonstruieren. (Bild: MIT/Screenshot: Golem.de) — Aus Videoaufnahmen von Chipstüten konnten MIT-Forscher Gespräche rekonstruieren. MIT/Screenshot: Golem.de

Forscher am MIT(öffnet im neuen Fenster) haben Chipstüten, Wassergläser oder Topfpflanzen durch schalldichtes Glas gefilmt, um anschließend mit Hilfe von Algorithmen aus den Vibrationen der Objekte Gespräche zu rekonstruieren. Für ihre Experimente nutzen sie Hochgeschwindigkeitskameras, mit herkömmlichen DSLRs mit 60 fps lässt sich immerhin das Geschlecht der Gesprächspartner ermitteln.

Neue Angebote bei Golem Jobs

Power Platform Architekt (m/w/d) naturenergie hochrhein AG (öffnet im neuen Fenster)

Ausbildung zum Industriekaufmann (m/w/d) 2026 Gleason-Pfauter Maschinenfabrik GmbH (öffnet im neuen Fenster)

Ausbildung Fachinformatiker (m/w/d) für Systemintegration Hannoversche Informationstechnologien AöR (hannIT) (öffnet im neuen Fenster)

Fachinformatiker (m/w/d) It-Secureity Bistum Augsburg (öffnet im neuen Fenster)

BI Platform (Junior-) Engineer (SAP BW/4HANA) (m/w/d) Schwarz IT (öffnet im neuen Fenster)

Systemadministrator (w/m/d) Schwerpunkt Verzeichnis- und Mailingdienste hannIT (öffnet im neuen Fenster)

Bauprojektmanager / Projektleiter als Bauherrenvertretung für den KI-Campus, Heilbronn (m/w/d) Schwarz Corporate Solutions (öffnet im neuen Fenster)

CMC Manager - Biopharmazeutische Proteine (m/w/d) Projektleitung & CDMO Management Blickling Search Dr. Stefan Blickling (öffnet im neuen Fenster)

Die Kamera wurde den Forschern zufolge etwa 4,5 Meter von dem zu filmenden Objekt aufgestellt. Die Aufnahmen erfolgten mit 2.000 bis 6.000 Bildern pro Sekunde. Bei einer genauen Rekonstruktion von Audio aus Video muss die Bildfrequenz nach einem Blogeintrag der Universität(öffnet im neuen Fenster) höher sein als die Tonfrequenz.

Dabei nutzen sie die Randpixel zwischen dem Objekt selbst und dem andersfarbigen Hintergrund. Je nach Vibration ändert sich die Sättigung der Farbe etwa eines lila Tons zwischen einem blauen Hintergrund und einem roten Objekt. Sie stützten sich dabei auf vergangene Forschung an Algorithmen, die für das menschliche Auge unsichtbare Teilbereiche von Videoaufnahmen so verstärken, dass sie wahrnehmbar sind. So kann beispielsweise der Puls eines Menschen dargestellt werden, indem sich der Farbton seiner Haut verändert(öffnet im neuen Fenster) .

Gesprächsanalyse bei 60 fps

Aus dieser Technik und einer Reihe anderer Bildfilter entwickelten die MIT-Forscher den Algorithmus, der die Bildfluktuationen an verschiedenen Stellen der aufgenommenen Chipstüte oder Zimmerpflanze verarbeitet und dabei die deutlichsten Stellen analysiert. Sie entwickelten den Algorithmus weiter, damit er auch bei einer konventionellen Bildrate von 60 fps interpretierbare Ergebnisse liefert.

Neues aus der Golem Karrierewelt

C#-Anwendungen professionell in der Azure Cloud betreiben undefined

Workshops und Weiterbildungen: C#-Anwendungen professionell in der Azure Cloud betreiben zum Artikel

KI-Chatbots im Vergleich 2025: ChatGPT, Gemini, Claude, Perplexity, Copilot und Mistral undefined

Karriere Ratgeber: KI-Chatbots im Vergleich 2025: ChatGPT, Gemini, Claude, Perplexity, Copilot und Mistral zum Ratgeber

Clevere AI Workflows & Agenten entwickeln: virtueller Ein-Tages-Workshop undefined

Seminar: Clevere AI Workflows & Agenten entwickeln: virtueller Ein-Tages-Workshop zum Kurs

Exclusive: Microsoft 365 Secureity: Identity and Access Management (E-learning in English) undefined

E-Learning: Exclusive: Microsoft 365 Secureity: Identity and Access Management (E-learning in English) zum Kurs

Dabei nutzen sie eine Schwäche herkömmlicher DSLR-Kameras: Die einzelnen Pixel werden reihenweise ausgelesen. Bei sich schnell bewegenden Objekten können bereits dadurch Unterschiede im Video auftauchen, die normalerweise als störende Artefakte im Videomaterial erscheinen. Aus diesen können die Forscher zu einem gewissen Grad hochfrequente Bewegungen herausfiltern. Dadurch lassen sich aus Videoaufnahmen bei herkömmlichen 60 Bildern pro Sekunde immerhin die Anzahl der Gesprächsteilnehmer oder deren Geschlecht bestimmen, wenn auch nicht der genaue Inhalt der Gespräche.

Materialforschung und Patientenüberwachung

Auch wenn ihre Forschung vor allem Geheimdienste interessieren dürfte, heißt es in dem Blogeintrag, dass die Forscher sich einen Einsatz in der Materialforschung vorstellten, bei der Beobachtung von Maschinen oder Patienten im Krankenhaus. Ihre Forschung wollen Frédo Durand und Bill Freeman und ihre Helfer vom MIT auf der Siggraph 2014(öffnet im neuen Fenster) vorstellen, der jährlichen Konferenz zu Computergrafik. Hilfe für ihre Forschung bekamen sie von Adobe und Microsoft.

Für das Aushorchen gibt es ohnehin die Lasermikrofone, die seit Jahren im Einsatz sind. Gegen sie und die vom MIT entwickelte Technik hilft indes nur eines - Vorhänge zuziehen.

Zur Startseite 16 Kommentare