Whisper lokal auf dem Mini-PC: Wie man Home Assistant ohne Cloud zum Sprechen bringt — und warum die Latenz auf der CPU schon erträglich ist

Bevor Markus den Schritt gewagt hat, hatte er drei Echo Dots im Haus, einen davon im Schlafzimmer auf dem Nachttisch, und seit ungefähr einem Jahr das Gefühl, dass sein eigenes Wohnzimmer ihm nicht mehr ganz gehört. Markus wohnt in Halle an der Saale, ist 41, arbeitet als Backend-Entwickler bei einem mittelständischen Logistikunternehmen, und das Gefühl, dass irgendwo in einem Rechenzentrum in den USA jeder seiner Kommandos — „Alexa, schalte das Licht im Esszimmer aus" — protokolliert, transkribiert und mit seinem Konto verknüpft wurde, hat ihn nicht mehr losgelassen. Im Februar 2026 hat er sich nach einer langen Recherche dazu entschieden, die drei Echos auf den Dachboden zu tragen und sein gesamtes Smart Home auf eine Spracherkennung umzustellen, die ausschließlich lokal in seiner eigenen Wohnung läuft.

Die Hardware: ein Beelink Mini-S12 Pro mit Intel N100, 16 GB RAM, 500 GB NVMe, etwa 240 Euro damals. Die Software: Home Assistant OS, Whisper.cpp als Spracherkennungs-Modul über das Wyoming-Protokoll eingebunden, Piper als Sprachausgabe, ein ESPHome-basierter Voice-Satellit für 30 Euro Materialwert auf dem Couchtisch. Markus hat dafür drei Wochenenden gebraucht, davon zwei vollständig — beim ersten Wochenende ist er an den Whisper-Modellen gescheitert, weil er das Modell „large-v3" gewählt hat, das auf der N100-CPU pro Satz fünf Sekunden brauchte, was in der Wahrnehmung einer Sprachsteuerung unbenutzbar ist.

Heute, drei Monate später, sagt Markus: „Es ist messbar langsamer als Alexa. Aber es ist messbar — also so, dass ich es zähle, nicht so, dass es mich nervt." Das ist die Art von Aussage, die ich bei Sprachsteuerung von der lokalen Variante höre. Es ist nicht so schnell. Aber es ist mein.

Was Whisper.cpp ist und warum es lokal läuft

Whisper ist ein Spracherkennungsmodell, das OpenAI 2022 veröffentlicht hat — kostenlos, mit MIT-Lizenz, und mit einer für die Zeit ungewöhnlichen Mehrsprachigkeit. Es kann Englisch ebenso wie Deutsch, Französisch, Polnisch, Mandarin und insgesamt 99 Sprachen erkennen. [^1] Whisper.cpp ist eine C++-Re-Implementierung von Georgi Gerganov — derselbe Entwickler, der mit llama.cpp den Standard für lokale Sprachmodelle gesetzt hat — und sie ist deutlich schlanker und schneller als das ursprüngliche Python-Whisper. Sie läuft auf der CPU, optional mit GPU-Beschleunigung über Vulkan oder CUDA, und sie ist klein genug, dass sie auf Smartphones, Single-Board-Computern und in Container-Setups auf Mini-PCs problemlos läuft.

Whisper kennt verschiedene Modellgrößen: tiny, base, small, medium, large-v3. Sie unterscheiden sich in der Genauigkeit der Erkennung und in der Geschwindigkeit. Auf einem N100-Mini-PC mit aktueller Whisper.cpp-Version (ab 1.7) sind die Latenzen für deutsche Sprache bei einem typischen Sprachbefehl von etwa zwei Sekunden Dauer ungefähr: [^2]

Modell	Größe	Latenz N100	Erkennungsqualität DE
tiny	75 MB	0,3 s	mäßig — Eigennamen, Zahlen oft falsch
base	142 MB	0,5 s	brauchbar für Standard-Smart-Home-Befehle
small	466 MB	1,2 s	gut — auch Variationen werden erkannt
medium	1,5 GB	3,8 s	sehr gut — Standardempfehlung wäre, wenn Latenz egal
large-v3	2,9 GB	~9 s	hervorragend, aber unbenutzbar als Voice Assistant

Für einen Voice Assistant, der wie Alexa reagieren soll, ist alles über zwei Sekunden Latenz nicht praxistauglich. Damit fällt medium und alles darüber raus, sofern man auf der CPU bleibt. Die richtige Wahl auf einem N100 ist „base" oder „small", abhängig davon, wie viele Sprachen man parallel braucht und wie sauber das eigene Mikrofon ist.

Wer Mehrleistung will, kann eine schnellere CPU einsetzen. Auf einem Beelink SER8 mit Ryzen 7 8845HS bleibt das medium-Modell unter zwei Sekunden Latenz, und auf einem Mini-PC mit eGPU oder einer kleinen Nvidia-Karte (RTX 3050, 8 GB) liefert auch large-v3 unter einer Sekunde — bei höherem Stromverbrauch. Der Beelink SER8 zieht im Idle etwa 12 Watt, unter Whisper-Last 30 bis 40 Watt. Das ist immer noch deutlich unter einem voll ausgelasteten Desktop-PC.

Wie Home Assistant das Ganze versteht: das Wyoming-Protokoll

Home Assistant hat 2023 eine neue Sprach-Architektur eingeführt, die unter dem Namen „Year of the Voice" lief und darauf abzielte, Spracherkennung und -ausgabe modular zu gestalten. [^3] Der Kern ist das Wyoming-Protokoll: Eine schlanke TCP-basierte Spezifikation, mit der unterschiedliche Bausteine — Wake-Word-Detektion, Spracherkennung (STT), Sprachausgabe (TTS), Voice-Satelliten — miteinander reden.

Wyoming ist bewusst einfach gehalten. Ein Voice-Satellit (ein ESP32-Mikrofon, ein Raspberry Pi mit USB-Mikro, ein altes Smartphone mit der Home-Assistant-Voice-App) nimmt das Audio auf, streamt es als JSON-Lines plus binäre Audio-Frames an einen Wyoming-Server. Der Wyoming-Server — das kann Whisper.cpp sein, kann aber auch eine andere STT-Implementierung sein — gibt den erkannten Text zurück. Der Text geht an Home Assistant Assist, das die Intention extrahiert und einen Service-Call ausführt: Lampe schalten, Rollladen fahren, Sensor abfragen. Die Antwort läuft denselben Weg zurück: Text an Piper für die Sprachausgabe, Audio zurück an den Voice-Satelliten.

Der entscheidende Punkt ist: Diese gesamte Kette läuft im lokalen Netz. Es gibt keine Cloud-Verbindung, keinen Round-Trip nach Frankfurt oder Virginia, keine Sprachprobe in einer fremden Datenbank. Das ist nicht nur datenschutzrechtlich relevant — die DSGVO ist in den letzten Jahren zunehmend skeptisch gegenüber „dauerhaft mithörenden Geräten" geworden — sondern auch funktional: Wenn das Internet ausfällt, funktioniert das Smart Home weiter.

Die Installation ist im Vergleich zu früheren Home-Assistant-Voice-Setups erstaunlich glatt geworden. Wer Home Assistant OS auf einem Mini-PC laufen hat, klickt im Add-on-Store auf „Whisper", wählt das gewünschte Modell aus (Empfehlung für die meisten N100-Setups: small) und auf Sprache „de", lässt das Add-on das Modell herunterladen — die kleinen Modelle sind in 30 Sekunden geladen, das medium-Modell braucht je nach Internet zwei bis fünf Minuten — und bindet das Add-on dann unter „Sprachassistenten" als Spracherkennung ein. Piper als TTS-Engine läuft analog. Beides zusammen: 15 Minuten Setup-Zeit, vorausgesetzt, das System ist schon eingerichtet.

Was die lokale Variante besser macht — und was schlechter

Die ehrliche Bilanz nach drei Monaten Markus-Praxis und nach den Tests, die in der Community-Doku für N100, Mini-Beelink und Ryzen-Hardware dokumentiert sind: [^4]

Datenschutz: Klarer Vorteil lokal. Keine Sprachsamples bei Amazon, Google, Apple. Kein Mithören im Hintergrund. Wer auch das Wake-Word lokal will (über openWakeWord oder microWakeWord auf einem ESPHome-Satelliten), hat eine wirklich abgeschlossene Kette ohne externes Mithören. Reaktionszeit: Cloud schneller. Alexa und Google Assistant antworten in 0,3 bis 0,8 Sekunden. Lokal mit Whisper small auf N100: 1,5 bis 2,5 Sekunden. Auf besserer Hardware (Ryzen 8845HS oder kleine Nvidia-Karte): 0,8 bis 1,5 Sekunden. Der Unterschied ist spürbar, aber nicht unbenutzbar. Die Community-Tests zeigen, dass mit „medium" auf moderner Mini-PC-Hardware Cloud-Latenzen erreichbar sind. Erkennungsrate: Hier hat sich in den letzten zwei Jahren viel getan. Whisper small erkennt deutsche Standardsätze inzwischen besser als Alexa — sofern das Mikrofon ordentlich ist. Bei lauten Räumen, mehreren Sprechern oder Dialekten verliert lokal noch leicht. Der einfache Trick, der hier hilft: ein Voice-Satellit mit Beamforming-Mikrofon (z. B. ein Respeaker 4-Mic-Array) statt eines Single-Mikrofons. Stromverbrauch: Cloud-Geräte ziehen 2 bis 5 Watt im Standby, Mini-PC zieht 8 bis 20 Watt 24/7. Differenz pro Jahr: etwa 50 bis 130 kWh, bei 35 Cent pro kWh also 17 bis 45 Euro. Das ist messbar, aber kein Knockout-Argument. Anschaffungskosten: Die N100-basierte Variante kostet 240 bis 350 Euro für den Mini-PC plus 30 bis 80 Euro für einen Voice-Satelliten. Drei Echo Dots der vierten Generation kosten zusammen 150 Euro. Die Lokal-Variante ist initial teurer, aber sie macht eben gleichzeitig mit Home Assistant das ganze Smart Home, also Lampensteuerung, Sensoren, Heizung, was auch immer. Wer ohnehin Home Assistant betreibt, hat den Mini-PC schon stehen. Zukunftssicherheit: Cloud-Geräte sind nur so lange nutzbar, wie der Anbieter will. Amazon hat im April 2025 angekündigt, dass alle Sprachbefehle ab Frühjahr 2026 ausschließlich in der Cloud verarbeitet werden — der lokale Modus auf Echo-Geräten der vierten Generation und älter ist dann tot. [^5] Wer eine echte Lokal-Lösung will, hat auf Echo-Hardware aktuell keine Wahl mehr, sondern muss aussteigen.

Was praktisch zu tun ist

Wer einsteigen will, braucht: einen Mini-PC mit mindestens 8 GB RAM (16 GB sind komfortabler), Home Assistant OS oder Home Assistant Supervised, einen Voice-Satelliten (entweder selbst gebaut mit ESPHome auf einem ESP32-S3-Box-3 für unter 80 Euro, oder fertig gekauft von Home Assistant Voice PE für 60 Euro) und Geduld für die ersten Wochen. Die Erkennungsrate steigt, sobald der eigene Wortschatz oft genug durchgelaufen ist, und die Wake-Word-Erkennung muss man eventuell auf das eigene Sprechen kalibrieren. Es ist kein Aus-der-Schachtel-Erlebnis wie bei Alexa.

Wer schon Home Assistant betreibt, ist in zwei Stunden fertig: Whisper-Add-on installieren, Piper-Add-on installieren, beide als Sprach-Pipeline in Assist konfigurieren, Voice-Satellit ins Netz hängen, ausprobieren. Die ersten Befehle wirken hölzern. Nach einer Woche merkt man, dass das Gefühl der Datenautonomie tatsächlich etwas wert ist — auch dann, wenn Alexa zwei Sekunden schneller war.

Markus hat seine drei Echo Dots auf dem Dachboden in einer Kiste, weil er sie nicht wegwerfen will, aber auch nicht mehr ans Netz hängt. Sein Voice-Satellit auf dem Couchtisch ist ein Eigenbau, ein 3D-gedrucktes Gehäuse, ein ESP32-S3-Box-3, ein Mikrofonarray. Er hat ihm den Namen „Saale" gegeben, weil sein Wake-Word „Hey Saale" lautet. Das hat er sich selbst eingerichtet. Die Cloud-Anbieter konnten das nicht.

[^1]: Radford et al.: „Robust Speech Recognition via Large-Scale Weak Supervision". OpenAI Technical Report, September 2022. arXiv:2212.04356.

[^2]: Whisper.cpp Benchmark-Tabelle aus dem Repository ggerganov/whisper.cpp, Stand März 2026. Plus eigene Messungen aus der Home-Assistant-Community-Diskussion „Whisper Add-on Performance Benchmarks", community.home-assistant.io, Threads von 2025–2026.

[^3]: Home Assistant Blog: „Year of the Voice — Chapter 4: Wake words". Veröffentlicht 27. Oktober 2023, mit Folge-Artikeln 2024 und 2025 zur Wyoming-Spezifikation.

[^4]: Stochastic Sandbox / Mayhemcode: Praxisreports „Voice Assistant lokal mit N100", veröffentlicht in den Heise-Foren und auf Nerdiy.de, 2025–2026. Plus Erfahrungsberichte auf reddit.com/r/homeassistant zum Wyoming-Protokoll.

[^5]: Amazon Hilfe: „Änderungen an der Verarbeitung von Sprachbefehlen auf Echo-Geräten". Mitteilung vom April 2025, gültig ab Frühjahr 2026. Online: amazon.de/gp/help.