Familie Becker aus Stadtbergen, sie Erzieherin, er Verwaltungsangestellter, zwei Kinder im Grundschulalter, hat drei Amazon Echo Dots im Haus. Küche, Wohnzimmer, Kinderzimmer. Prime-Day-Schnäppchen, je dreiundzwanzig Euro, drei Jahre lang zufrieden. Lichter an, Wetter, Kinderlieder, Eieruhr.

Im Februar hat es angefangen zu nerven. Die Kleine, neun, fragt morgens nach dem Wetter, Alexa antwortet seit Wochen erstmal mit Disney-Plus-Werbung. Der Große, elf, will einen Timer, Alexa lobt erst seine Kochkünste und bietet dann ein Audible-Hörbuch über gesunde Ernährung an. Frau Becker hat es im März endgültig gereicht, als ihre Tochter im Auto fragte, was Vegan heißt, und eine drei Minuten lange Werbung für eine vegane Kochbox lief.

Ihr Mann kennt Home Assistant aus dem Heizungs-Setup, das ich ihm letztes Jahr eingerichtet habe. Anfang Mai hat er mich angerufen: gibt es eine Möglichkeit, die Echo Dots zu ersetzen, ohne dass die Kinder den Unterschied merken. Ich habe ihm die Home Assistant Voice Preview Edition empfohlen. Drei Stück, je rund sechzig Euro, lokal, kein Cloud-Konto, keine Werbung. Wir haben sie zwei Wochen später eingerichtet. Was funktioniert, was hakt, und ob das für eine Familie wie die Beckers wirklich ein Alexa-Ersatz ist, das ist der Praxisbericht.

Was die Voice Preview Edition eigentlich ist

Die Voice Preview Edition ist Hardware von Nabu Casa, der Firma hinter Home Assistant. Sie wurde im Dezember 2024 für 59 US-Dollar gestartet und kostet in Deutschland je nach Händler rund 70 Euro. Das "Preview" im Namen ist Programm. Es ist keine fertige Konsumelektronik, sondern ein offen kommuniziertes Vorabprodukt, mit dem Nabu Casa Erfahrung sammeln will, bevor sie eine endgültige Version bauen. (CNX Software zur Voice PE Markteinführung)

Das Gerät ist ein Plastikwürfel, 84 mal 84 mal 21 Millimeter, weiß, halbtransparent, 96 Gramm leicht. Auf der Oberseite sitzt ein drehbarer Touch-Ring, in der Mitte ein Knopf, drumherum ein LED-Ring, der je nach Status farbig leuchtet. An der Seite ein Kippschalter, der die Mikrofone physisch vom Strom trennt, und ein USB-C-Port. An der Rückseite ein 3,5-Millimeter-Klinkenausgang und ein Grove-Port, über den sich zusätzliche Sensoren anschließen lassen. (Home Assistant Voice PE Produktseite)

Im Inneren werkelt ein ESP32-S3 mit 16 MB Flash und 8 MB PSRAM, der WLAN über 2,4 GHz und Bluetooth 5.0 abwickelt. Daneben sitzt ein XMOS XU316, ein dedizierter Audio-Chip, der Echo-Unterdrückung, Rauschfilterung und automatische Lautstärkeanpassung in Hardware erledigt. Genau das ist der Unterschied zu billigeren ESP32-S3-Boxen vom Aliexpress. Der XMOS macht den Mikrofon-Pfad gut genug, dass das Gerät dich auch aus drei Metern Entfernung versteht, wenn nebenan der Geschirrspüler läuft.

Software-seitig läuft ESPHome auf dem ESP32, beide Firmwares sind komplett Open Source. Die Sprachverarbeitung passiert nicht auf dem Gerät selber, sondern auf deinem Home Assistant Server. Das Mikrofon nimmt auf, der Audio-Chip filtert, dann wird der Stream per WLAN an HA geschickt. Dort übernimmt eine Pipeline aus Wake-Word-Erkennung, Speech-to-Text, Intent-Engine und Text-to-Speech. Der Voice PE selber ist also ein Satellit, kein vollständiger Assistant. Diese Architektur stammt aus dem Wyoming-Protokoll, das Home Assistant für genau diese Verteilung gebaut hat.

Die Hardware im Detail

KomponenteSpec
HauptprozessorESP32-S3 dual-core Xtensa LX7 bis 240 MHz
Flash / RAM16 MB / 8 MB PSRAM
Audio-ProzessorXMOS XU316 (Echo-Cancellation, Rauschfilter, AGC)
MikrofoneDuales Array
LautsprecherInterner Mono-Speaker plus 3,5 mm Klinke mit DAC
KonnektivitätWLAN 2,4 GHz, Bluetooth 5.0 LE
StromversorgungUSB-C, 5 V / 2 A
BedienungTouch-Drehring, Multifunktionsknopf, Mute-Schalter, LED-Ring
Maße84 x 84 x 21 mm, 96 g
ErweiterungGrove-Port für Sensoren
Preis (Stand Juni 2026)rund 70 Euro im EU-Handel
Der interne Lautsprecher ist ehrlich gesagt mau. Für Sprachantworten reicht er, für Musik ist er nicht zu gebrauchen. Wer das Gerät auch zum Spotify-Lautsprecher machen will, schließt über die Klinke einen ordentlichen Aktivlautsprecher an. Bei den Beckers steht im Wohnzimmer ein alter Teufel-Stereo-Verstärker, der jetzt am Voice PE hängt. Die Klangqualität ist um Welten besser als beim Echo Dot, der ohnehin nur Mono in einem winzigen Plastikgehäuse macht.

Setup Schritt für Schritt

Voraussetzung ist ein Home Assistant Server, mindestens 2024.12. Für Voice PE empfehle ich Pi 5 oder HA Yellow. Pi 4 läuft, wird aber bei mehreren Satelliten zäh. Hub-Optionen erklärt Smart Home Zentrale einrichten 2026.

Anschluss. USB-C rein, LED-Ring pulsiert blau. Pairing-Modus. Pairing. HA-App auf dem Handy öffnen, sie meldet binnen Sekunden "Voice Preview Edition gefunden". Tippen, WLAN weitergeben, fertig. Der Ring wechselt auf Grün. Sprachpipeline. Zwei Optionen: Nabu Casa Cloud für 75 Euro pro Jahr, oder vollständig lokal auf dem HA-Server. Bei den Beckers wurde es lokal, weil der ganze Punkt Privacy war. Lokale Add-Ons. Drei aus dem HA-Store: Whisper für Speech-to-Text, Piper für Text-to-Speech, openWakeWord. Je ein Klick. Bei den Beckers in zehn Minuten durch. Wake-Word. Ab Werk dabei: Okay Nabu, Hey Jarvis, Hey Mycroft. Die Kinder wählten "Hey Jarvis". Eigene Trigger trainieren geht über die openWakeWord-Anleitung, aber Mehrtages-Bastelei. Geräte freigeben. In den Voice-Einstellungen markieren, was gesteuert werden darf. Bei den Beckers etwa zwanzig Entitäten. Wichtig für deutsche Haushalte: Entitäten mit Umlauten werden nicht erkannt. Eine "Küche Decke"-Lampe musst du auf "Kueche Decke" umbenennen, sonst versteht die Pipeline nichts. Bekanntes Problem zwischen Whisper und deutscher Intent-Engine, ausführlich beschrieben bei heise online. Workaround ist Umbenennen.

Setup für das erste Gerät bei den Beckers rund 45 Minuten. Die anderen je fünf, weil die Pipeline schon stand.

Was im Alltag klappt

Drei Wochen Testbetrieb, drei Geräte, vier Familienmitglieder, ein Mittelstandshaushalt mit Hue, Tado, Fritz und Sonos. Folgende Befehle laufen in über 90 Prozent der Versuche durch.

Licht. "Hey Jarvis, mach das Licht im Wohnzimmer an." Funktioniert. Auch "alle Lichter aus" geht. Dimmen mit Prozentangabe läuft, Farbwechsel auf warmweiß ebenso, sofern die Lampe Farbtemperatur unterstützt. Thermostate. "Stell die Heizung im Wohnzimmer auf zwanzig Grad." Sauber. Vage Anfragen wie "mach es wärmer" funktionieren nicht, die Intent-Engine braucht Präzision. Timer. Zuverlässig, auch mehrere parallel. Einkaufsliste. "Setz Milch auf die Einkaufsliste." Landet in der HA-eigenen Liste, über die App auch unterwegs sichtbar. Routinen. "Ich gehe schlafen" löst bei den Beckers eine Automation aus, die alle Lichter dimmt, die Heizung senkt und den Fernseher ausschaltet. Keine KI-Magie, sondern Intent-Mapping. Aber es funktioniert, lokal, ohne dass jemand außerhalb deiner vier Wände mithört. Geräte abfragen. "Ist die Waschmaschine an?" geht, wenn die Maschine an einer smarten Steckdose mit Verbrauchsmessung hängt. Bei den Beckers eine Fritz DECT 200.

Was nicht klappt

Hier wird der Preview-Charakter deutlich.

Multi-Step-Dialoge. "Stell den Timer auf zehn Minuten. Ach, mach lieber fünfzehn." Die Pipeline behandelt das als zwei unabhängige Befehle, der zweite wird mangels Verb nicht erkannt. Alexa würde nachfragen. Voice PE kann das nicht. Allgemeinwissen und Smalltalk. "Wie alt ist Olaf Scholz?" oder "Erzähl mir einen Witz" führen zu "Ich kann dir leider nicht helfen". Keine eingebaute Wikipedia- oder Web-Suche. Wer das will, muss eine LLM-Integration wie Ollama dranbinden, eine separate Bastelei. Musik. Music Assistant ist da, aber Bastelei. Spotify und YouTube Music laufen, Setup ist umständlich, Latenz hoch, eingebauter Lautsprecher schlecht. Anrufe und Stimmerkennung. Echo-zu-Echo-Intercom gibt es nicht. Voice PE unterscheidet auch nicht, wer spricht. Für Kindersicherung müsste man einen separaten Intent-Filter bauen. Hintergrundlärm. Der XMOS-Chip filtert viel weg, aber wenn die Kaffeemaschine direkt nebenan läuft, wird er unzuverlässig. (Selbsthosting-Erfahrung Manualdousuario.net)

Was die Beckers konkret bemerkt haben

Nach drei Wochen Realbetrieb hat Frau Becker mir ihren Zwischenstand geschickt.

Die Kinder mussten sich umgewöhnen. Sie sagen jetzt "Hey Jarvis" statt "Alexa", in den ersten Tagen rutschte ihnen oft noch das alte Wort raus. Nach einer Woche war das umgelernt.

Was sofort weg war: die Werbung. Keine einzige Antwort beginnt mit "Wusstest du, dass...". Keine Cross-Selling-Hinweise. Die Antworten sind kurz, sachlich, manchmal fast spröde. Frau Becker hat das als enorme Entlastung beschrieben.

Was anders ist: Manche Anfragen sind langsamer. Wenn der Pi 5 mehrere Sachen parallel macht, dauert die Antwort-Latenz statt unter einer Sekunde auch mal drei. Der Pi 4, mit dem ich anfangs gestartet bin, war hier nicht schnell genug. Wir mussten auf einen Pi 5 mit 8 GB upgraden, was nochmal 80 Euro waren.

Was nicht klappt: Die Tochter fragt regelmäßig Wissens-Sachen, die der Voice PE nicht beantworten kann. "Was ist die Hauptstadt von Argentinien?" geht nicht. Die Beckers haben für solche Fragen jetzt das Tablet auf der Küchenanrichte stehen.

Was unerwartet gut klappt: Die physische Stummtaste. Die Kinder haben gelernt, dass der Schalter auf der Seite das Mikrofon hart abklemmt. Bei Alexa konntest du auch ein Mute drücken, aber das wurde per Software gelöst, niemand wusste, ob das Mikrofon wirklich aus war. Hier weißt du es.

Privacy: was tatsächlich besser ist als Alexa

Die Voice PE schickt im Standardbetrieb kein einziges Audio-Byte aus deinem Heimnetz. Wake-Word, Whisper, Intent-Mapping, Piper laufen alle lokal. Die einzige Verbindung nach außen ist dein bestehender HA-Cloud-Sync, falls du Nabu Casa für Fernzugriff nutzt, ein Tunnel ohne Inhaltsanalyse. Mehr in Home Assistant Fernzugriff sicher einrichten.

Alexa schickt jedes Wake-Word-positive Sample an die AWS-Cloud, wo es transkribiert, ausgewertet und für Werbe-Targeting verknüpft wird. Amazon hat 2023 dafür 25 Millionen Dollar Strafe gezahlt, weil sie Kinder-Audio über Jahre gespeichert hatten, obwohl Eltern Löschungen verlangt hatten. Google macht es ähnlich, Apple ist eine Spur besser, hat aber keinen vollständigen Lokal-Modus.

Der Mute-Schalter ist physisch. Umgelegt fließt kein Strom mehr zu den Mikrofonen. Hardware-Cut, kein Software-Switch. Für Familien mit Kindern oder Leute, die sich nicht ausspähen lassen wollen, ist das der eigentliche Wert dieser Hardware.

Voice PE vs. Alexa vs. Google: der harte Vergleich

KriteriumAlexa Echo DotGoogle Nest MiniVoice PE
Preis60 Euro UVP, oft 25 Euro Aktion50 Euro UVP, oft 25 Euro Aktion70 Euro
Lokal vs. CloudCloud-onlyCloud-onlyLokal möglich
PrivacyAudio in AWS, Werbe-ProfilierungAudio in Google, Werbe-ProfilierungAudio bleibt im Heimnetz
MuteSoftware-KnopfSoftware-KnopfHardware-Schalter, Strom-Cut
SprachqualitätSehr gut, schnelle AntwortSehr gut, schnelle AntwortGut bei Ruhe, mäßig bei Lärm
AllgemeinwissenSehr gutExzellentNicht eingebaut
Smart-Home-SteuerungSehr gutSehr gutSehr gut, wenn präzise formuliert
Multi-Step-DialogeGutGutNicht möglich
StimmerkennungJa, FamilienprofileJa, Voice MatchNein
Telefon und IntercomJaJaNein
Musik-StreamingSpotify, Amazon Music, vieleYouTube Music, Spotify, vieleMusic Assistant Bastelei
LautsprecherMittelmäßig, MonoMittelmäßig, MonoSchlecht, aber Klinke ein Klinke raus
Werbung in AntwortenHäufig seit 2025Selten, aber zunehmendKeine
UpdatesAutomatisch von AmazonAutomatisch von GoogleDu selber via HA
VoraussetzungAmazon-KontoGoogle-KontoHA-Server zu Hause
DatenhaltungBei AmazonBei GoogleBei dir
Wenn du Alexa nur für Smart-Home-Steuerung und Timer nutzt, ist Voice PE ein vollwertiger Ersatz mit Privacy-Gewinn. Wenn du Alexa als Allwissende für Wissensfragen, Smalltalk und Multi-Room-Audio nutzt, ist Voice PE deutlich schwächer.

Marktforschung zeigt: 70 Prozent aller Sprachbefehle in deutschen Haushalten sind Smart-Home-Steuerung, Timer, Wetter und Wecker. Genau diese Kategorien deckt Voice PE ab, mit Ausnahme von Wetter, das in HA über eine separate Integration nachgerüstet wird (fünf Minuten). Tiefer geht der Vergleich Alexa vs. Google Home vs. Siri.

Geeignet für wen, ungeeignet für wen

Klares Ja: Wer schon Home Assistant nutzt, wer Wert auf Privacy legt, wer Familien mit Kindern hat (Werbeschutz, Hardware-Mute), wer Smart-Home-Veteran ist und gern bastelt, wer einen ordentlichen externen Lautsprecher per Klinke anschließen kann. Vielleicht: Wer Alexa nur für die Basics nutzt und Cloud-müde ist. Hier solltest du eine Probeinstallation machen, ehe du alle Echos verbannst. Die Lernkurve ist real. Klares Nein: Wer Alexa als Wissens-Assistent oder Plauder-Buddy nutzt. Wer Multi-Room-Audio mit Echo Studio liebt. Wer kein Home Assistant betreiben will und keinen 24/7-Server zuhause haben mag. Wer nicht bereit ist, beim Setup Hand anzulegen.

Konkurrenz im günstigen Segment

Der ESP32-S3-BOX-3 kostet etwa 50 Euro und kann technisch das Gleiche, aber ohne XMOS-Chip ist die Mikrofon-Qualität deutlich schlechter. Anleitung beim Home Assistant Projekt. Apollo Automation und Everything Smart bieten Voice-Satelliten auf Voice-PE-Basis mit besseren Lautsprechern, Preise 80 bis 130 Euro.

Im Massenmarkt wird Voice PE Echo und Nest nicht ablösen, dafür ist die HA-Hürde zu hoch. Für Haushalte, die HA schon nutzen oder Privacy zur Priorität machen, ist Voice PE Stand 2026 die beste Lösung.

Was nach der Preview kommen wird

Nabu Casa hat eine finale Voice-Version angekündigt, Termin offen. Realistisch in zwölf Monaten: bessere lokale Intent-Engine durch kleine Sprachmodelle, Kontext über mehrere Sätze, erste Stimmerkennung und eine Music-Assistant-Integration als Erstklasse-Bürger. Voraussichtlich mit 2026.6 oder 2026.7. Mehr zu den Plänen in Home Assistant 2026.5 Release.

Wer heute kauft, kauft kein fertiges Produkt. Er kauft ein Stück Hardware, das mit jedem HA-Update besser wird. Das ist eine andere Logik als bei Alexa, die seit Jahren nichts wirklich Neues mehr lernt, weil Amazon den ganzen Bereich auf Sparflamme fährt.

Was ich aus dem Test mitgenommen habe

Familie Becker hat ihre drei Echo Dots Ende Mai verschenkt. Sie laufen seitdem mit drei Voice PE plus Pi 5. Gesamt-Investment rund 290 Euro, das Dreifache der Echo-Preise. Was sie dafür bekommen haben: keine Werbung, keine Cloud-Übertragung, Hardware-Mute, ein System, das mit Updates besser wird.

Frau Becker hat es so formuliert: "Ich habe nicht gemerkt, wie sehr mich Alexa nervte, bis sie weg war." Das ist das ehrlichste Kompliment, das ich in den letzten Monaten zu einem Smart-Home-Produkt gehört habe.

Die Voice Preview Edition ist 2026 kein Massenprodukt. Sie ist ein Statement: Sprachsteuerung im eigenen Heim muss kein Werbekanal sein, und Privacy ist kein Komfort-Verlust. Wer schon HA nutzt und Alexa-müde ist, sollte ein Gerät bestellen. Wer das HA-Ökosystem noch nicht kennt, liest erst Smart Home Zentrale einrichten 2026 und die Kostenrechnung in Smart Home Installation Kosten 2026.

Für Bastler, die mit Infrarot, Thread und Aqara M3 schon eigene Setups gebaut haben, ist Voice PE der nächste Schritt. Sprachsteuerung auf dem gleichen Souveränitäts-Niveau wie der Rest.

Die Beckers haben mich letzte Woche gefragt, ob es das Gerät bald in Schwarz gibt. Frau Becker hätte gern eines im Schlafzimmer, möglichst unauffällig. Bis Nabu Casa eine schwarze Version baut, gibt es Vinyl-Folien aus dem Bastelladen. Die Kleine, neun, will das übernehmen. Sie hat sich schon Sterne-Aufkleber ausgesucht.