Tobias hatte sich Anfang März 2026 auf eBay einen alten Lenovo ThinkCentre M75q-2 gekauft, AMD Ryzen 5 PRO 5650GE, 16 Gigabyte DDR4-Speicher, 250 Gigabyte NVMe — komplett mit Original-Verpackung und Restgarantie für 280 Euro. Sein Plan: ein Heim-LLM-Server, der bei ihm im Wohnzimmer-Schrank steht, in dem der Internet-Router auch wohnt, und der die ganze Familie mit lokaler KI versorgt — Mama beim E-Mail-Korrekturlesen, Papa beim Code-Review, die Tochter bei den Hausaufgaben in Französisch. Kein OpenAI-Abo. Keine Daten an irgendein Unternehmen. Strom unter 25 Watt im Idle, hatte er gelesen.

Drei Wochen später war er fertig mit der Realität. "Llama 3 8B läuft", sagt er. "Aber langsam. So 5 Tokens pro Sekunde, manchmal 6. Eine Antwort von zweihundert Wörtern dauert dreißig Sekunden, und meine Tochter hat nach zwei Versuchen wieder ChatGPT auf dem Handy aufgemacht." Er hat den ThinkCentre für 240 Euro weitergegeben und sich einen Beelink SER8 mit Ryzen 7 8845HS und 32 Gigabyte DDR5 für 720 Euro gekauft. Das ist die Geschichte, die jeder zweite Heim-LLM-Bastler erlebt — und die auch wir 2026 nicht oft genug erzählen.

Ollama ist die einfachste Software, mit der du große Sprachmodelle lokal auf einem Mini-PC laufen lassen kannst. [^1] Die Installation ist ein Befehl, das Pullen eines Modells ein zweiter, das Chatten ein dritter. Der Knackpunkt ist nicht die Software. Der Knackpunkt ist die Hardware, und die Diskrepanz zwischen "es läuft" und "es ist benutzbar" ist 2026 so groß wie nie. Dieser Artikel ist der Versuch, sie ehrlich zu beleuchten.

Was Ollama auf einem Mini-PC eigentlich macht

Wenn du ollama run llama3.1:8b auf deinem Mini-PC eingibst, lädt Ollama das Modell — typischerweise 4 bis 5 Gigabyte für eine Q4_K_M-quantisierte 8-Milliarden-Parameter-Version — in den Arbeitsspeicher und startet einen lokalen API-Server auf Port 11434. Wenn du eine Anfrage schickst, durchläuft sie Schicht für Schicht die Modellgewichte, und für jedes generierte Token müssen einige Milliarden Multiplikationen ausgeführt werden. Auf einer dezidierten GPU mit ihrem hochbandbreitigen VRAM passiert das in Mikrosekunden. Auf einer CPU im Mini-PC braucht jedes Token mehrere zehntel Sekunden. Daher die Tokens-pro-Sekunde-Metrik.

Eine Llama-3-8B-Antwort von 200 Wörtern entspricht etwa 280 Tokens. Bei 5 Tokens pro Sekunde dauert sie 56 Sekunden. Bei 20 Tokens pro Sekunde 14 Sekunden. Bei 50 Tokens pro Sekunde knapp 6 Sekunden. Diese drei Geschwindigkeitsklassen entsprechen ziemlich genau den drei Hardware-Klassen, in denen sich Heim-Mini-PCs einordnen lassen. [^2]

Die drei realistischen Klassen

Ich habe in den letzten Monaten Berichte und Benchmarks von rund einem Dutzend Mini-PC-Konfigurationen ausgewertet, von einem 180-Euro-Intel-N100-Refurbished-Gerät bis zu einem 1.200-Euro-Mac-Mini-M4-Pro. Drei sinnvolle Klassen kristallisieren sich heraus.

Klasse Budget (180 bis 350 Euro): Intel N100 oder N150 Mini-PC, 16 bis 32 GB RAM. Diese Geräte sind passiv gekühlt oder fast lautlos, ziehen 6 bis 12 Watt im Idle und maximal 25 Watt unter Last. Sie haben keine ernstzunehmende GPU-Beschleunigung — die Intel-UHD-Grafik des N100 ist fürs Office gedacht, nicht für LLMs. Ollama nutzt sie als reine CPU-Inferenz. Llama 3 8B Q4 läuft mit 6 bis 9 Tokens pro Sekunde, was für nicht-zeitkritische Single-User-Aufgaben (Zusammenfassen, E-Mail-Entwurf, kurze Übersetzungen) gerade noch ausreicht. Für interaktiven Chat ist es zu zäh. [^3] Klasse Mittelfeld (550 bis 850 Euro): AMD Ryzen 7 7840HS oder 8845HS mit Radeon 780M iGPU, 32 GB DDR5. Die Ryzen-iGPU kann via ROCm- oder Vulkan-Backend Modellschichten ausführen, und mit dem schnellen Dual-Channel-DDR5 als geteilten VRAM kommt Llama 3 8B Q4 auf 18 bis 25 Tokens pro Sekunde — das ist die Schwelle, an der lokale KI sich endlich wie ChatGPT-Lite anfühlt. [^4] Diese Geräte ziehen 14 bis 22 Watt im Idle, 45 bis 70 Watt unter Volllast. Beelink SER8, Minisforum UM870, GMKtec NucBox K11 — alle in dieser Klasse zu Hause. Klasse Oberklasse (900 bis 1.500 Euro): AMD Ryzen 7 8845HS mit 64 GB DDR5 oder Mac Mini M4 Pro. Hier rückt 28-Milliarden-Parameter-Territorium in Reichweite. Eine Stochastic-Sandbox-Analyse vom April 2026 hat einen 550-Dollar-AMD-Mini-PC mit Radeon 780M und 64 GB DDR5 gegen einen Mac Mini M4 verglichen. Gemma 4 28B Q4_K_M läuft auf der AMD-Plattform mit rund 19,5 Tokens pro Sekunde. [^5] Für die meisten Heimanwendungen ist das mehr als genug — und das Modell hat in der 28B-Klasse ein deutlich anderes Antwortverhalten als die kleineren 7B/8B-Brüder.

Welche Modelle 2026 wirklich Sinn machen

Es gibt 2026 hunderte Modelle in der Ollama-Bibliothek. Für einen Heimserver mit 32 GB RAM und einer Ryzen-iGPU sind in der Praxis vier bis fünf Modelle interessant.

Llama 3.1 8B (Q4_K_M, 4,9 GB): Der Allrounder. Gut bei Übersetzungen, brauchbar bei Code-Snippets, ehrlich bei Wissensfragen ("Da bin ich mir nicht sicher" ist häufiger als bei kleineren Modellen). Auf einem Ryzen 8845HS mit 32 GB läuft er mit 22 bis 25 Tok/s. Geht. [^6] Gemma 4 9B (Q4_K_M, 5,8 GB): Googles aktuelle Generation. Etwas konservativer als Llama, dafür sehr stark bei deutschen Texten — wer einen Brief umformulieren oder eine Präsentation strukturieren will, ist hier gut aufgehoben. 18 bis 22 Tok/s auf der gleichen Hardware. Phi-4 14B (Q4_K_M, 8,9 GB): Microsoft. Spezialist für strukturiertes Denken und Code. Wenn du regelmäßig kleine Python-Skripte oder Bash-Snippets schreiben lässt, ist Phi-4 oft die beste Wahl unter 30B. Auf einem Ryzen 8845HS mit 32 GB DDR5 läuft das Modell mit etwa 11 bis 14 Tok/s — langsamer, aber für Code akzeptabel. [^7] gpt-oss 20B (Q4_K_M, 12 GB): Open-Weights-Modell von OpenAI, seit Sommer 2025 verfügbar. Liefert oft die Antwortqualität von GPT-3.5-Turbo, manchmal überraschend nah an GPT-4. Auf 32 GB Hardware läuft es mit 8 bis 12 Tok/s. [^8] Auf 64 GB mit Ryzen-iGPU im 20-Tok/s-Bereich. Llama 3.3 70B (Q4_K_M, 42 GB): Nur mit 64 GB RAM und nur als experimenteller Versuch. Selbst auf der besten Mini-PC-Hardware bewegt sich die Generierung im 2-bis-4-Tok/s-Bereich. Spielzeug, kein Werkzeug.

Der unterschätzte Faktor: SSD und Modelldatei

Was selten gesagt wird: Die Ladezeit eines Modells ist nicht trivial. Llama 3.1 8B mit knapp 5 Gigabyte zu laden, dauert von einer billigen SATA-SSD 30 bis 50 Sekunden. Von einer modernen NVMe Gen4 SSD mit guter Lese-Performance unter 10 Sekunden. Wenn dein Mini-PC den ganzen Tag im Standby steht und Ollama bei jeder Anfrage das Modell neu laden muss (Standard-Verhalten nach 5 Minuten Inaktivität), summiert sich das. [^9]

Mein Tipp: Setze die Umgebungsvariable OLLAMA_KEEP_ALIVE=24h, damit Ollama das Modell für mindestens 24 Stunden im RAM hält. Das spart RAM-Reload-Zyklen, kostet 5 bis 8 Gigabyte Speicher dauerhaft, und macht den Server "instant ready". Wer im Heimnetz häufig anfragt, fühlt den Unterschied sofort.

Wer mehrere Modelle parallel laden will (zum Beispiel Llama für Chat und Phi-4 für Code), sollte mindestens 32 GB RAM haben. Mit 16 GB läuft auch ein Modell mit 8B Parametern, aber Multitasking — Browser auf, Docker im Hintergrund, parallel ein Mosquitto-Brokers — drückt schnell ins Swappen, und SSD-Swap ist der Tod jeder LLM-Performance.

Im Heimnetz: API, Open WebUI und das Problem der Authentifizierung

Ollama bindet sich standardmäßig an 127.0.0.1:11434, also nur lokal. Wer ihn aus dem Heimnetz erreichen will (zum Beispiel vom Laptop aus), muss OLLAMA_HOST=0.0.0.0:11434 setzen. Damit ist der Dienst aber im ganzen Netz unauthentifiziert verfügbar — jedes Gerät, das die IP des Mini-PCs kennt, kann Anfragen stellen, Modelle pullen oder löschen.

Die meisten Heimnutzer setzen ein Open WebUI vor den Ollama-Server. Open WebUI ist eine browserbasierte Oberfläche mit User-Accounts, Chat-Historie, Multi-Modell-Switching und einer brauchbaren Mobile-Ansicht. Sie läuft als Docker-Container auf dem gleichen Mini-PC, lauscht auf Port 8080, hat eine echte Login-Seite und schickt nur authentifizierte Anfragen weiter zu Ollama auf 127.0.0.1. Das ist 2026 die De-facto-Standard-Architektur für lokale Heim-LLMs. [^10]

Wer Ollama von außerhalb des Heimnetzes erreichen will (zum Beispiel vom Smartphone unterwegs), sollte das nie über offene Ports im Router machen, sondern entweder per WireGuard-VPN ins Heimnetz oder per Cloudflare Tunnel mit Zero Trust Access. Letzteres lässt sich in 30 Minuten einrichten und kostet nichts — und es macht aus deinem Heim-LLM eine ChatGPT-Alternative, die du auch im Café benutzen kannst, ohne dass jemand mit deinem Open-WebUI-Login mithört.

Die Stromkosten — ehrlich gerechnet

Ein Mini-PC der Mittelklasse zieht im Idle ungefähr 16 Watt, unter Last 60 Watt. Wenn er 24/7 läuft und durchschnittlich zu 90 Prozent der Zeit im Idle ist, kommen pro Jahr etwa 160 Kilowattstunden zusammen. Bei einem deutschen Strompreis von 36 Cent pro Kilowattstunde sind das 58 Euro im Jahr. [^11]

Ein N100-Mini-PC kommt auf rund 80 kWh und damit knapp 29 Euro. Ein 64-GB-Ryzen-System auf 230 kWh und damit 83 Euro. Diese Werte sind nicht trivial, aber sie sind weit unter dem, was ein gleichwertiger Server-Tower mit dezidierter GPU verbrauchen würde (typischerweise 600 bis 1.200 kWh pro Jahr im 24/7-Betrieb).

Vergleicht man das mit einem ChatGPT-Plus-Abo (240 Euro pro Jahr), ist die Hardware nach zwei bis drei Jahren reingespielt — bei der Mittelklasse, die wirklich brauchbar ist.

Was Tobias am Ende gemacht hat

Tobias hat seinen Beelink SER8 jetzt seit drei Wochen im Schrank stehen. Llama 3.1 8B läuft mit 23 Tokens pro Sekunde, Gemma 4 9B mit 19, Phi-4 14B mit 12. Open WebUI läuft auf Port 8080, Familienmitglieder haben eigene Logins, Tobias selbst hat einen Cloudflare Tunnel eingerichtet, mit dem er von der Arbeit aus auf seinen Server zugreifen kann. Seine Tochter benutzt das System für Vokabel-Drills und Grammatik-Checks, und nach den ersten zwei Wochen meinte sie: "Es ist langsamer als ChatGPT, aber es ist meines." Tobias hat das auf einen Post-it geschrieben und an die Schranktür geklebt.

Der Stromzähler läuft ungefähr 2 Watt höher, wenn der Mini-PC läuft, gegenüber dem alten Setup. Das ist eine Tasse Kaffee pro Monat. Die 720 Euro für die Hardware bedeuten, dass das System sich in zwei Jahren gegenüber drei Familienmitglieder mit ChatGPT Plus rechnet. Vor allem aber sind die Daten zu Hause, und das ist eine Eigenschaft, die im Jahr 2026 schwer zu beziffern, aber leicht zu spüren ist.

[^1]: Ollama ist Open-Source und seit 2023 das mit Abstand verbreitetste Tool für lokales LLM-Hosting. Verfügbar für Linux, macOS und Windows.

[^2]: Berechnung: Ein Token entspricht durchschnittlich 0,75 Wörtern in deutschen Texten. 200 Wörter ≈ 270 Tokens.

[^3]: Bishal Kumar Shah (2026): "Running Ollama on Intel N100 & N150 Mini PC." Hobbyist's Hideaway, Februar 2026. Reproduzierbare Benchmarks mit Llama 3 8B Q4_K_M auf einem N100 mit 16 GB RAM.

[^4]: Mayhemcode (2026): "Best Mini PC for Ollama and Local LLMs." Februar 2026. Werte konsistent mit Stochastic-Sandbox-Benchmarks vom April 2026.

[^5]: Stochastic Sandbox (2026): "Local LLM on a $550 AMD Mini PC: 28B Models at 20 tok/s." 4. April 2026. Gemma 4 28B Q4_K_M mit 19,5 Tok/s auf Radeon 780M iGPU plus 64 GB DDR5.

[^6]: Eigene Messungen auf einem Beelink SER8 mit 32 GB DDR5-5600 und Ubuntu 24.04, Ollama 0.5.7.

[^7]: Phi-4 ist seit Januar 2025 als Open-Weights-Release verfügbar. Trotz "nur" 14 Milliarden Parameter erreicht das Modell auf vielen Code- und Reasoning-Benchmarks die Leistung von 30B-Modellen aus 2024.

[^8]: gpt-oss-20B wurde im Sommer 2025 von OpenAI als Open-Weights-Modell veröffentlicht. Tokens-pro-Sekunde-Werte aus aidatatools/ollama-benchmark Repository.

[^9]: NVMe Gen4-SSDs erreichen sequentielle Lesegeschwindigkeiten von 5.000 bis 7.000 MB/s. SATA-SSDs sind auf 550 MB/s limitiert. Bei 5 GB Modelldatei ergibt das ein Verhältnis von ~1 zu 9.

[^10]: Open WebUI ist seit 2023 als Docker-Container verfügbar (vorher unter dem Namen ollama-webui). Standard-Architektur für Heim-LLM-Deployments laut VMinstall (2026): "Set Up Ollama on a Mini PC: Local AI Server Guide", März 2026.

[^11]: Berechnung: 24 Stunden × 365 Tage × (16 W × 0,9 + 60 W × 0,1) / 1000 = 19,7 kWh × 12 Monate. Grobe Annahme; reale Werte schwanken je nach Auslastung und Energieeinstellungen.