Privates LLM lokal auf Mac Silicon installieren

Du willst Large Language Models (LLMs) lokal auf deinem eigenen Mac testen — unabhängig von Cloud-Diensten, ohne Datenweitergabe? Auf Macs mit Apple Silicon (M1/M2/M3) gibt es dabei eine wichtige Herausforderung: Docker kann nicht auf die Apple Silicon GPU zugreifen. Die Lösung: OpenWebUI in Kombination mit LM Studio.

Das Problem mit Docker auf Apple Silicon

Die meisten Open-Source-LLMs werden über Tools wie Ollama oder OpenWebUI im Docker-Container verwendet. Aber Docker kann auf Macs die Metal GPU-Schnittstelle (Apple's GPU-API) nicht nutzen. Die Folge: LLMs laufen langsam auf der CPU statt auf der GPU.

Die Lösung: OpenWebUI als lokaler GUI-Server, verbunden mit LM Studio als Backend — das volle Metal GPU-Beschleunigung bietet.

Was ist OpenWebUI?

OpenWebUI ist ein lokal laufender GUI-Server, der wie ChatGPT funktioniert. Du kannst damit LLMs lokal hosten, ohne Cloud-Dienste — datenschutzkonform und offline-fähig.

Was ist LM Studio?

LM Studio ist eine Software, die speziell für die effiziente Nutzung von LLMs auf PCs und Macs mit Apple Silicon entwickelt wurde. Der entscheidende Vorteil: vollständige Unterstützung der Metal API — die GPU-Kerne des M-Chips werden voll genutzt.

Außerdem kannst du mit LM Studio alle Open-Source-LLMs von Hugging Face direkt herunterladen und zahlreiche Konfigurationsoptionen nutzen — im Gegensatz zu Ollama, das eher als Blackbox im Hintergrund arbeitet.

Voraussetzungen

Mac mit Apple Silicon (M1, M2, M3)
Mindestens 16 GB RAM (32 GB empfohlen für größere Modelle)
macOS 14.0 oder neuer
Ausreichend Festplattenspeicher (Modelle: 4–40 GB je nach Größe)
Python 3.11 (wichtig: nicht 3.12 oder neuer)

Schritt 1: LM Studio installieren

Lade LM Studio von lmstudio.ai herunter
Installiere die App und starte sie
Aktiviere unter Einstellungen → GPU die Metal-Beschleunigung
Starte den lokalen Server unter Local Server auf Port 1234

Schritt 2: LLM suchen und laden

In LM Studio:

Gehe zum Discover-Tab
Suche z.B. nach Mistral 7B Instruct oder LLaMA 3.1 8B
Lade das Modell herunter (GGUF-Format, quantisiert für Apple Silicon)
Lade das Modell in den Speicher und starte den lokalen API-Server

Schritt 3: OpenWebUI ohne Docker installieren

OpenWebUI kann auch ohne Docker in einer virtuellen Python-Umgebung installiert werden. Wichtig: Python 3.11 verwenden.

# Python 3.11 installieren (z.B. via pyenv)
pyenv install 3.11.9
pyenv local 3.11.9

# Virtuelle Umgebung erstellen
python -m venv openwebui-venv
source openwebui-venv/bin/activate

# OpenWebUI installieren
pip install open-webui

# Starten
WEBUI_AUTH=False open-webui serve --port 8080

Schritt 4: OpenWebUI mit LM Studio verbinden

Öffne OpenWebUI unter http://localhost:8080
Gehe zu Admin → Einstellungen → Verbindungen
Füge eine neue OpenAI-kompatible API hinzu:
- URL: http://localhost:1234/v1
- API-Key: lm-studio (beliebig)
Speichern — das Modell erscheint jetzt in der Modellauswahl

Ergebnis

Du hast jetzt einen vollständig privaten, lokal laufenden KI-Assistenten:

Volle GPU-Beschleunigung via Apple Metal
Keine Datenweitergabe an Dritte
Funktioniert offline
Unterstützt alle Open-Source-Modelle von Hugging Face

Empfohlene Modelle für den Anfang

Modell	Größe	RAM	Qualität
Mistral 7B Instruct	~4 GB	8 GB	Gut für schnelle Aufgaben
LLaMA 3.1 8B	~5 GB	16 GB	Ausgezeichnet allgemein
Mistral Large	~13 GB	32 GB	Sehr gut, nah an GPT-4

Fazit

Mit dieser Setup-Variante holst du das Maximum aus deinem Apple Silicon Mac heraus. Die Kombination aus LM Studio und OpenWebUI ist in meiner Erfahrung die beste Option für Mac-Nutzer — effizienter als Docker-basierte Ansätze und voller Datenkontrolle.