
Thema::
Lokale LLMs âș Einrichtung von LLaMA.Cpp unter Debian fĂŒr Offline-AI-Chat
Das dĂŒrfte Nutzer*innen ansprechen, die Modelle lokal ausfĂŒhren möchten, ohne sich auf Cloud-APIs zu verlassen.
Einleitung
GroĂe Sprachmodelle (LLMs) wie ChatGPT haben unsere Interaktion mit Maschinen revolutioniert â aber die meisten setzen auf Cloud-Dienste, die Daten preisgeben und eine Internetverbindung erfordern.
Du willst volle Kontrolle, PrivatsphÀre und keine OpenAI-API-Kosten?
Dann ist llama.cpp genau richtig â eine blitzschnelle C++-Implementierung der LLaMA-Modelle von Meta. In diesem Tutorial zeigen wir dir Schritt fĂŒr Schritt, wie du llama.cpp unter Debian einrichtest â nach der Installation ist keine Internetverbindung mehr nötig. Perfekt fĂŒr self-hosted AI, air-gapped Systeme und Off-Grid-Enthusiasten.
Was du brauchst
| Element | Details |
|---|---|
| Betriebssystem | Debian 12 (Bookworm) oder Ubuntu 22.04+ |
| RAM | 8â16âŻGB (fĂŒr das 7B-Modell) |
| CPU | Moderne x86_64- oder ARM64-CPUs (Apple M1 funktioniert ebenfalls) |
| Tools | git, cmake, g++, Python (optional) |
| Modell | LLaMA 2 oder Mistral (in GGUF konvertiert) |
Hinweis: Diese Anleitung setzt voraus, dass du die LLaMA-Modelle legal bezogen hast und dich an die Lizenzbedingungen von Meta hÀltst.
Schritt 1: AbhÀngigkeiten installieren
sudo apt update && sudo apt install build-essential cmake git
Schritt 2: llama.cpp klonen
git clone https://github.com/ggerganov/llama.cpp.git cd llama.cpp
Optional (fĂŒr CPU-Optimierungen):
make LLAMA_OPENBLAS=1
Schritt 3: Modell vorbereiten (GGUF-Format)
- Lade ein LLaMA-2- oder Mistral-Modell herunter, das in das .gguf-Format konvertiert wurde.
- Auf HuggingFace findest du passende Links (Autorisierung fĂŒr LLaMA 2 erforderlich)
- Beispiel:Â llama-2-7b-chat.gguf
- Verschiebe dein .gguf-Modell in den Ordner llama.cpp/models/
mkdir models && mv ~/Downloads/llama-2-7b-chat.gguf models/
Schritt 4: Den Chat starten!
Einfache Terminal-Interaktion:
./main -m models/llama-2-7b-chat.gguf -n 128
FĂŒr eine interaktive Eingabeaufforderung:
./chat -m models/llama-2-7b-chat.gguf
Optional: Web-OberflÀche verwenden (Ollama / LocalAI)
Wenn du eine benutzerfreundlichere OberflÀche möchtest:
Option 1: Ollama
curl -fsSL https://ollama.com/install.sh | sh
Dann ausfĂŒhren:
ollama run llama2
Option 2: LocalAI
UnterstĂŒtzt eine mit OpenAI kompatible API + Whisper + Einbettungen!
Bonus: VollstÀndig Offline-Setup
Willst du das auf einem vollstÀndig isolierten (air-gapped) System verwenden?
- Lade alle AbhÀngigkeiten und Modelle auf einem internetfÀhigen Rechner herunter
- Ăbertrage sie per USB
- Baue alles aus dem Quellcode
- Erstelle Skripte zum Starten und Interagieren
Kombinierbar mit Whisper.cpp fĂŒr eine vollstĂ€ndig offline nutzbare Sprach-zu-Text-KI!
Fehlerbehebung (Troubleshooting)
| Problem | Lösung |
|---|---|
| Speicher voll | Verwende 3B- oder 7B-Modelle |
| Modell lĂ€dt nicht | ĂberprĂŒfe die GGUF-Format-Version |
| Zugriff verweigert | chmod +x auf die BinĂ€rdateien ausfĂŒhren |
| Langsame Leistung | Mit OpenBLAS oder AVX2 kompilieren |
Fazit
Du hast jetzt einen vollstĂ€ndig privaten, offline laufenden KI-Chatbot, der lokal betrieben wird â keine API-SchlĂŒssel, keine Datenlecks, volle Kontrolle.
Willkommen in der Zukunft der Open-Source-Intelligenz.
Du kannst das sogar mit Piper TTS und Whisper.cpp kombinieren, um einen Sprachassistenten zu erstellen, der keine Verbindung nach auĂen benötigt.
