AFS Tool · kostenlos

Lokaler KI-Hardware-Rechner

Prüfen Sie in unter einer Minute, ob Ihr Mac, PC oder Server für lokale KI-Modelle wie Llama, Qwen, Mistral oder DeepSeek geeignet ist. Sie erhalten eine Ampelbewertung, den geschätzten Speicherbedarf und eine konkrete Hardware-Empfehlung.

Ihre Konfiguration

Alle Felder bleiben in Ihrem Browser. Es werden keine Daten an AFS oder Dritte gesendet, solange Sie nicht aktiv eine Beratung anfragen.

Anwendungsfall

Modellklasse

Quantisierung

Q4 = wenig Speicher, FP16 = voll

Kontextlänge

Lange Dokumente brauchen mehr Speicher

Plattform

Unified Memory (GB)

Gleichzeitige Nutzer

Geeignet

Geschätzter Bedarf

13.2 GB

Verfügbar

32.0 GB

Ihre Hardware ist für diese Modellklasse gut geeignet — auch mit Spielraum für längere Kontexte oder mehrere Nutzer.

Empfohlene Hardware

Apple Silicon ab 16 GB Unified Memory · alternativ NVIDIA RTX 4060 Ti (16 GB VRAM)

💡 Mit dieser Hardware könnten Sie auch 13B-14B ausprobieren — wenn Qualität wichtiger ist als Geschwindigkeit.

Wie wird gerechnet?

Bedarf = (Modellgewicht + Kontext + Plattformreserve) × Nutzer × 1.2

Modellgewicht: 5.0 GB
Kontextaufschlag: 2.0 GB
Plattformreserve: 4.0 GB
Nutzer-Faktor: ×1
Sicherheitsaufschlag: ×1.2

Die Berechnung ist eine technische Orientierung. Der tatsächliche Bedarf hängt von Modell, Software, Kontextlänge, Anzahl Nutzer und Performance-Anforderungen ab.

Was Sie wissen sollten

RAM vs. VRAM

Auf NVIDIA-GPUs ist VRAM der entscheidende Engpass: Was nicht in den VRAM passt, muss in den langsameren System-RAM ausweichen — die Inferenz wird dann zäh. Apple Silicon umgeht das durch Unified Memory: CPU und GPU teilen sich denselben schnellen Speicher.

Quantisierung

Quantisierung komprimiert die Modellgewichte. Q4 spart gegenüber FP16 etwa 75 % Speicher bei kaum spürbarem Qualitätsverlust für die meisten Anwendungen. Höhere Quantisierungen (Q5, Q8) liegen dazwischen.

Kontextlänge

Je länger das Eingabe-Fenster, desto mehr Speicher braucht der KV-Cache. 32k Tokens entsprechen etwa 25–30 Seiten Text und kosten deutlich mehr Speicher als ein kurzer Chat.

Mehrere Nutzer gleichzeitig

Ein Modell, das für einen Nutzer reicht, ist bei 5 gleichzeitigen Anfragen schnell überlastet — weil jeder Request einen eigenen KV-Cache braucht. Ab 4 Nutzern lohnt sich Server-Hardware.

Lokale KI im Unternehmen

AFS bringt das Ergebnis dieses Rechners auf die Straße

Der Rechner sagt Ihnen, ob Ihre Hardware reicht. Wir setzen es um:

✓Hardware-Auswahl — wir kaufen nicht zu groß und nicht zu klein.
✓Lokale LLM-Installation — Ollama, LM Studio, Open WebUI, vLLM, sauber konfiguriert.
✓RAG mit Unternehmensdaten — Ihre Dokumente werden durchsuchbar, ohne dass sie das Haus verlassen.
✓DSGVO-Architektur — Daten bleiben on-prem, Zugriffe protokolliert, Rollen sauber.
✓Integration — in Ihre bestehenden Tools (Microsoft 365, Confluence, ERP, CRM, eigene Apps).

Disclaimer

Die Berechnung ist eine technische Orientierung und ersetzt keine individuelle Hardware-Planung. Der tatsächliche Bedarf hängt von Modell, Software, Betriebssystem, Kontextlänge, Anzahl Nutzer und Performance-Anforderungen ab.

Für eine belastbare Empfehlung sprechen Sie mit uns. Das Erstgespräch ist kostenfrei.

Häufige Fragen

Wie genau ist die Berechnung?+

Die Logik ist konservativ und liefert eine technische Orientierung — keine Benchmark-Garantie. Der tatsächliche Bedarf hängt vom konkreten Modell (Llama, Qwen, Mistral, DeepSeek), der Inferenz-Software (Ollama, llama.cpp, vLLM) und der Performance-Erwartung ab. Für eine belastbare Aussage führen wir gerne einen kostenlosen Hardware-Check durch.

Was ist der Unterschied zwischen RAM und VRAM?+

RAM ist der Hauptspeicher der CPU. VRAM ist der schnelle Speicher direkt auf der GPU — bei NVIDIA-Karten der harte Engpass für Modellgewichte. Apple Silicon hat Unified Memory: CPU und GPU teilen sich denselben Speicher, daher fragen wir bei Apple nicht separat nach VRAM.

Was bedeuten Q4, Q5, Q8 und FP16?+

Quantisierung reduziert die Genauigkeit der Modellgewichte und damit den Speicherbedarf. Q4 nutzt 4 Bit pro Gewicht (kleinste Variante, ~75 % weniger Speicher als FP16, kaum spürbarer Qualitätsverlust für die meisten Anwendungen). FP16 ist der unkomprimierte Originalzustand. Für produktive Use Cases im Mittelstand reicht Q4 fast immer.

Funktioniert lokale KI auch DSGVO-konform?+

Ja — und das ist der zentrale Vorteil. Wenn das Modell auf Ihrer Hardware läuft, verlassen die Daten Ihr Haus nicht. Es gibt keinen US-Cloud-Anbieter im Datenfluss, keine Teilung mit dem Modell-Provider, keine Auftragsverarbeitungsverträge mit Drittländern. Genau dafür ist lokale KI gemacht.

Welche Modelle laufen lokal?+

Praktisch alle Open-Weight-Modelle: Llama 3.x, Qwen 2.5, Mistral, DeepSeek-R1, Phi, Gemma. Die Auswahl wächst täglich. Für deutschsprachige Anwendungen sind aktuell Qwen 2.5 und Llama 3.x sehr stark.

Was kostet ein lokaler KI-Server für die Firma?+

Sinnvolle Einstiegspunkte beginnen bei ca. 4.000 € (Mac Studio M4 Max, 64 GB) für Einzelnutzung bis zu 25.000–60.000 € für eine Multi-User-Workstation oder einen Server mit RTX 6000 Ada / H100. Wir helfen Ihnen, in der richtigen Klasse einzukaufen — nicht zu groß, aber auch nicht so klein, dass nach 6 Monaten der Wechsel ansteht.

Hardware-Check anfragen

Wenn Sie die Eckdaten Ihrer Konfiguration eingegeben haben, sind sie unten in der Nachricht bereits eingetragen. Wir antworten innerhalb eines Werktags mit einer ehrlichen Einschätzung.

Tipp: Wenn Sie oben im Rechner auf Hardware-Check anfragen klicken, wird Ihre Konfiguration automatisch in die Nachricht eingetragen.