Frameworks, Tools und Ressourcen für Große Sprachmodelle (LLMs), einschließlich Training, Inferenz (vLLM, llama.cpp) und RAG.
Große Sprachmodelle (LLMs)
Repositories
Ollama ist ein leichtgewichtiges Framework zum Ausführen und Verwalten von Open-Source-Sprachmodellen lokal. Es bietet eine einfache CLI und REST-API zum Erstellen von KI-Anwendungen und unterstützt Modelle wie Llama, Gemma und Mistral mit einfacher Integration in verschiedene Tools.
LangChain ist ein Framework zur Entwicklung von Agenten und LLM-gesteuerten Anwendungen. Es verbindet interoperable Komponenten und Drittanbieter-Integrationen, um die KI-Anwendungsentwicklung zu vereinfachen.
Open WebUI ist eine erweiterbare, funktionsreiche und benutzerfreundliche selbstgehostete KI-Plattform, die vollständig offline betrieben werden kann. Sie unterstützt verschiedene LLM-Runner wie Ollama und OpenAI-kompatible APIs mit integrierter Inferenz-Engine für RAG.
DeepSeek-V3 ist ein leistungsstarkes Mixture-of-Experts (MoE)-Sprachmodell mit 671B Gesamtparametern, wobei pro Token 37B aktiviert werden. Es nutzt Multi-Head-Latent-Attention, FP8-Training und Multi-Token-Vorhersage und erreicht eine Leistung, die mit führenden geschlossenen Modellen vergleichbar ist, bei hoher Trainingseffizienz und Stabilität.
DeepSeek-R1 ist ein Reasoning-Modell der ersten Generation, das in Mathematik, Code und Logikaufgaben eine mit OpenAI-o1 vergleichbare Leistung erzielt. Das 671B-Parameter-Modell ist unter der MIT-Lizenz open-source.
GPT4All ist ein Open-Source-Ökosystem, das es ermöglicht, leistungsstarke große Sprachmodelle (LLMs) privat auf gängigen Desktop- und Laptop-Computern auszuführen. Keine API-Aufrufe oder GPUs erforderlich – laden Sie einfach die App herunter und chatten Sie mit lokalen KI-Modellen.
vLLM ist eine schnelle und benutzerfreundliche Bibliothek für LLM-Inferenz und -Bereitstellung. Ursprünglich an der UC Berkeley entwickelt, bietet sie höchste Durchsatzleistung, effizientes Speichermanagement mit PagedAttention und nahtlose Integration mit Hugging Face-Modellen.
Ein umfassender akademischer KI-Assistent mit Unterstützung für mehrere LLMs (GPT/GLM/Qwen/DeepSeek). Spezialisiert auf Paper-Übersetzung, Textverbesserung, Code-Analyse und akademisches Schreiben mit modularem Plugin-System und anpassbaren Shortcuts.
Offizielles Meta Llama 2 Inferenz-Code-Repository. Bietet minimale Implementierung zum Laden und Ausführen von Llama-Modellen (7B-70B Parameter) für Textvervollständigung und Chat-Anwendungen. Enthält Modellgewichte, Tokenizer und Beispielskripte für lokales Deployment.
xAI's Grok-1: Ein 314B Parameter Mixture-of-Experts-Modell mit JAX-Implementierung. Open-Source-Gewichte und Architektur für fortgeschrittene KI-Forschung und Bereitstellung.
LlamaIndex ist ein Open-Source-Datenframework zum Erstellen von LLM-Anwendungen mit Retrieval-Augmented Generation (RAG). Bietet Datenkonnektoren, Indexierungswerkzeuge und Abfrageschnittstellen.
Microsofts offizielles Inferenz-Framework für 1-Bit-LLMs, bietet schnelle und verlustfreie Inferenz auf CPU und GPU mit optimierten Kerneln für effizientes Edge-Geräte-Deployment.
LightRAG ist ein leichtgewichtiges und effizientes Retrieval-Augmented Generation Framework, das Wissensgraphen mit Vektorsuche integriert. Es unterstützt multimodale Dokumentenverarbeitung, mehrere Speicher-Backends und bietet API- und Web-UI-Schnittstellen.
Qwen3 ist eine fortschrittliche Open-Source-Sprachmodellreihe von Alibaba Cloud mit dualen Denk-/Nicht-Denk-Modi, 1M Token Kontext, Mehrsprachenunterstützung und modernsten Reasoning-Fähigkeiten.
Open R1 ist ein Community-gesteuertes Projekt zur vollständigen Reproduktion der DeepSeek-R1-Fähigkeiten. Es bietet Trainingspipelines, Auswertungsskripte und Datensätze für SFT, GRPO und Datengenerierung, die transparente KI-Entwicklung ermöglichen.
Eine leistungsstarke lokale LLM-Frontend für Power-User, unterstützt mehrere KI-APIs, Bildgenerierung, TTS und umfangreiche Anpassungsoptionen für immersive Rollenspiel-Erlebnisse.