Фреймворки, инструменты и ресурсы для больших языковых моделей (LLMs), включая обучение, инференс (vLLM, llama.cpp) и RAG.
Большие языковые модели (LLMs)
Репозитории
Ollama — это легковесный фреймворк для запуска и управления открытыми большими языковыми моделями локально. Он предоставляет простой CLI и REST API для создания AI-приложений, поддерживая модели Llama, Gemma, Mistral и другие с легкой интеграцией в различные инструменты.
LangChain — это фреймворк для создания агентов и приложений на основе больших языковых моделей. Он помогает связывать взаимозаменяемые компоненты и сторонние интеграции для упрощения разработки ИИ-приложений.
Open WebUI — это расширяемая, функциональная и удобная платформа для самостоятельного размещения ИИ, предназначенная для работы полностью в автономном режиме. Поддерживает различные LLM-раннеры, включая Ollama и совместимые с OpenAI API, со встроенным движком вывода для RAG.
DeepSeek-V3 — мощная языковая модель архитектуры Mixture-of-Experts (MoE) с 671 млрд параметров, из которых 37 млрд активируются на токен. Использует многоголовое латентное внимание, FP8-обучение и мульти-токенное предсказание, достигая производительности, сопоставимой с ведущими закрытыми моделями, при высокой эффективности обучения.
DeepSeek-R1 — модель рассуждений первого поколения, достигающая производительности, сопоставимой с OpenAI-o1, в задачах по математике, коду и логике. Модель с 671B параметрами открыта под лицензией MIT.
GPT4All — это экосистема с открытым исходным кодом, позволяющая запускать большие языковые модели (LLM) конфиденциально на обычных настольных компьютерах и ноутбуках. Не требуются API-вызовы или GPU — просто скачайте приложение и начните общаться с локальными ИИ-моделями.
vLLM — это быстрая и простая в использовании библиотека для инференса и обслуживания больших языковых моделей. Разработанная в UC Berkeley, она обеспечивает высокую пропускную способность, эффективное управление памятью и интеграцию с моделями Hugging Face.
Академический AI-ассистент с поддержкой множества LLM (GPT/GLM/Qwen/DeepSeek). Специализируется на переводе статей, полировке текстов, анализе кода и академическом письме с модульной системой плагинов и настраиваемыми ярлыками.
Официальный репозиторий кода вывода Meta Llama 2. Предоставляет минимальную реализацию для загрузки и запуска моделей Llama (7B-70B параметров) для приложений завершения текста и чата. Включает веса моделей, токенизатор и примеры скриптов для локального развертывания.
Grok-1 от xAI: Модель Mixture-of-Experts с 314B параметрами и реализацией на JAX. Открытые веса и архитектура для передовых исследований и развертывания ИИ.
LlamaIndex — это фреймворк с открытым исходным кодом для создания приложений на основе больших языковых моделей (LLM) с использованием генерации с усилением поиска (RAG). Предоставляет соединители данных, инструменты индексации и интерфейсы запросов.
Официальный фреймворк Microsoft для вывода 1-битных больших языковых моделей, обеспечивает быстрый и без потерь вывод на CPU и GPU с оптимизированными ядрами для эффективного развертывания на периферийных устройствах.
LightRAG — это легковесный и эффективный фреймворк для генерации с расширенным поиском, который объединяет графы знаний с векторным поиском. Поддерживает многомодальную обработку документов, различные бэкенды хранения и предоставляет API и Web UI интерфейсы.
Qwen3 — это продвинутая серия открытых языковых моделей от Alibaba Cloud с двойными режимами мышления/без мышления, контекстом в 1 млн токенов, многоязычной поддержкой и передовыми возможностями логического вывода.
Open R1 — это проект с открытым исходным кодом для полного воспроизведения возможностей рассуждения DeepSeek-R1. Предоставляет конвейеры обучения, скрипты оценки и наборы данных для SFT, GRPO и генерации данных, обеспечивая прозрачную разработку моделей ИИ.
Мощный локальный фронтенд LLM для опытных пользователей, поддерживающий множество AI API, генерацию изображений, TTS и расширенные возможности настройки для иммерсивных ролевых игр.