Repository navigation

reinforcement-learning-from-human-feedback

Website
Wikipedia

An Easy-to-use, Scalable and High-performance RLHF Framework based on Ray (PPO & GRPO & REINFORCE++ & vLLM & Ray & Dynamic Sampling & Async Agentic RL)

transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning openai-o1 proximal-policy-optimization

Python

8060

786

13 天前

PKU-Alignment / safe-rlhf

Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

ai-safety alpaca datasets deepspeed large-language-models llama 大语言模型 reinforcement-learning reinforcement-learning-from-human-feedback rlhf transformers vicuna safety gpt transformer beaver

Python

1535

124

1 个月前

tatsu-lab / alpaca_farm

A simulation framework for RLHF and alternatives. Develop your RLHF method without collecting human data.

深度学习 instruction-following large-language-models reinforcement-learning-from-human-feedback 自然语言处理

Python

825

1 年前

openpsi-project / ReaLHF

Super-Efficient RLHF Training of LLMs with Parameter Reallocation

大语言模型 llm-training reinforcement-learning-from-human-feedback reinforcement-learning distributed-systems distributed-computing large-language-models llm-framework deepspeed transformers

Python

319

5 个月前

nlp-uoregon / Okapi

Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

bloom 聊天机器人 dataset instruction-tuning language-model large-language-models multilingual 自然语言处理 question-answering reinforcement-learning reinforcement-learning-from-human-feedback rlhf llama

Python

2 年前

liushunyu / awesome-direct-preference-optimization

A Survey of Direct Preference Optimization (DPO)

alignment 大语言模型 large-language-models reinforcement-learning-from-human-feedback dpo 代码审查 survey

3 个月前

martin-wey / CodeUltraFeedback

CodeUltraFeedback: aligning large language models to coding preferences (TOSEM 2025)

code-generation dpo large-language-models llm-as-a-judge reinforcement-learning-from-human-feedback

Python

1 年前

tlc4418 / llm_optimization

A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

深度学习 large-language-models reinforcement-learning-from-human-feedback

Python

9 个月前

CJReinforce / RIME_ICML2024

Official code for ICML 2024 paper, "RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences" (ICML 2024 Spotlight)

人工智能深度学习 reinforcement-learning reinforcement-learning-from-human-feedback locomotion manipulation Robotics

Python

1 年前

clam004 / minichatgpt

annotated tutorial of the huggingface TRL repo for reinforcement learning from human feedback connecting equations from PPO and GAE to the lines of code in the pytorch implementation

深度学习 deep-reinforcement-learning fine-tuning language-model large-language-models 自然语言处理 PyTorch reinforcement-learning transformers reinforcement-learning-from-human-feedback

Jupyter Notebook

6 个月前

WHUNextGen / LLMindCraft

Shaping Language Models with Cognitive Insights

Docker instruct-tuning large-language-models pretraining reinforcement-learning-from-human-feedback deepspeed transformers

Python

2 年前

ymetz / rlhfblender

RLHF-Blender: A Configurable Interactive Interface for Learning from Diverse Human Feedback

experimentation Python React reinforcement-learning reinforcement-learning-from-human-feedback

Python

2 天前

flint-xf-fan / Federated-RLHF

[AAMAS 2025] Privacy-preserving and Personalized RLHF, with convergence guarantees. The Code contains experiments for training multiple instances of GPT-2 for personalized sentiment aligned text generation.

大语言模型 reinforcement-learning-from-human-feedback rft rlhf

Python

6 个月前

rosinality / halite

Acceleration framework for Human Alignment Learning

evaluation-framework inference large-language-models proximal-policy-optimization reinforcement-learning reinforcement-learning-from-human-feedback transformers

Python

1 个月前

liushunyu / Ask-AC

[TSMC] Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework

reinforcement-learning reinforcement-learning-from-human-feedback

Python

1 年前

SJ9VRF / Reinforcement-Learning-for-Human-Feedback-RLHF

This repository contains the implementation of a Reinforcement Learning with Human Feedback (RLHF) system using custom datasets. The project utilizes the trlX library for training a preference model that integrates human feedback directly into the optimization of language models.

language-model 大语言模型 reinforcement-learning-from-human-feedback rlhf

Python

1 年前