RLHFlow

university

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Collections 6

models 6

datasets 42

RLHFlow/ultrafeedback_iter3

Viewer • Updated about 12 hours ago • 19.6k

RLHFlow/ultrafeedback_iter2

Viewer • Updated about 12 hours ago • 20k

RLHFlow/ultrafeedback_iter1

Viewer • Updated about 12 hours ago • 20k

RLHFlow/pair-preference-Skywork-80K-v0.1

Viewer • Updated 11 days ago • 82k • 296

RLHFlow/ArmoRM-Multi-Objective-Data-v0.2

Viewer • Updated 12 days ago • 555k • 22

RLHFlow/ArmoRM-Multi-Objective-Data-v0.1

Viewer • Updated 12 days ago • 569k • 8

RLHFlow/pair_data_v2_80K_wsafety_short

Viewer • Updated 26 days ago • 790k • 302

RLHFlow/pair_data_v2_78_wo_safety

Viewer • Updated Jul 26 • 777k • 2

RLHFlow/pair_data_v2_80K_wsafety

Viewer • Updated Jul 26 • 803k • 1.37k • 1

RLHFlow/preference_data_v2_80K_wsafety

Viewer • Updated Jul 26 • 803k • 277

RLHFlow

AI & ML interests

Collections 6

RLHFlow/UltraFeedback-preference-standard

RLHFlow/Helpsteer-preference-standard

RLHFlow/HH-RLHF-Helpful-standard

RLHFlow/Orca-distibalel-standard

hendrydong/preference_700K

weqweasdas/preference_dataset_mixture2_and_safe_pku

models 6

RLHFlow/ArmoRM-Llama3-8B-v0.1

RLHFlow/LLaMA3-iterative-DPO-final

RLHFlow/pair-preference-model-LLaMA3-8B

RLHFlow/LLaMA3-SFT

RLHFlow/DPA-v1-Mistral-7B

RLHFlow/RewardModel-Mistral-7B-for-DPA-v1

datasets 42

RLHFlow/ultrafeedback_iter3

RLHFlow/ultrafeedback_iter2

RLHFlow/ultrafeedback_iter1

RLHFlow/pair-preference-Skywork-80K-v0.1

RLHFlow/ArmoRM-Multi-Objective-Data-v0.2

RLHFlow/ArmoRM-Multi-Objective-Data-v0.1

RLHFlow/pair_data_v2_80K_wsafety_short

RLHFlow/pair_data_v2_78_wo_safety

RLHFlow/pair_data_v2_80K_wsafety

RLHFlow/preference_data_v2_80K_wsafety

AI & ML interests

Team members 4

Collections 6

models 6 Sort: Recently updated

datasets 42 Sort: Recently updated

models 6

datasets 42