AReaL/examples/math at main · peterpodj/AReaL

Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md
boba_grpo.py	boba_grpo.py
boba_grpo.yaml	boba_grpo.yaml
gsm8k_dapo_dynamic_bs.yaml	gsm8k_dapo_dynamic_bs.yaml
gsm8k_drgrpo.yaml	gsm8k_drgrpo.yaml
gsm8k_eval.py	gsm8k_eval.py
gsm8k_grpo.yaml	gsm8k_grpo.yaml
gsm8k_grpo_lora.yaml	gsm8k_grpo_lora.yaml
gsm8k_grpo_megatron.yaml	gsm8k_grpo_megatron.yaml
gsm8k_grpo_megatron_fp8.yaml	gsm8k_grpo_megatron_fp8.yaml
gsm8k_grpo_npu.yaml	gsm8k_grpo_npu.yaml
gsm8k_gspo.yaml	gsm8k_gspo.yaml
gsm8k_liteppo.yaml	gsm8k_liteppo.yaml
gsm8k_m2po.yaml	gsm8k_m2po.yaml
gsm8k_ppo.yaml	gsm8k_ppo.yaml
gsm8k_ppo_megatron.yaml	gsm8k_ppo_megatron.yaml
gsm8k_reinforce.yaml	gsm8k_reinforce.yaml
gsm8k_reinforce_baseline.yaml	gsm8k_reinforce_baseline.yaml
gsm8k_rl.py	gsm8k_rl.py
gsm8k_rloo.yaml	gsm8k_rloo.yaml
gsm8k_sapo.yaml	gsm8k_sapo.yaml
gsm8k_sft.py	gsm8k_sft.py
gsm8k_sft.yaml	gsm8k_sft.yaml

Name

Last commit message

Last commit date

README.md

boba_grpo.py

boba_grpo.yaml

gsm8k_dapo_dynamic_bs.yaml

gsm8k_grpo_megatron.yaml

gsm8k_grpo_megatron_fp8.yaml

gsm8k_ppo_megatron.yaml

gsm8k_reinforce.yaml

gsm8k_reinforce_baseline.yaml

Hyper-parameters for GSM8K Finetuning on Qwen2.5-1.5b-Instruct

The hyperparameters given in gsm8k_grpo.yaml is the set that we found to achieve the highest max grpo-eval/task_reward/avg during training for Qwen2.5-1.5b-Instruct. You are free to try out more of the hyperparameters listed below!

lr	weight decay	group size	max task_reward
1.70E-05	0.017	4	0.79570
1.30E-05	0.015	8	0.79355
1.50E-05	0.01	4	0.79043
1.50E-05	0.02	4	0.78984
1.00E-05	0.02	4	0.78311
1.00E-05	0.01	8	0.78066

Other Training Details

Devices: 8 Nvidia H800 GPUs
Optimizer: Adam
LR Scheduler: Constant
Gradient Clipping: 1.0
Max_new_tokens: 1024
Max_head_offpolicyness: 2
Training Time: ~35 minutes (batchsize 4), ~65 minutes (batchsize 8)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

Hyper-parameters for GSM8K Finetuning on Qwen2.5-1.5b-Instruct

Other Training Details

FilesExpand file tree

math

Directory actions

More options

Directory actions

More options

Latest commit

History

math

Folders and files

parent directory

README.md

Hyper-parameters for GSM8K Finetuning on Qwen2.5-1.5b-Instruct

Other Training Details