Port the ReBRAC implementation from JAX to PyTorch !
Only one file:
usage: rebrac_pytorch.py [-h] [OPTIONS]
โญโ options โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ
โ -h, --help show this help message and exit โ
โ --project STR wandb params (default: ReBRAC) โ
โ --group STR wandb params (default: rebrac-halfcheetah-medium-v2) โ
โ --name STR wandb params (default: rebrac-new) โ
โ --actor-learning-rate FLOAT โ
โ model params (default: 0.001) โ
โ --critic-learning-rate FLOAT โ
โ model params (default: 0.001) โ
โ --hidden-dim INT model params (default: 256) โ
โ --actor-n-hiddens INT model params (default: 3) โ
โ --critic-n-hiddens INT model params (default: 3) โ
โ --gamma FLOAT model params (default: 0.99) โ
โ --tau FLOAT model params (default: 0.005) โ
โ --actor-bc-coef FLOAT model params (default: 0.001) โ
โ --critic-bc-coef FLOAT model params (default: 0.01) โ
โ --actor-ln, --no-actor-ln โ
โ model params (default: False) โ
โ --critic-ln, --no-critic-ln โ
โ model params (default: True) โ
โ --policy-noise FLOAT model params (default: 0.2) โ
โ --noise-clip FLOAT model params (default: 0.5) โ
โ --policy-freq INT model params (default: 2) โ
โ --normalize-q, --no-normalize-q โ
โ model params (default: True) โ
โ --env-name STR training params (default: HalfCheetah-v5) โ
โ --dataset-path STR training params (default: '~/.d4rl/datasets/halfcheetah_medium-v2.hdf5') โ
โ --batch-size INT training params (default: 1024) โ
โ --num-epochs INT training params (default: 1000) โ
โ --num-updates-on-epoch INT โ
โ training params (default: 1000) โ
โ --normalize-reward, --no-normalize-reward โ
โ training params (default: False) โ
โ --normalize-states, --no-normalize-states โ
โ training params (default: False) โ
โ --eval-episodes INT evaluation params (default: 10) โ
โ --eval-every INT evaluation params (default: 5) โ
โ --train-seed INT general params (default: 0) โ
โ --eval-seed INT general params (default: 42) โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ