-
Notifications
You must be signed in to change notification settings - Fork 45
Open
Description
请问rollout和actor中的step的关系和区别?
我之前的理解是,rollout的一个step对应buffer.batch_size个task
actor的一个step对应的是buffer.train_batch_size个experience
buffer:
batch_size: 1
train_batch_size: 32
假如我按上面的config,用在mutistep agent react场景 grpo
我的每一个task平均生成5个experience
基于上面的配置,也就是我需要rollout执行6~7个step(生成32个左右的experiences),才能执行一次actor step。
基于这种背景,actor的step应该比rollout的step明显少才对?
但是实际发现,actor的step和rollout的step相当,甚至比rollout更多?这是为什么?我上面哪个地方理解错了吗?
跟repeat_times有关系吗?algorithm.repeat_times和explorer.max_repeat_times_per_runner我都设置的8

Metadata
Metadata
Assignees
Labels
No labels