Evaluation Protocol Builder

📝 Project Information

Project Name

Team Name

Date

🎯 Environment Configuration

Environment

CartPole-v1 (500 steps) CartPole-v0 (200 steps) Custom

📊 Primary Metric

What metric determines success?

Mean Episode Reward Success Rate (%) Mean Episode Length

Target Value (to solve)

Eval Episodes (per evaluation)

Tip: CartPole-v1 is "solved" when mean reward reaches 475+ over 100 consecutive episodes. For faster iteration, evaluate over 10 episodes with target of 475.

🎲 Random Seeds

Multiple seeds ensure results aren't due to lucky initialization. Best practice: 3-5 seeds minimum.

Add Seed

⏱ Training Budget

Total Timesteps

Eval Frequency (timesteps)

Tip: CartPole typically solves in 20-50k timesteps with PPO. 100k gives enough margin for suboptimal hyperparameters.

📈 Additional Metrics to Track

Episode Length Reward Std Dev Training Time Value Loss Policy Loss Entropy

✅ Success Criteria

How do you define success?