一、核心定位
二、核心特点
三、一句话用法示例
四、适用场景
五、代码演示
Stable-Baselines3 最精简、能直接跑的完整示例,训练一个强化学习智能体玩 CartPole。
1. 安装
pip install stable-baselines3 gymnasium[classic-control]
2. 完整可运行代码(训练 + 测试 + 保存加载)
import gymnasium as gym
from stable_baselines3 import PPO
from stable_baselines3.common.env_util import make_vec_env
# ----------------------
# 1. 创建环境
# ----------------------
env = gym.make("CartPole-v1")
# ----------------------
# 2. 创建 PPO 模型
# ----------------------
model = PPO(
policy="MlpPolicy", # 策略网络
env=env, # 环境
verbose=1, # 打印训练信息
learning_rate=3e-4, # 学习率
n_steps=2048, # 每次更新用的步数
)
# ----------------------
# 3. 开始训练
# ----------------------
model.learn(total_timesteps=100_000)
# ----------------------
# 4. 保存 & 加载模型
# ----------------------
model.save("ppo_cartpole")
del model # 删除模型模拟重新加载
model = PPO.load("ppo_cartpole")
# ----------------------
# 5. 测试智能体
# ----------------------
obs, _ = env.reset()
for _ in range(1000):
action, _states = model.predict(obs, deterministic=True)
obs, reward, done, truncated, info = env.step(action)
env.render() # 可视化
if done or truncated:
obs, _ = env.reset()
env.close()
3. SB3 最常用算法速记
from stable_baselines3 import (
PPO, # 最常用、最稳、适合大多数任务
DQN, # 离散动作
A2C, # 异步版 AC
DDPG, # 连续控制
SAC, # 连续控制,样本高效
TD3, # 连续控制,比 DDPG 稳
)
4. 你只要记住 4 行核心
model = PPO("MlpPolicy", env) # 创建
model.learn(100_000) # 训练
model.save("model") # 保存
model.predict(obs) # 预测
数据统计
数据评估
关于Stable-Baselines3特别声明
本站蜜蜂导航提供的Stable-Baselines3都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由蜜蜂导航实际控制,在2026年2月11日 下午1:45收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,蜜蜂导航不承担任何责任。
相关导航
暂无评论...
