| ISBN/价格: | 978-7-118-13707-1:CNY88.00 |
|---|---|
| 作品语种: | chi |
| 出版国别: | CN 110000 |
| 题名责任者项: | 异策略安全约束强化学习/.杨奇松[等]著 |
| 出版发行项: | 北京:,国防工业出版社:,2025.07 |
| 载体形态项: | 13,117页:;+24cm |
| 提要文摘: | 本书探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先,介绍Worst-Case Soft Actor Critic(WCSAC)算法,该算法通过分析累积安全成本的分布,引入条件风险值作为安全约束,并自适应实现奖励与安全之间的平衡。其次,介绍两种估计安全成本分布的方法:高斯近似法和分位数回归算法,并通过仿真实验展示它们在风险控制中的效果。再次,进一步地针对目标奖励未知的情况,介绍Constrained Entropy Maximization(CEM)算法,旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。最后,为了实现安全策略的快速迁移学习,介绍Safe Guide(SaGui)框架。 |
| 并列题名: | Off-policy safety constrained reinforcement learning eng |
| 题名主题: | 机器学习 |
| 中图分类: | TP181 |
| 个人名称等同: | 杨奇松 著 |
| 记录来源: | CN LCTBU 20251012 |