简单检索 多字段检索 组合检索 书目详细信息

ISBN/价格：	978-7-118-13707-1:CNY88.00
作品语种：	chi
出版国别：	CN 110000
题名责任者项：	异策略安全约束强化学习/.杨奇松[等]著
出版发行项：	北京:,国防工业出版社:,2025.07
载体形态项：	13,117页:;+24cm
提要文摘：	本书探讨了如何在强化学习框架内实现安全风险控制和训练过程的安全性。首先，介绍Worst-Case Soft Actor Critic(WCSAC)算法，该算法通过分析累积安全成本的分布，引入条件风险值作为安全约束，并自适应实现奖励与安全之间的平衡。其次，介绍两种估计安全成本分布的方法：高斯近似法和分位数回归算法，并通过仿真实验展示它们在风险控制中的效果。再次，进一步地针对目标奖励未知的情况，介绍Constrained Entropy Maximization(CEM)算法，旨在学习一个在安全前提下能够均匀访问所有状态的探索策略。最后，为了实现安全策略的快速迁移学习，介绍Safe Guide(SaGui)框架。
并列题名：	Off-policy safety constrained reinforcement learning eng
题名主题：	机器学习
中图分类：	TP181
个人名称等同：	杨奇松著
记录来源：	CN LCTBU 20251012

总体评分：（共0人）

我的评分：

简单检索多字段检索组合检索书目详细信息