【CS285】高斯策略对数概率公式的学习笔记

news/2025/2/23 5:13:26

公式介绍

在【CS285】中提到了高斯策略对数概率公式的公式如下:
log ⁡ π θ ( a t ∣ s t ) = − 1 2 ∥ f ( s t ) − a t ∥ Σ 2 + const \log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} \left\| f(\mathbf{s}_t) - \mathbf{a}_t \right\|_{\Sigma}^2 + \text{const} logπθ(atst)=21f(st)atΣ2+const

符号说明

PDF:Probability Density Function,概率密度函数

推导说明(from DeepSeek-R1-web)

1. 多元高斯分布的概率密度函数

设策略 π θ ( a t ∣ s t ) \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) πθ(atst)服从均值为 μ = f ( s t ) \mu= f(\mathbf{s}_t) μ=f(st)、协方差矩阵为 Σ \Sigma Σ的多元高斯分布,其PDF为:
π θ ( a t ∣ s t ) = 1 ( 2 π ) d ∣ Σ ∣ exp ⁡ ( − 1 2 ( a t − f ( s t ) ) T Σ − 1 ( a t − f ( s t ) ) ) \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = \frac{1}{\sqrt{(2\pi)^{d} |\Sigma|}} \exp\left( -\frac{1}{2} (\mathbf{a}_t - f(\mathbf{s}_t))^T \Sigma^{-1} (\mathbf{a}_t - f(\mathbf{s}_t)) \right) πθ(atst)=(2π)d∣Σ∣ 1exp(21(atf(st))TΣ1(atf(st)))
其中 d d d是动作 a t \mathbf{a}_t at的维度。

2. 对PDF取对数

对上述公式取自然对数,得到对数概率:
log ⁡ π θ ( a t ∣ s t ) = − 1 2 ( a t − f ( s t ) ) T Σ − 1 ( a t − f ( s t ) ) − d 2 log ⁡ ( 2 π ) − 1 2 log ⁡ ∣ Σ ∣ \log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} (\mathbf{a}_t - f(\mathbf{s}_t))^T \Sigma^{-1} (\mathbf{a}_t - f(\mathbf{s}_t)) - \frac{d}{2} \log(2\pi) - \frac{1}{2} \log|\Sigma| logπθ(atst)=21(atf(st))TΣ1(atf(st))2dlog(2π)21log∣Σ∣

3. 简化与假设

在强化学习中,通常假设:

  1. 协方差矩阵 Σ \Sigma Σ 是固定的(例如,设为对角矩阵或常数矩阵),或者与参数 θ \theta θ 无关。
  2. 常数项对梯度更新无影响:在对策略梯度进行优化时,与 θ \theta θ 无关的项在求导后会消失,因此可以合并为常数。

基于上述假设,将对数概率中的常数项合并:
const = − d 2 log ⁡ ( 2 π ) − 1 2 log ⁡ ∣ Σ ∣ \text{const} = -\frac{d}{2} \log(2\pi) - \frac{1}{2} \log|\Sigma| const=2dlog(2π)21log∣Σ∣

4. 引入马氏距离符号

定义马氏距离(Mahalanobis distance)为:
∥ a t − f ( s t ) ∥ Σ 2 = ( a t − f ( s t ) ) T Σ − 1 ( a t − f ( s t ) ) \left\| \mathbf{a}_t - f(\mathbf{s}_t) \right\|_{\Sigma}^2 = (\mathbf{a}_t - f(\mathbf{s}_t))^T \Sigma^{-1} (\mathbf{a}_t - f(\mathbf{s}_t)) atf(st)Σ2=(atf(st))TΣ1(atf(st))

代入对数概率公式,得到:
log ⁡ π θ ( a t ∣ s t ) = − 1 2 ∥ f ( s t ) − a t ∥ Σ 2 + const \log \pi_{\theta}(\mathbf{a}_t | \mathbf{s}_t) = -\frac{1}{2} \left\| f(\mathbf{s}_t) - \mathbf{a}_t \right\|_{\Sigma}^2 + \text{const} logπθ(atst)=21f(st)atΣ2+const


最终公式

课程中给出的公式正是上述结果,其中:

  • f ( s t ) f(\mathbf{s}_t) f(st) 是由参数 θ \theta θ 确定的均值函数(例如神经网络)。
  • Σ \Sigma Σ 是固定的协方差矩阵,与 θ \theta θ 无关。
  • const \text{const} const 包含所有与 θ \theta θ 无关的常数项。

补充说明

  1. 协方差矩阵的简化:如果 Σ \Sigma Σ 是对角矩阵或各向同性( Σ = σ 2 I \Sigma = \sigma^2 I Σ=σ2I),则计算马氏距离时只需对每个维度单独计算平方误差。
  2. 策略梯度的应用:在计算策略梯度 ∇ θ log ⁡ π θ \nabla_\theta \log \pi_{\theta} θlogπθ 时,常数项 const \text{const} const 的导数为零,因此可以安全忽略。

结论:通过假设协方差矩阵 Σ \Sigma Σ 固定且与参数 θ \theta θ 无关,课程中的公式从多元高斯分布的对数概率密度函数中合理推导得出。


http://www.niftyadmin.cn/n/5862972.html

相关文章

深入理解HttpSecurity的设计

一、HttpSecurity的应用 在前章节的介绍中我们讲解了基于配置文件的使用方式,也就是如下的使用。 也就是在配置文件中通过 security:http 等标签来定义了认证需要的相关信息,但是在SpringBoot项目中,我们慢慢脱离了xml配置文件的方式,在SpringSecurity中提供了HttpSecurity…

账号存活率骤降19%?2025跨境账号安全白皮书预警

账号安全危机来袭,跨境电商如何应对挑战? 在全球电商产业快速扩张的今天,账号安全问题日益严峻,尤其是在跨境电商领域。根据2025年《跨境账号安全白皮书》的报告,跨境电商平台账号存活率骤降19%,这一令人震…

2025.2.23机器学习笔记:PINN文献阅读

2025.2.23周报 一、文献阅读题目信息摘要Abstract创新点网络架构架构A架构B架构C 实验结论后续展望 一、文献阅读 题目信息 题目: Physics-Informed Neural Networks for Modeling Water Flows in a River Channel期刊: IEEE TRANSACTIONS ON ARTIFICI…

鸿蒙NEXT开发-学生管理系统小案例

注意:博主有个鸿蒙专栏,里面从上到下有关于鸿蒙next的教学文档,大家感兴趣可以学习下 如果大家觉得博主文章写的好的话,可以点下关注,博主会一直更新鸿蒙next相关知识 目录 1. 基本介绍 2. 案例设计图 2.1 app应用…

Linux下基于root指定用户执行命令的方法

个人博客地址:Linux下基于root指定用户执行命令的方法 | 一张假钞的真实世界 Docker在构建镜像阶段无法配置免密码sudo。但是在实际需求场景中会遇到需要使用sudo的场景。所以,我的解决思路是镜像构建及CMD使用root,在CMD的脚本中执行需要su…

智能网络感知,打造极致流畅的鸿蒙原生版中国移动云盘图文体验

背景 中国移动云盘(原“和彩云网盘”)是中国移动重磅推出的安全、智能、不限速、移动用户免流的智能云盘,致力于成为5G时代用户个人与家庭的数字资产管理中心,是中国移动继语音、短信、流量后的“第四项基础服务”。 照片、音视…

Linux系统编程基础详解

Linux 系统详解 大纲 引言 Linux 的定义Linux 的历史与发展本文结构概述 Linux 的基本概念 Linux 的架构 内核与用户空间系统调用 Linux 的文件系统 文件与目录结构权限管理 Linux 的进程管理 进程与线程进程调度 Linux 的基本命令与操作 常用命令概述 文件与目录操作命令文…

实现“微观自治、中观协作、宏观统筹”的智能生态系统架构

第一步:明确核心需求与挑战 系统的核心需求和在设计过程中可能遇到的挑战: 核心需求: 微观自治: 每个节点(自治智能体)具备自主决策、学习和处理数据的能力。中观协作: 节点之间能够通过联邦学习等机制安全地共享知识,协同提升。宏观统筹: 中央综合智能体能够监控、协…