强化学习

August 8, 2025 • 5 min read • 987 words

Tags: Re-Le

Categories: Introduction to Artificial Intelligence

强化学习

1. 相关概念

与马尔可夫决策过程（不同，强化学习是一种在线规划（Online Planning）方法。在传统的MDP（离线规划）中，智能体完全了解环境的转移函数和奖励函数，并以此为基础预先计算出最优策略。

在强化学习中，智能体对环境的奖励或状态转移没有任何先验知识。它必须通过探索（Exploration）来与环境互动——执行动作并观察反馈（即后继状态和奖励）。智能体利用这些反馈通过学习过程来估计最优策略，然后利用该策略进行**利用（Exploitation）**以最大化回报。

2. 探索与反馈循环

在在线规划的每个时间步，智能体的行为和从中所学的经验可以被结构化：

样本（Sample）：一个完整的反馈单元，通常表示为一个元组 (s, a, s', r)，其中 s 是当前状态，a 是执行的动作，s' 是后继状态，r 是获得的奖励。
片段（Episode）：从初始状态开始，智能体连续执行一系列动作并收集样本，直到达到终止状态。这个完整的样本序列构成一个片段。

为了收集到足够用于学习的数据，智能体通常需要经历许多轮的片段。

3. 强化学习类型

强化学习主要分为两种类型：基于模型的学习和无模型的学习。其核心区别在于是否尝试学习环境的模型。

$a.$ 基于模型的学习

基于模型的学习旨在通过探索过程中收集的样本来估计转移函数和奖励函数。

其策略原则如下：

学习模型：智能体首先利用 (s, a, s', r) 样本来构建一个近似的环境模型，即估计出 $T(s, a, s')$ 和 $R(s, a, s')$ 。
求解MDP：一旦模型建立，问题就转化为一个已知的MDP。智能体可以使用价值迭代或策略迭代等传统方法来求解这个估计的MDP，从而得到最优策略。

这种方法的本质是“学习环境如何工作，然后进行规划”。

$b.$ 无模型学习

无模型的学习则不尝试估计环境模型，而是直接从样本中学习状态的价值或Q值。

其策略原则如下：

直接估计价值：智能体绕过对转移和奖励函数的显式建模，直接通过经验来评估在特定状态下执行某个动作有多好（Q值），或者某个状态本身有多好（价值）。
端到端学习：它直接将经验映射到价值函数或策略，而不需要在内存中构建和存储整个世界的模型。

这种方法更加直接，通常在环境模型非常复杂或难以学习时更具优势。