Posts tagged "Re-Le"

探索与利用

August 8, 2025 • Re-Le

探索与利用 1. 相关概念在强化学习中，智能体的目标是学习一个最优策略来最大化长期回报。为了达成此目标，智能体必须在两个核心行为之间做出权衡： - 探索 (Exploration): 尝试当前看起来并非最优的动作，目的是为了收集更多关于环境的信息，发现潜在的、更优的行动选择。 - 利用...

基于模型的学习

August 8, 2025 • Re-Le

基于模型的学习 1. 相关概念在强化学习中，基于模型的学习（Model-Based Learning）是一种方法，其核心思想是让智能体通过与环境的交互来学习环境的动态模型。这个模型通常包括两个关键部分： - 转移函数 (Transition Function) $T(s, a, s')$：预测在状态 $s$...

无模型学习

August 8, 2025 • Re-Le

无模型学习无模型学习（Model-Free Learning）是一类无需了解环境模型（转移函数 $T$ 和奖励函数 $R$）的强化学习算法。代理直接通过与环境的交互经验来学习价值函数或策略。无模型学习主要分为两大类： - 被动强化学习 (Passive Reinforcement...

强化学习

August 8, 2025 • Re-Le

强化学习 1. 相关概念与马尔可夫决策过程（不同，强化学习是一种在线规划（Online Planning）方法。在传统的MDP（离线规划）中，智能体完全了解环境的转移函数和奖励函数，并以此为基础预先计算出最优策略。在强化学习中，智能体对环境的奖励或状态转移没有任何先验知识。它必须通过探索（Exploration）...

MDP-calculation-exercise

August 8, 2025 • MDP, Re-Le

$discussion3$ $exercise1$ > In micro-blackjack, you repeatedly draw a card (with replacement) that is equally likely to be a 2, 3, or 4. You can either Draw or...

策略迭代

August 7, 2025 • MDP, Re-Le

策略迭代策略迭代是一种用于在马尔可夫决策过程中寻找最优策略 $\pi^$ 的算法。与值迭代相比，策略迭代通常能够更快地收敛，因为它直接优化策略，而策略的收敛速度往往比值的收敛速度快得多。该算法的核心思想是：从一个任意的初始策略开始，通过一个迭代循环不断优化它，直到策略不再发生变化为止。每一次迭代都包含两个核心步骤...

价值迭代

August 7, 2025 • MDP, Re-Le

价值迭代价值迭代 (Value Iteration) 是一种经典的动态规划算法，用于在已知的马尔可夫决策过程中，计算所有状态的最优价值函数 $V^(s)$。其核心思想是通过迭代的方式，不断更新每个状态的价值，直到价值收敛为止。 1. 核心思想算法通过引入“时间限制”的概念，从一个有限的未来开始，逐步扩展到无限的未...

贝尔曼方程

August 7, 2025 • MDP, Re-Le

贝尔曼方程 1. 马尔可夫决策过程与在确定的搜索问题中寻找一个通往目标状态的最优“计划”不同，解决一个马尔可夫决策过程意味着寻找一个最优策略 (Optimal Policy)。策略 $\pi$ 是一个从状态 $s \in S$ 到动作 $a \in A$ 的映射，即 $\pi: S \to...

马尔可夫决策过程

August 7, 2025 • MDP, Re-Le

马尔可夫决策过程 1. 相关概念马尔可夫决策过程（Markov Decision Processes, MDP）为智能体在不确定性环境中进行决策提供了一个数学模型。其核心思想是，智能体的下一个状态只与当前状态和所选动作有关，而与之前的历史无关。一个MDP由以下几个关键部分定义： -...

← Back to all tags