All Posts

Total words: 556401

MDP-calculation-exercise

MDP, Re-Le

$discussion3$ $exercise1$ > In micro-blackjack, you repeatedly draw a card (with replacement) that is equally likely to be a 2, 3, or 4. You can either Draw or...

策略迭代

MDP, Re-Le

策略迭代 策略迭代是一种用于在马尔可夫决策过程中寻找最优策略 $\pi^$ 的算法。与值迭代相比,策略迭代通常能够更快地收敛,因为它直接优化策略,而策略的收敛速度往往比值的收敛速度快得多。 该算法的核心思想是:从一个任意的初始策略开始,通过一个迭代循环不断优化它,直到策略不再发生变化为止。每一次迭代都包含两个核心步骤...

价值迭代

MDP, Re-Le

价值迭代 价值迭代 (Value Iteration) 是一种经典的动态规划算法,用于在已知的马尔可夫决策过程中,计算所有状态的最优价值函数 $V^(s)$。其核心思想是通过迭代的方式,不断更新每个状态的价值,直到价值收敛为止。 1. 核心思想 算法通过引入“时间限制”的概念,从一个有限的未来开始,逐步扩展到无限的未...

贝尔曼方程

MDP, Re-Le

贝尔曼方程 1. 马尔可夫决策过程 与在确定的搜索问题中寻找一个通往目标状态的最优“计划”不同,解决一个马尔可夫决策过程意味着寻找一个最优策略 (Optimal Policy)。 策略 $\pi$ 是一个从状态 $s \in S$ 到动作 $a \in A$ 的映射,即 $\pi: S \to...

马尔可夫决策过程

MDP, Re-Le

马尔可夫决策过程 1. 相关概念 马尔可夫决策过程(Markov Decision Processes, MDP)为智能体在不确定性环境中进行决策提供了一个数学模型。其核心思想是,智能体的下一个状态只与当前状态和所选动作有关,而与之前的历史无关。 一个MDP由以下几个关键部分定义: -...

蒙特卡洛树搜索

Adversarial Search, Games

蒙特卡洛树搜索 1. MCTS 核心思想 对于像围棋这样分支因子极大的应用,传统的Minimax及其变种算法因计算量过大而不再适用。蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS) 为此类问题提供了强大的解决方案。 MCTS基于两个核心理念: 1. 通过模拟进行评估 (Evaluation...

Expectimax 算法

Adversarial Search, Games

Expectimax 算法 1. Expectimax 概念 Minimax算法的核心假设是对手总是做出最优选择,这使其在面对非最优或随机对手时显得过于悲观。例如,在棋牌或骰子游戏中,结果本身具有不确定性,Minimax的“最坏情况”分析不再适用。 Expectimax搜索是Minimax的泛化,专门用于处理这类不确定...

Minimax算法

Adversarial Search, Games

Minimax 算法 1. Minimax 核心思想 Minimax(极小化极大)是一种在零和博弈中做出决策的经典算法。其核心思想是,在一个回合制、信息完全的对抗游戏中,我方(MAX玩家)总是希望最大化自己的收益,而对手(MIN玩家)则总是希望最小化我方的收益。算法假定对手每一步都会做出最优选择。 $a.$ 状态值...

对抗性搜索与游戏理论

Adversarial Search, Games

对抗性搜索与游戏理论 1. 相关概念 在传统搜索问题中,智能体可以使用搜索算法确定最佳计划并直接执行以达到目标。但在对抗性环境中,智能体面临一个或多个试图阻止其达成目标的对手。由于无法确定性地预知对手的策略和反应,传统搜索算法不再适用,我们需要新的算法类别来解决对抗性搜索问题,也就是游戏。 2. 确定性零和游戏...

CSP排序

CSP

CSP排序 1. 排序启发式概念 在约束满足问题的回溯搜索中,排序启发式(Ordering Heuristics)决定了搜索过程中变量选择和值选择的顺序。好的排序策略可以显著减少搜索空间的探索,将指数级的搜索问题转化为多项式时间可解的问题。 排序启发式的核心思想是通过智能的选择顺序来尽早发现冲突或找到解,避...