Week 8 - 学生练习
Q-Learning 应用讨论与中期回顾
练习目标
- 练习将 Q-Learning 思想应用于分析商业问题(动态定价)。
- 深入思考 MDP 定义中状态、动作、奖励设计的挑战与权衡。
- 理解表格型 Q-Learning 在复杂问题中的局限性。
- 复习并检验对前半学期核心概念的掌握程度。
练习内容
练习 1: 动态定价 MDP 定义深化
回顾本周讲义中讨论的简单动态定价案例(单一商品,有限时间,目标是最大化总收入)。
- 状态表示 S = (剩余时间 t, 当前库存 k):
- 你认为这个状态表示足够捕捉做出最优定价决策所需的所有关键信息吗?还缺少哪些可能重要的信息?(至少列举 2 项)
- 如果加入了“上一个时间段的销售量”作为状态的一部分,你认为这有助于更好地近似马尔可夫性质吗?为什么?
- 奖励函数 R = 当天销售收入:
- 如果商店的目标不仅仅是最大化本周收入,还包括维持良好的品牌形象(避免被认为价格波动过大或宰客),你会如何修改奖励函数 R 来反映这个目标?(描述性说明即可,思考可能加入哪些正/负奖励项)
- 如果目标是最大化总利润而不是总收入,假设商品的单位成本是 C,奖励函数 R 应该如何修改?
- 动作空间 A = {P_low, P_mid, P_high}:
- 如果我们将动作空间定义为更细的价格档位(例如 10 个价格点),这会对 Q 表的大小和学习效率产生什么影响?
- 如果允许价格连续变化(例如,在某个范围内任意定价),表格型 Q-Learning 还能直接应用吗?为什么?
练习 2: 表格型 Q-Learning 的局限性思考
继续考虑动态定价案例。
- 状态空间大小: 假设销售周期是 30 天 (T=30),最大库存量是 500 件 (K=500),有 5 个离散的价格点可选 (A=5)。那么存储这个问题的 Q 表需要多少个条目?(写出计算方式和结果)
- 维度灾难: 如果我们往状态 S 中再加入一个维度,例如“竞争对手的价格”(假设有 10 种可能的价格水平),那么 Q 表的大小会变成多少?这说明了什么问题?
- 泛化能力: 假设智能体通过学习,知道了在状态 (t=5, k=100) 时,选择 P_mid 是个好动作。对于一个从未遇到过的状态 (t=5, k=101),表格型 Q-Learning 能否利用之前学到的知识来判断 P_mid 在这个新状态下的价值?为什么?这体现了表格型方法的什么局限性?
练习 3: 中期核心概念回顾
请简要回答以下问题,检验你对前半学期核心概念的理解:
- MDP 五元组: 写出马尔可夫决策过程 (MDP) 的五个组成要素,并简述每个要素的含义。
- Bellman 期望 vs. 最优: Bellman 期望方程和 Bellman 最优方程的主要区别是什么?哪个用于评估给定策略?哪个用于描述最优策略的价值?
- MC vs. TD(0): 蒙特卡洛 (MC) 预测和时序差分 (TD(0)) 预测在更新价值函数时,使用的“目标值”分别是什么?哪个方法存在偏差?哪个方法方差更大?
- On-Policy vs. Off-Policy: 请用一句话概括同策略 (On-Policy) 和异策略 (Off-Policy) 的核心区别。SARSA 和 Q-Learning 分别属于哪一类?
- SARSA vs. Q-Learning 更新: 写出 SARSA 和 Q-Learning 的核心更新规则(Q 值更新部分即可),并指出它们的关键差异点。
提交要求
- 请将你的答案整理成一个文档(如 Word, PDF, 或 Markdown 文件)。
- 对于练习 1, 2, 3,请清晰地回答问题并阐述理由或计算过程。
- 文件命名格式:
姓名_学号_Week8_Exercise.xxx
。 - 通过教学平台提交。