Week 1 - 学生练习
练习目标
- 巩固对 RL 核心要素 (\(S\), \(A\), \(R\), \(\pi\), \(V\), \(Q\)) 的理解。
- 练习将实际商业场景分解为 RL 问题框架。
- 思考探索 (Exploration) 与利用 (Exploitation) 在不同商业场景下的具体体现。
练习内容
练习 1: 分解商业场景 (强化版)
请选择至少两个以下你感兴趣的商业场景(或自选一个你熟悉的场景),并尝试详细定义其 RL 要素。思考越具体越好。
场景选项:
- 在线广告投放优化: 目标是决定向哪个用户展示哪个广告,以最大化平台的长期收入或广告主的 ROI。
- 客户流失预警与干预: 目标是识别有流失风险的客户,并采取合适的干预措施(如发送优惠券、主动联系)以挽留客户,最大化客户长期价值。
- 供应链库存补货: 管理多个仓库、多种商品的库存水平,决定何时以及从哪个供应商订购多少货物,以最小化总成本(缺货成本 + 库存持有成本 + 订购成本)。
- 个性化学习路径推荐: 为在线学习平台的用户推荐下一步应该学习的课程或练习,以最大化用户的学习效率或知识掌握程度。
- 自选场景: (请先简要描述场景)
对于你选择的每个场景,请回答以下问题:
- 智能体 (Agent) 是谁? (e.g., 定价系统, 推荐引擎, 库存管理算法)
- 环境 (Environment) 包含哪些要素? (e.g., 市场, 用户群体, 竞争对手, 供应链)
- 状态 (State, \(S\)) 可能包含哪些关键信息? (请列出至少 3-5 个具体的状态变量,并思考它们是离散的还是连续的?)
- 动作 (Action, \(A\)) 有哪些可能的选项? (请列出具体的动作,并思考是离散的还是连续的?动作空间大概有多大?)
- 奖励 (Reward, \(R\)) 如何定义才能最好地对齐商业目标? (思考短期 vs. 长期奖励,单一 vs. 多个目标。尝试给出一个具体的奖励函数表达式或描述。)
- 策略 (Policy, \(\pi\)) 可能是什么样的? (尝试用自然语言描述一个简单的基于规则的策略,或者描述 RL 学习到的策略可能的样子。)
- (思考) 这个场景的马尔可夫性质容易满足吗?如果不容易,状态 S 还需要补充哪些信息?
练习 2: 探索与利用的思考
对于你在练习 1 中选择的一个场景:
- 请具体描述在该场景下,“利用 (Exploitation)”可能代表哪些行为?
- 请具体描述在该场景下,“探索 (Exploration)”可能代表哪些行为?
- 过度“利用”可能带来什么风险?
- 过度“探索”可能带来什么风险?
- 你认为在这个场景下,探索和利用哪个更重要?或者说,在什么阶段探索更重要,什么阶段利用更重要?
练习 3: RL vs. 监督学习
思考以下问题,并简述你的理由:
- 为什么用监督学习预测“明天是否下雨”比较合适,而用 RL 决定“今天是否带伞”更合适?
- 为什么用监督学习预测“某个用户是否会点击某个广告”是可能的,但用 RL 决定“应该向这个用户展示哪个广告以最大化长期收益”可能更优?
提交要求
- 请将你的答案整理成一个文档(如 Word, PDF, 或 Markdown 文件)。
- 对于练习 1,请清晰地列出每个选定场景的 \(S\), \(A\), \(R\), \(\pi\) 定义和思考。
- 对于练习 2 和 3,请简明扼要地回答问题并阐述理由。
- 文件命名格式:
姓名_学号_Week1_Exercise.xxx
。 - 通过教学平台提交。