UCB 与 ε-贪心:两种经典探索策略的定义与本质差异

背景

在多臂老虎机(Multi-Armed Bandit)问题里,决策者面对一组可选动作(“拉哪台老虎机”或“选哪个策略/模型”),每次选择会得到随机回报。目标是在长期累积回报最大化。这个问题的核心矛盾只有一句话:**探索(exploration)利用(exploitation)**如何平衡——既要尝试不熟悉的选项以获得信息,又要尽量选择当前看起来最好的选项以获得收益。

在所有探索策略中,ε-贪心(epsilon-greedy)UCB(Upper Confidence Bound,上置信界)最具代表性:前者简单直接,后者体现了“用统计置信度驱动探索”的思想。两者表面都能“探索+利用”,但它们的定义本质机制差异非常明显。


1. 问题设定:老虎机、均值与后悔值

设有 ​(K) 个臂(动作)​(a\in{1,\dots,K})。每次选择臂 (a) 会得到回报 ​(X_t(a)),其期望为 ​(\mu(a)=\mathbb E[X_t(a)])。最佳臂为 ​(a^*=\arg\max_a \mu(a))

常用的学习信号是每个臂的经验均值:

[ \hat\mu_t(a)=\frac{1}{N_t(a)}\sum_{s\le t:,A_s=a} X_s(a), ]

其中 (N_t(a)) 是到时刻 (t) 为止臂 (a) 被选择的次数。

评估算法优劣常用“累计后悔值(regret)”:

[ R_T = T\mu(a^*) - \sum_{t=1}^T \mu(A_t), ]

它刻画“因为探索与误判而少赚了多少”。


2. ε-贪心:用固定比例的随机性换信息

2.1 定义(最常见版本)

ε-贪心的决策规则极为简单:

  • 以概率 ​(1-\epsilon) 选择当前经验均值最高的臂(利用)​[A_t = \arg\max_a \hat\mu_{t-1}(a)]
  • 以概率 ​(\epsilon) 在所有臂中均匀随机选一个(探索)

可以写成:

[ \mathbb P(A_t=a)= \begin{cases} 1-\epsilon + \epsilon/K,& a=\arg\max \hat\mu_{t-1}(a) \epsilon/K,& \text{otherwise} \end{cases} ]

2.2 直觉与性格

ε-贪心的探索是**“无差别的”**:探索阶段会把预算平均撒到所有臂上,不管某个臂是否已经被大量采样、估计是否稳定。它的优势是实现容易、计算几乎为零;缺点是探索“有点粗”。

2.3 常见改造:衰减 ε

实践中常让 ​(\epsilon) 随时间衰减(例如 ​(\epsilon_t = c/t)​(\epsilon_t=c/\sqrt{t})),以便后期更多利用。但要注意:这仍是全局衰减,并不区分“哪个臂更不确定”。


3. UCB:用置信区间驱动“定向探索”

ε-贪心在探索时“随便试”。UCB 的核心思想则是:对每个臂估计一个上界:均值 + 不确定度,选择“上界最大”的臂。它等价于一种策略哲学:对不确定的选项保持乐观(optimism in the face of uncertainty)

3.1 定义(UCB1 代表性形式)

经典 UCB1 给每个臂定义一个分数:

[ \text{UCB}_t(a)=\hat\mu_{t-1}(a)+\sqrt{\frac{2\ln t}{N_{t-1}(a)}}. ] 然后选择: [ A_t = \arg\max_a \text{UCB}_t(a). ]

其中第二项是“置信半径”:

  • 当 (N(a)) 很小,半径很大 → 该臂“可能很强”,值得多试
  • 当 (N(a)) 很大,半径收缩 → 该臂已经“看清了”,不再因不确定性获得额外加成

3.2 置信半径从哪里来:Hoeffding 不等式的影子

当回报有界(例如 (X\in[0,1]))且独立时,Hoeffding 不等式给出:

[ \mathbb P\big(\mu(a) \ge \hat\mu(a)+u\big)\le \exp(-2N(a)u^2). ]

若把右侧控制为一个小概率 (p),就得到:

[ u=\sqrt{\frac{\ln(1/p)}{2N(a)}}. ]

把 (p) 设计成随时间衰减(例如 ​(p\propto 1/t^4)),就能导出类似 ​(\sqrt{\ln t / N(a)}) 的结构。这一项正是 UCB “不确定度奖励”的来源:样本越多,估计越准,不确定度越小


4. 本质区别:随机探索 vs 统计驱动的定向探索

两者最关键的分水岭不在“有没有探索”,而在探索如何分配

4.1 探索预算的分配方式不同

  • **ε-贪心:**探索阶段“均匀随机”,对所有臂一视同仁

    • 即使某臂已经采样很多次,仍会在探索时被抽到
  • **UCB:**探索是“按臂自适应”,优先照顾样本少、置信区间宽的臂

    • 同样是试错,但试错更“有方向”

一句话总结:
ε-贪心把探索当作噪声;UCB 把探索当作统计推断的一部分。

4.2 对“采样次数 (N(a))”的使用方式不同

  • ε-贪心:​N(a) 仅通过 ​\hat\mu(a) 间接影响决策(样本多则均值更稳定,但算法不会显式知道“不确定度变小了”)
  • UCB:​N(a) 直接进入决策规则的加成项 ​U(a),明确刻画“估计置信度”

这也是很多人直觉上的答案:UCB 相比 ε-贪心,确实更系统地把“采样次数影响估计准确性”纳入决策机制——但更准确的表述是:UCB 不仅考虑了 ​N(a),还把它转化成了“可比较的置信上界”。

4.3 失败方式不同:谁更容易“乱试”或“卡死”

  • ε-贪心:

    • (\epsilon) 太大 → 长期乱试,后悔值增大
    • (\epsilon) 太小/衰减太快 → 早期误判后可能长期利用错误臂(“卡死”)
  • UCB:

    • 过度乐观项过大(例如把系数设得过高)→ 前期可能探索偏多
    • 但一般不会“永远卡死”,因为不确定度会推动被忽略臂重新被采样

4.4 理论侧:典型后悔值量级(直观层面)

在经典有界随机回报的设定里,UCB1 能给出相当漂亮的理论保证:次优臂被选择的次数是对数级别,累计后悔值常见量级为 (O(\log T))(省略常数与细节条件)。
ε-贪心若用常数 (\epsilon) 则会持续浪费探索预算,后悔值通常不如 UCB;若设计得当的衰减 (\epsilon_t),也能达到不错的效果,但需要更仔细的调参。


5. 具体例子:三台老虎机会发生什么

设三臂真实均值分别是:

  • A:0.60(最优)
  • B:0.58(几乎一样好)
  • C:0.30(明显差)

ε-贪心的行为

探索时仍会抽到 C,哪怕早已确认它很差;如果 (\epsilon=0.1),那么约 10% 的轮次都在“随机试”,其中 (1/3) 会浪费在 C 上,造成稳定损失。

UCB 的行为

早期会较快摸清 C 的下限;一旦 (N(C)) 增大、置信半径收缩,C 的上界会迅速落后于 A/B,从而很少再被选中。探索预算更多会分配在 A 与 B 的精细辨别上——这正是“定向探索”的价值。


6. 实践建议:什么时候用哪一个?

6.1 选择 ε-贪心的场景

  • 需要非常轻量的实现与计算(嵌入式、超大规模在线服务的极简版本)
  • 环境非平稳(均值会变):可以用固定 (\epsilon) 维持持续探索
  • 作为 baseline 或快速原型验证

6.2 选择 UCB 的场景

  • 回报基本平稳、可近似独立且有界(或可归一化到有界)
  • 希望更少“无意义探索”,更快聚焦不确定但有潜力的选项
  • 需要较强的可解释性:每次选择来自“均值+不确定度”的透明打分

6.3 常见工程细节

  • UCB 要处理 (N(a)=0) 的初始化:通常每个臂先拉一次,或把未拉臂的 UCB 设为 (+\infty)
  • UCB 的对数项常用 (\ln t),也可用 (\ln(T)) 或更保守的形式;系数可作为探索强度超参 (c)
  • 若回报噪声近似高斯/方差未知,可能会用 UCB-V、KL-UCB 等更细致版本

7. 结语:两种“探索观”的分野

ε-贪心代表一种朴素但有效的思路:用固定比例的随机性购买信息
UCB 代表另一种更“统计学”的思路:把不确定性量化为置信区间,并让探索精准投向最不确定、最可能有价值的地方

因此,UCB 相比 ε-贪心并非只是“考虑了采样次数 (n)”这么简单,而是将“样本量 → 估计误差 → 置信上界 → 决策”串成了一条闭环:探索不再是无差别的随机扰动,而成为一种由统计保证驱动的理性选择。

Comments