Successive Halving Algorithm
๐ Jamieson, Kevin, and Ameet Talwalkar. โNon-stochastic best arm identification and hyperparameter optimization.โ Artificial intelligence and statistics. PMLR, 2016.
Non-stochastic Best Arm Identification
Successive Halving Algorithm์ Bandit ๊ธฐ๋ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ ๊ธฐ๋ฒ์ ๋๋ค. Bandit์ด๋ผ๋ ๋จ์ด๋ฅผ ๋ค์ผ๋ฉด ๊ฐ์ฅ ๋จผ์ ๋ ์ค๋ฅด๋ ๊ฒ์ด A/B ํ ์คํธ์ ๋ง์ด ์ฌ์ฉ๋๋ Multi-armed Bandit์ ๋๋ค. ์ฌ๋ฌ ๊ฐ์ ์ฌ๋กฏ๋จธ์ ์ด ์๊ณ , ๊ทธ ์ฌ๋กฏ๋จธ์ ์ ํ (arm)์ ๋น๊ฒจ์ ๋ณด์ (reward)์ ์ป๊ฒ ๋ฉ๋๋ค. ์ด ๋ณด์์ ์ด๋ค ํ๋ฅ ๋ถํฌ๋ก ๋ํ๋๋๋ฐ, ์ด๋ค ์ ๋ต์ผ๋ก ์ฌ๋กฏ๋จธ์ ์ ๊ณจ๋ผ์ผ ์ต๋์ ๋ณด์์ ์ป๋์ง์ ๊ดํ ๋ด์ฉ์ด ๋ฐ๋ก MAB์ ๋๋ค. MAB ๋ฌธ์ ๋ฅผ ํธ๋ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋ ๊ฐ๋ก ๋๋ ์ ์๋๋ฐ์. ํ๋๋ ๊ฐ์ฅ ํฐ ๋ณด์์ ์ฃผ๋ ์ต์ ์ ์ฌ๋กฏ๋จธ์ ์ ํ์ ์ฐพ๋ ๊ฒ์ด๊ณ , ํ๋๋ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ด ๋ค๋ฃจ๋ Exploration-Exploitation Trade-off๋ฅผ ํด๊ฒฐํ๋ ๊ฒ์ ๋๋ค. ๋ณธ ๊ธ์์ ๋ค๋ฃจ๋ Successive Halving Algorithm์ ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ์ธ Best Arm Identification์ ๊ธฐ๋ฐ์ ๋๊ณ ์์ต๋๋ค.
Stochastic vs Non-stochastic
Best Arm Identification ๋ฐฉ๋ฒ๋ ํฌ๊ฒ Stochasticํ ํ๊ฒฝ๊ณผ Non-stochasticํ ํ๊ฒฝ์ผ๋ก ๋๋ฉ๋๋ค. ๋ ผ๋ฌธ์์๋ ์ด๋ ๊ฒ ํํํ๊ณ ์์ต๋๋ค.
๐ฐ Stochastic
๋ชจ๋ $i \in [n], k \geq 1$์ ๋ํด์ $\mathbb{E}[\ell_{i, k}] = \mu_i$๋ฅผ ๋ง์กฑํ๋ $\ell_{i,k}$๋ฅผ $[0, 1]$ ๊ตฌ๊ฐ ๋ด์ ํ๋ฅ ๋ถํฌ์์ ๋ฝ์ i.i.d ์ํ๋ก ๋์. ์ด๋ $\sum^n_{i=1} T_i$๋ฅผ ์ต์ํํ๋ ๋์ $\arg\min_i \mu_i$๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค.
๐ฏ Non-stochastic
๋ชจ๋ $i \in [n], k\geq 1$์ ๋ํด์ ์๊ณ ๋ฆฌ์ฆ์ ํ๋์ ๋ ๋ฆฝ์ ์ธ Loss sequence $\ell_{i, k} \in \mathbb{R}$์ ์์ฑํ๋ค๊ณ ํ์. ๋ ๋์๊ฐ $\nu_i = \lim_{\tau \to \infty} \ell_{i, \tau}$๊ฐ ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํ์. ์ด๋ $\sum^n_{i=1} T_i$๋ฅผ ์ต์ํํ๋ ๋์ $\arg\min_{i} \nu_i$๋ฅผ ์ฐพ๋ ๊ฒ์ด ๋ชฉ์ ์ด๋ค.
ํํ์ด ์ด๋ ต์ง๋ง ๊ฐ ํ๊ฒฝ์์ ์ค์ํ ๋ถ๋ถ์ $\ell_{i, k}$๋ฅผ ์ด๋ป๊ฒ ์ ์ํ๋๋์ ๋๋ค. Stochasticํ ๋ฐฉ๋ฒ์ $\ell_{i, k}$๋ฅผ ํ๋ฅ ๋ถํฌ์์ ๋ฝ์ i.i.d ์ํ์, Non-stochasticํ ๋ฐฉ๋ฒ์์๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ ๋ฆฝ์ ์ธ ์ด๋ค ์์ด์ ์์ฑํฉ๋๋ค.
ํ์ดํผํ๋ผ๋ฏธํฐ ์ต์ ํ๋ Non-stochastic ํ๊ฒฝ์์์ Bandit ๋ฌธ์ ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ฌ๋กฏ๋จธ์ ์ ํ์ ํ๋์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ผ๋ก, $\ell_{i, k}$๋ ํ์ตํ๋ ๋ชจ๋ธ์ ์์ค ํจ์ ๊ฐ์ผ๋ก ๋ณผ ์ ์์ต๋๋ค. ์ด๋ non-stochasticํ๊ณ obliviousํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ฒ ๋๋๋ฐ์. ์์ค ํจ์์ ๊ฐ์ ํ๋ฅ ์ ์ด ์๋ ๊ฒฐ์ ๋ก ์ (deterministic)์ผ๋ก ๋์ค๊ณ , ๊ฐ๊ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ๊ณผ ์์ค ํจ์์ ๊ฐ์ ๋ํ ์ ๋ณด๋ฅผ ๊ณต์ ํ์ง ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฐ ๊ด์ ์์ ๋ณธ ๋ ผ๋ฌธ์์๋ Non-stochasticํ Best Arm Identification์ผ๋ก ํ๋ ์ด๋ฐํ์ฌ ๋ฐฉ๋ฒ๋ก ์ ์ ์ํ๊ณ ์์ต๋๋ค.
Non-stochastic์ด ์ฝ์ง ์์ ์ด์
Stochasticํ ํ๊ฒฝ์ ๋ช ๊ฐ์ง ์ค์ ์ ํตํด Non-stochasticํ ํ๊ฒฝ์ผ๋ก ๋ฐ๋ ์ ์์ต๋๋ค. Stochasticํ ํ๊ฒฝ์์์ Loss ๊ฐ์ธ $\ell^\prime_{i, T_i}$ ๋ฅผ ์ด์ฉํด $\ell_{i, T_i} = \frac{1}{T_i} \sum^{T_i}_{k=1} \ell^\prime_{i, T_i}$ ๋ก ์ค์ ํ๋ฉด ๋ฉ๋๋ค. ์ด ๋ ํฐ ์์ ๋ฒ์น์ ์ํด ๋ค์์ด ์ฑ๋ฆฝํฉ๋๋ค.
\[\lim_{\tau \to \infty} \ell_{i, \tau} = \mathbb{E}[\ell^\prime_{i, 1}].\]๊ทธ๋ฆฌ๊ณ $\ell_{i, T_i} = \min \left\{ \ell^\prime_{i, 1}, \cdots, \ell^\prime_{i, T_i} \right \}$ ๋ก ๋๋ค๋ฉด $\ell_{i, t}$ ๋ bounded, monotonically decreasing sequence๊ฐ ๋ฉ๋๋ค. ๋ฐ๋ผ์ $\ell_{i, t}$ ๋ Monotone Convergence Theorem์ ์ํด ๋ฐ๋์ ๊ทนํ๊ฐ์ ๊ฐ๊ฒ ๋ฉ๋๋ค.
Stochasticํ ํ๊ฒฝ๊ณผ Non-stochasticํ ํ๊ฒฝ์ ์ฐจ์ด๋ ๊ทนํ๊ฐ์ผ๋ก ์๋ ดํ๋ ์๋์์ ๋ํ๋ฉ๋๋ค. Stochasticํ ํ๊ฒฝ์ ์๋ ดํ๋ ์๋๋ฅผ ์ ์ ์์ง๋ง Non-stochastic ํ๊ฒฝ์ ์ ์ ์์ต๋๋ค. Stochasticํ ์ค์ ์์ $\hat{\mu}_{i, T_i} = \frac{1}{T_i} \sum^{T_i}_{k=1} \ell_{i, k}$๋ก ๋์ ๋ ๋ชจ๋ $i \in [n], T_i > 0$ ์ ๋ํด ๋ค์์ ๋ง์กฑํฉ๋๋ค.
\[\left| \hat{\mu}_{i, T_i} - \mu_i \right| \leq \sqrt{\frac{\log(4nT_i^2)}{2T_i}}.\]๐ง ์ด ์์ด ์ฑ๋ฆฝํ๋ ์ด์ ๋?
$X_t$๊ฐ $[0, 1]$ ์์ ์๊ณ , $n > 1$ ์ผ ๋ ๋ค์์ด ์ฑ๋ฆฝํ๋ค.
\[P \left( \bigcup^\infty_{t=1} \left\{ \left| \frac{1}{t} \sum^t_{s=1} X_s - \mathbb{E}[X_s] \right| \geq \sqrt{\frac{\log(4nt^2)}{2t}} \right\} \right) \leq \frac{1}{n}.\]์ฆ๋ช .
Booleโs Inequality์ ์ํด์ ๋ค์์ด ์ฑ๋ฆฝํฉ๋๋ค.
\[P \left( \bigcup^\infty_{t=1} \left\{ \left| \frac{1}{t} \sum^t_{s=1} X_s - \mathbb{E}[X_s] \right| \geq \sqrt{\frac{\log(4nt^2)}{2t}} \right\} \right) \leq \sum^\infty_{t=1} P \left( \left| \frac{1}{t} \sum^t_{s=1} X_s - \mathbb{E}[X_s] \right| \geq \sqrt{\frac{\log(4nt^2)}{2t}} \right).\]Hoeffdingโs Inequality์ ๋ฌดํ ๊ธ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์์ ์ป์ ์ ์์ต๋๋ค.
\[\begin{aligned} \sum^\infty_{t=1} P \left( \left| \frac{1}{t} \sum^t_{s=1} X_s - \mathbb{E}[X_s] \right| \geq \sqrt{\frac{\log(4nt^2)}{2t}} \right) &\leq \sum^\infty_{t=1} 2e^{-\log(4nt^2)} \\ &\leq \sum^\infty_{t=1} \frac{2}{4nt^2} \\ &\leq \sum^\infty_{t=1} \frac{1}{2nt^2} \\ &\leq \frac{1}{2n} \sum^\infty_{t=1} \frac{1}{t^2} \\ &= \frac{1}{2n} \cdot \frac{\pi^2}{6} \\ &\leq \frac{1}{2n} \cdot 2 = \frac{1}{n} &\blacksquare \end{aligned}\]
Non-stochasticํ ํ๊ฒฝ์์์ ๊ฐ์ ์ $\lim_{\tau \to \infty} \ell_{i, \tau}$ ๊ฐ ์กด์ฌํ๋ฉด ๋ค์์ ๋ง์กฑํ๋ ์ฆ๊ฐํ์ง ์๋ ํจ์ $\gamma_i$ ๊ฐ ์กด์ฌํ๋ค๋ ๊ฒ์ ๋๋ค.
\[\left| \ell_{i, t} - \lim_{\tau \to \infty} \ell_{i, \tau} \right| \leq \gamma_{i}(t) \to 0 \quad \text{ as} \quad t \to \infty\]์ ๋ด์ฉ์ ๊ทนํ๊ฐ์ผ๋ก์ ์๋ ด์ ๋ณด์ฅํด์ฃผ์ง๋ง ์ผ๋ง๋ ๋นจ๋ฆฌ $\gamma_i(t)$ ๊ฐ 0์ผ๋ก ๋๋ฌํ๋์ง๋ ์๋ ค์ฃผ์ง ์์ต๋๋ค. ์ด ์ฌ์ค์ ๋ค์์ ๋ ๊ฐ์ง ๊ฒฐ๊ณผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.
- ๊ฒฐ๊ตญ Best Arm์ด ์กด์ฌํ๊ธฐ๋ ํ๋ค.
- Best Arm์ธ์ง ํ์ธํ ์ ์๊ฑฐ๋ Best Arm์ ์ ํํ ๊ฐ์ ์์๋ผ ์ ์๋ค.
๋ณธ ๋ ผ๋ฌธ์ ๊ธฐ์กด์ ์ ์๋์๋ Successive Halving Algorithm์ ๋ํด ์ ๋ด์ฉ์ ํตํด ์ ํด์ง ์์ฐ(budget) ๋ด์์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ต์ ํํ๋ ํจ๊ณผ์ ์ด๊ณ ํจ์จ์ ์ธ ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค.
Successive Halving Algorithm
Successive Halving Algorithm์ ๋ค์ ์์๋ก ์๋ํฉ๋๋ค.
- ์
๋ ฅ๊ฐ์ผ๋ก ์์ฐ $B$ ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ๊ฐ ๊ฐ์ $n$ ์ ๊ฐ์ต๋๋ค.
- ๋ ๊ฐ์ ์ ๋ ฅ๊ฐ ์ค ์์ฐ $B$ ๋ $B \leftarrow n$, $B \leftarrow 2B$ ๋ก ์ค์ ํ๋ ๋๋ธ๋ง ํธ๋ฆญ (doubling trick)์ผ๋ก ์์จ ์ ์์ต๋๋ค.
- ๊ทธ ๋ค์ ์ต์ด ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์งํฉ $S_0$ ์ ์ด๊ธฐํํฉ๋๋ค.
- ๋ค์์ ๊ณผ์ ์ ํ๋์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ด ๋จ์ ๋๊น์ง ๋ฐ๋ณตํฉ๋๋ค.
- $S_k$ ์ ๋จ์ ์๋ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ๋ค๋ก ๋ชจ๋ธ์ $r_k$ Epoch ๋งํผ ๋ ํ์ตํ๊ณ $R_k$ ๋ฅผ ์ง๊ธ๊น์ง ํ์ตํ Epoch ์๋ก ์ค์ ํฉ๋๋ค.
- ํ์ตํ ๋ชจ๋ธ ์ค์์ ์์ค ํจ์ ๊ฐ์ธ $\ell_{i, k}$ ๋ฅผ ๊ธฐ์ค์ผ๋ก ์ฑ๋ฅ์ด ์ข์ง ์์ ์ ๋ฐ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ๊ฐ์ ๋ฒ๋ฆฝ๋๋ค.
- ๋จ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ $S_{k+1}$ ๋ก ์ค์ ํฉ๋๋ค.
- ๋ง์ง๋ง์ผ๋ก ๋จ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ๋ฐํํฉ๋๋ค.
์ค์ ์์
์ดํด๋ฅผ ์ํด์ ์ง์ ๊ฐ์ ๋์ ํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ด ์ด๋ป๊ฒ ์๋ํ๋์ง ์์๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. ์ฐ์ ์์ฐ $B$ ๋ฅผ 32๋ก, ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ๊ฐ ๊ฐ์ $n$ ์ 8๋ก ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ๊ทธ๋ฌ๋ฉด ์ต์ด ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์งํฉ $S_0$ ์ ํฌ๊ธฐ๋ ๋น์ฐํ 8์ด๊ณ , ์๊ณ ๋ฆฌ์ฆ์ ๋ฐ๋ณต์ $k=0$ ๋ถํฐ $k = \lfloor \log_2(n) \rfloor -1 = 2$ ๊น์ง ์งํํฉ๋๋ค.
- $k=0$
- $r_0 = \lfloor \frac{32}{ |S_0| \lceil \log_2(8) \rceil} \rfloor = \lfloor \frac{32}{8 \cdot 3} \rfloor = 1$
- $S_0$ ๋ด ๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ 1 Epoch ๋งํผ ํ์ตํ๊ณ , ์ฑ๋ฅ์ด ๋ฎ์ ์ ๋ฐ์ ๋ฒ๋ฆฝ๋๋ค.
- ๋ฐ๋ผ์ $|S_1| = 4$ ๊ฐ ๋ฉ๋๋ค.
- $k=1$
- $r_1 = \lfloor \frac{32}{|S_1| \lceil \log_2(8) \rceil} \rfloor = \lfloor \frac{32}{4 \cdot 3} \rfloor = 2$
- $S_1$ ๋ด ๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ 2 Epochs ๋งํผ ํ์ตํ๊ณ , ์ฑ๋ฅ์ด ๋ฎ์ ์ ๋ฐ์ ๋ฒ๋ฆฝ๋๋ค.
- ๋ฐ๋ผ์ $|S_2| = 2$ ๊ฐ ๋ฉ๋๋ค.
- $k=2$
- $r_2 = \lfloor \frac{32}{|S_2| \lceil \log_2(8) \rceil} \rfloor = \lfloor \frac{32}{2 \cdot 3} \rfloor = 5$
- $S_2$ ๋ด ๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ 5 Epochs ๋งํผ ํ์ตํ๊ณ , ์ฑ๋ฅ์ด ๋ฎ์ ์ ๋ฐ์ ๋ฒ๋ฆฝ๋๋ค.
- ๋ฐ๋ผ์ $|S_3| = 1$์ด ๋๊ณ , $S_3$์ ์กด์ฌํ๋ ๋จ ํ๋์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐํํฉ๋๋ค. ์ด ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ SHA์์ ์ฐพ๋ ์ต์ ํ์ดํผํ๋ผ๋ฏธํฐ์ ๋๋ค.
SHA์ ์๋ ด์ฑ ๋ณด์ฅ
โ ๏ธ ์๋ ๋ด์ฉ์ ์์ธํ ์ดํด๋ฅผ ์ํ์๋ ๊ฒฝ์ฐ์๋ง ๋ณด์๋ฉด ๋ฉ๋๋ค. ํ์์ ์ธ ๋ด์ฉ์ ์๋๋๋ค. ๐
๋ณด๊ธฐ์๋ ๊ฐ๋จํด๋ณด์ด๋๋ฐ ์ด ์๊ณ ๋ฆฌ์ฆ์ด ์ต์ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ์ฐพ์์ค๋ค๋ ๋ณด์ฅ, ์ฆ ์๊ณ ๋ฆฌ์ฆ์ ์๋ ด์ฑ ๋ณด์ฅ์ ์ด๋ป๊ฒ ๋๋๊ฑธ๊น์? ๋ ผ๋ฌธ์์๋ ์ฌ๋ฌ ์ ๋ฆฌ(Theorem)๋ฅผ ์ด์ฉํ์ฌ ์๋ ด์ฑ์ ๋ํ ๋ด์ฉ์ ์๋ฐํ๊ฒ ๋ค๋ฃจ๊ณ ์๋๋ฐ, ๋ณธ ํฌ์คํธ์์๋ ์ฝ์์ผ๋ก ๋ค๋ฃจ๋๋ก ํ๊ฒ ์ต๋๋ค.
(1) ์ ์ฒด ์ํ์ ์๊ฐ ์์ฐ์ ๋์ง ์์
์ฐ์ ์๊ณ ๋ฆฌ์ฆ์์ ๋ฐ์ํ๋ ์ ์ฒด ์ํ์ด ์์ฐ $B$๋ฅผ ๋์ง ์๋ ๊ฒ๋ถํฐ ๋ณด์ฌ์ผ ํฉ๋๋ค. ๋ง์ฝ ๋๊ฒ ๋๋ค๋ฉด ์๋ ด์ ๋์งธ์น๊ณ ์๊ณ ๋ฆฌ์ฆ์ ์ ํจ์ฑ์ด ์ฌ๋ผ์ง๋๊น์. ์ ์ฒด ์ํ์ ์๋ ๋งค ๋จ๊ณ๋ง๋ค์ ํ์ดํผํ๋ผ๋ฏธํฐ ์งํฉ ๋ด ์์์ ์์ ํ์ตํ Epoch ์๋ฅผ ๊ณฑํ ๊ฒ๊ณผ ๊ฐ์ผ๋ฏ๋ก ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
\[\text{\#Samples} = \sum_{k=0}^{\lceil \log_2(n) \rceil -1} |S_k| \left\lfloor \frac{B}{|S_k| \lceil \log_2(n) \rceil} \right\rfloor\]์ฌ๊ธฐ์ floor function์ ์ฑ์ง์ ์ด์ฉํด์ผ ํฉ๋๋ค.. ๋ถ๋ชจ์ ์๋ $|S_k|$ ๋ ์์ฐ์์ด๊ธฐ ๋๋ฌธ์ ์ด ๊ฐ์ floor function ๋ฐ์ผ๋ก ๋บ์ ๋ ์์ซ์ ์๋ ์๊ฐ ๋ฐ์ํด์ $|S_k|$ ๋ฅผ floor function ๋ฐ์ผ๋ก ๋บ์ ๋๊ฐ ๋ ํฐ ์๊ฐ ๋ฉ๋๋ค. ๋ฐ๋ผ์ ๋ค์๊ณผ ๊ฐ์ด ์ ๋ฆฌํ ์ ์์ต๋๋ค.
\[\begin{aligned} \sum_{k=0}^{\lceil \log_2(n) \rceil -1} |S_k| \left\lfloor \frac{B}{|S_k| \lceil \log_2(n) \rceil} \right\rfloor &\leq \sum_{k=0}^{\lceil \log_2(n) \rceil -1} |S_k| \frac{1}{|S_k|} \left\lfloor \frac{B}{\lceil \log_2(n) \rceil} \right\rfloor \\ &= \sum_{k=0}^{\lceil \log_2(n) \rceil -1} \left\lfloor \frac{B}{\lceil \log_2(n) \rceil} \right\rfloor \\ & \leq \sum_{k=0}^{\lceil \log_2(n) \rceil -1} \frac{B}{\lceil \log_2(n) \rceil} = B \end{aligned}\]๋ฐ๋ผ์ ์๊ณ ๋ฆฌ์ฆ์์ ๋ฐ์ํ๋ ์ ์ฒด ์ํ์ ์๋ ์์ฐ๋ณด๋ค ์๊ฑฐ๋ ๊ฐ์ต๋๋ค.
(2) ์๋ ด์ฑ ๋ณด์ฅ
๋ชจ๋ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ $i = 1, 2, \cdots, n$์ ๋ํด์ ๋ค์์ ์ ์ํฉ๋๋ค.
\[\nu_i = \lim_{\tau \to \infty} \ell_{i, \tau}\]์ด ๊ฐ์ ์์์์ Non-stochasticํ ํ๊ฒฝ์์์ ๊ฐ์ ์ ์ํด ๋ฐ๋์ ์กด์ฌํ๋ ๊ฐ์ ๋๋ค. ์ผ๋ฐ์ฑ์ ์์ง ์๊ณ ๋ค์๊ณผ ๊ฐ์ด ๊ฐ์ ํ๊ฒ ์ต๋๋ค. ๋จ์ํ ๊ฐ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ์ฑ๋ฅ ์์ผ๋ก ์ฌ์ ๋ ฌํ๋ค๊ณ ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
\[\nu_1 \leq \nu_2 \leq \cdots \leq \nu_n.\]๊ทธ๋ฆฌ๊ณ ๊ฐ๊ฐ์ $i = 1, 2, \cdots, n$์ ๋ํด์ ๋ค์์ ๋ง์กฑํ๋ point-wise smallest, non-increasingํ $t$์ ๋ํ ํจ์ $\gamma_i(t)$ ๋ฅผ ์ ์ํฉ๋๋ค.
\[\left| \ell_{i, t} - \nu_i \right| \leq \gamma_i(t) \quad \forall t. \tag{*}\]$\gamma_i(t)$ ๋ $\ell_{i, t}$ ์ ๊ทธ ๊ทนํ๊ฐ $\nu_i$ ์ ์ฐจ์ด๋ฅผ boundํ๋ ์ด๋ค ํจ์๊ฐ ๋ฉ๋๋ค. ์ฌ๊ธฐ๊น์ง ์ ์๊ฐ ๋์๋ค๋ฉด ์์์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ $i$ ์ ์ด๋ค ์์ $t_i$ ์์์ ์์ค ํจ์๊ฐ $\ell_{i, t_i}$ ์ ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข๊ฒ ๋์ฌ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ์ด๋ค ์์ $t_1$ ์์์ ์์ค ํจ์๊ฐ $\ell_{1, t_1}$ ์ ์ฐจ์ด๋ฅผ ๊ณ์ฐํด๋ด ์๋ค.
\[\begin{aligned} \ell_{i, t_i} - \ell_{1, t_1} &= (\ell_{i, t_i} - \nu_i) + (\nu_1 - \ell_{1, t_1}) + 2\left(\frac{\nu_i - \nu_1}{2}\right) \\ & \geq -\gamma_i(t_i) - \gamma_1(t_1) + 2\left(\frac{\nu_i - \nu_1}{2}\right) & \text{by (*)} \end{aligned}\]์ฌ๊ธฐ์ $\gamma_i(t)$ ์ ๋ํ ์ ์ฌ ์ญํจ์๋ฅผ ๊ณ ๋ คํฉ๋๋ค.
\[\gamma_i^{-1}(\alpha) = \min \{ t \in \mathbb{N} \mid \gamma_i(t) \leq \alpha \} \quad \forall i \in [n]\]๋ง์ฝ $t_i > \gamma_i^{-1} \left( \frac{\nu_i - \nu_1}{2} \right)$์ด๋ฉด์ $t_1 > \gamma_1^{-1} \left( \frac{\nu_i - \nu_1}{2} \right)$ ๋ผ๋ฉด $\gamma_i(t)$ ๋ non-increasing function์ด๊ธฐ ๋๋ฌธ์ ๋ค์์ด ์ฑ๋ฆฝํฉ๋๋ค.
\[\gamma_i(t_i) < \frac{\nu_i - \nu_1}{2} \quad \text{and} \quad \gamma_1(t_1) < \frac{\nu_i - \nu_1}{2}\]๋ฐ๋ผ์ ์ (12)๋ ๋ค์๊ณผ ๊ฐ์ด ๋ค์ ์ธ ์ ์์ต๋๋ค.
\[\begin{aligned} \ell_{i, t_i} - \ell_{1, t_1} &= (\ell_{i, t_i} - \nu_i) + (\nu_1 - \ell_{1, t_1}) + 2\left(\frac{\nu_i - \nu_1}{2}\right) \\ & \geq -\gamma_i(t_i) - \gamma_1(t_1) + 2\left(\frac{\nu_i - \nu_1}{2}\right) > 0 \end{aligned}\]๋ณด๋ค ์๋ฐํ๊ฒ ๋งํ์๋ฉด ๋ค์์ด ์ฑ๋ฆฝํฉ๋๋ค.
\[\min \{ t_i, t_1 \} > \max \left\{ \gamma_i^{-1} \left( \frac{\nu_i - \nu_1}{2} \right), \gamma_1^{-1} \left( \frac{\nu_i - \nu_1}{2} \right) \right\} \implies \ell_{i, t_i} > \ell_{1, t_i}\]์ด๋ฅผ ํตํด ์ ๋นํ ์์์ ๋ ์์ , $t_i$์ $t_1$์์ $\ell_{i, t_i} > \ell_{1, t_1}$ ๊ฐ ์ฑ๋ฆฝํ๋ค๋ฉด ํ์ต ์ค๊ฐ์ ์์ค ํจ์๋ฅผ ๋น๊ตํ๋ ๊ฒ๋ง์ผ๋ก ์ต์ข ์๋ ด๊ฐ์ธ $\nu_i$์ $\nu_1$์ ๋์ ๊ด๊ณ๋ฅผ ๋น๊ตํ ์ ์๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ง๊ด์ ์ผ๋ก ์๊ฐํด๋ณธ๋ค๋ฉด $\gamma_i(t)$๊ฐ ๋ ์๋ ด๊ฐ $\nu_i$์ $\nu_1$์ ํ๊ท ๋ณด๋ค ์์์ง๊ฒ ๋๋ $t$๋ ์ถฉ๋ถํ ํฐ ์๊ฐ ๋ ๊ฒ์ ๋๋ค. $t$๋ฅผ ํฌ๊ฒ ์ก๊ธฐ ์ํด์ ์ด ์์ฐ $B$๋ฅผ ์ถฉ๋ถํ ํฌ๊ฒ ์ก์์ผ ํฉ๋๋ค. ๋ฐ๋ผ์ ์ถฉ๋ถํ ํฐ $B$ ๊ฐ์ ๊ฐ๋๋ค๋ฉด ์ด๋ ๊ฒฐ๊ตญ SHA๊ฐ ์ต์ ์ ํ์ดํผํ๋ผ๋ฏธํฐ ์ค์ ์ ์ฐพ์๋ด๊ธฐ์ ์ถฉ๋ถํ๊ฒ ๋ฉ๋๋ค.
๋ ํผ๋ฐ์ค
[1] Feurer, Matthias, and Frank Hutter. โHyperparameter optimization.โ Automated machine learning. Springer, Cham, 2019. 3-33.