Post

Hyperband



Hyperband

๐Ÿ“„ Li, Lisha, et al. โ€œHyperband: A novel bandit-based approach to hyperparameter optimization.โ€ The Journal of Machine Learning Research 18.1 (2017): 6765-6816.

๋“ค์–ด๊ฐ€๋ฉฐ

Successive Halving Algorithm์˜ ๋ฌธ์ œ

Hyperband์˜ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” Successive Halving Algorithm์€ ๊ฐ„๋‹จํ•œ ์ปจ์…‰์„ ๊ฐ–๊ณ  ์žˆ์œผ๋ฉด์„œ๋„ ์‹ค์ œ ์„ฑ๋Šฅ๋„ ์ข‹์€ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์ž…๋ ฅ๊ฐ’์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์˜ˆ์‚ฐ $B$์™€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •๊ฐ’ ๊ฐœ์ˆ˜ $n$์„ ์–ด๋–ป๊ฒŒ ์„ค์ •ํ•˜๋Š๋ƒ์— ๋”ฐ๋ผ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ฐฉ์‹์ด ํฌ๊ฒŒ ๋‹ฌ๋ผ์ง„๋‹ค๋Š” ๋ฌธ์ œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

SHA๋Š” ๊ณ ์ •๋œ $B$ ๊ฐ’์— ๋Œ€ํ•ด์„œ $n$ ๊ฐ’์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ๋งค์šฐ ๋‹ค๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๋งŒ๋“ญ๋‹ˆ๋‹ค. $n$ ์ด ํด ์ˆ˜๋ก ๋ชจ๋ธ์˜ ์ค‘๊ฐ„ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ํšŸ์ˆ˜๊ฐ€ ๋งŽ์•„์ง‘๋‹ˆ๋‹ค. ์ •ํ™•ํ•˜๊ฒŒ๋Š” $\lceil \log_2(n) \rceil$ ๋ฒˆ ๊ณ„์‚ฐํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋งค๋ฒˆ ๋ชจ๋ธ์˜ ์ค‘๊ฐ„ ์†์‹ค ํ•จ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•จ์— ์žˆ์–ด์„œ ํ•™์Šต Epoch ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

\[\text{\#Epoch} = \left\lfloor \frac{B}{|S_k| \lceil \log_2(n) \rceil} \right\rfloor\]

๋”ฐ๋ผ์„œ $n$ ์ด ํด ์ˆ˜๋ก ํ•œ ๋ฒˆ์— ํ•™์Šตํ•˜๋Š” Epoch ์ˆ˜๋Š” ์ค„์–ด๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ $n$ ์ด ํฌ๋‹ค๋ฉด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ๊ฐ๊ฐ์„ ์—ฌ๋Ÿฌ ๋ฒˆ ํ•™์Šตํ•  ์ˆ˜๋Š” ์—†์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ํ…Œ์ŠคํŠธํ•˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์ด ์ ๋‹ค๋ฉด ์—ฌ๋Ÿฌ ๋ฒˆ ํ•™์Šตํ•˜์—ฌ ์ฃผ์–ด์ง„ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์ค‘ ์ตœ์ ๊ฐ’์„ ์ฐพ์•„๋‚ผ ์ˆ˜ ์žˆ๊ฒ ์ฃ . ๊ฒฐ๊ตญ $B/n$ ์˜ ๊ฐ’์— ๋”ฐ๋ผ์„œ Exploration-Exploitation Trade-off๊ฐ€ ๋ฐœ์ƒํ•˜๊ณ , ์ด๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๊ฒฐ๊ณผ์— ์ง€๋Œ€ํ•œ ์˜ํ–ฅ์„ ๋ฏธ์นฉ๋‹ˆ๋‹ค.

๐Ÿ”ฌ์กฐ๊ธˆ ๋” ์ž์„ธํ•˜๊ฒŒ!

  • ๋งŒ์•ฝ $n$์˜ ๊ฐ’์ด ์ปค์ง„๋‹ค๋ฉด ์—ฌ๋Ÿฌ ๊ฐœ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ํ…Œ์ŠคํŠธํ•˜์ง€๋งŒ ์—ฌ๋Ÿฌ ๋ฒˆ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๋ฏ€๋กœ Exploration์— ์น˜์ค‘ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ๋ฐ˜๋Œ€๋กœ $n$์˜ ๊ฐ’์ด ์ž‘์•„์ง„๋‹ค๋ฉด ์ ์€ ์ˆ˜์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ๊นŠ๊ฒŒ ํ•™์Šตํ•˜๊ฒŒ ๋˜๋ฏ€๋กœ Exploitation์— ์น˜์ค‘ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๊ทธ๋ ‡๋‹ค๊ณ  ์ ์ ˆํ•œ $n$ ๊ฐ’์„ ๋ฏธ๋ฆฌ ์•Œ ์ˆ˜๋„ ์—†์Šต๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋ธ์ด ์–ด๋– ํ•œ ํ•™์Šต ๊ณก์„ ์„ ๊ทธ๋ฆฌ๋Š”์ง€ ๋ชจ๋ฅด๋Š” ์ƒํƒœ์ด๊ธฐ ๋•Œ๋ฌธ์ธ๋ฐ์š”. ์–ด๋–ค ๊ฒฝ์šฐ์—๋Š” ๋ชจ๋ธ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ”๊พธ๋”๋ผ๋„ ์„ฑ๋Šฅ์ด ํฌ๊ฒŒ ๋ณ€ํ•˜์ง€ ์•Š์•„ ์ ์€ ์ˆ˜์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ํ…Œ์ŠคํŠธํ•˜๋ฉด ๋  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ์˜ ๊ฐ’์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ๋งŽ์ด ์ขŒ์šฐ๋˜๊ฑฐ๋‚˜ ๋ชจ๋ธ์˜ ์ˆ˜๋ ด์ด ์ฒซ๋จธ๋ฆฌ์— ๋น ๋ฅด๊ฒŒ ์ด๋ฃจ์–ด์ง€๋Š” ๊ฒฝ์šฐ์—” ๋งค์šฐ ๋‹ค์–‘ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ํ…Œ์ŠคํŠธํ•ด์•ผ ํ•˜๋ฏ€๋กœ ํฐ $n$ ๊ฐ’์„ ์„ค์ •ํ•ด์•ผ ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

์•„์ด๋””์–ด

SHA์—์„œ ๋ฐœ์ƒ ๊ฐ€๋Šฅํ•œ ๋ฌธ์ œ๋Š” ๊ณ ์ •๋œ ์˜ˆ์‚ฐ $B$ ์— ๋Œ€ํ•ด์„œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ • ๊ฐœ์ˆ˜์ธ $n$ ๋งˆ์ €๋„ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ํ™œ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. Hyperband๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด $n$ ์„ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋ฐ›์ง€ ์•Š๊ณ  ์ž์ฒด์ ์œผ๋กœ ์„ค์ •๋˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ „์ฒด์— ๋Œ€ํ•œ ์˜ˆ์‚ฐ์„ ๋จผ์ € ์„ค์ •ํ•˜์ง€ ์•Š๊ณ  ํ•˜๋‚˜์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์— ๋Œ€ํ•œ ์˜ˆ์‚ฐ $R$ ์„ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ $B$ ๋Š” ์ž์ฒด์ ์œผ๋กœ ์„ค์ •๋˜๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ • ๊ฐœ์ˆ˜์— $R$ ์„ ๊ณฑํ•ด์„œ ์–ป๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

๋ฟ๋งŒ ์•„๋‹ˆ๋ผ $R$ ๊ฐ’์ด ์ปค์งˆ ์ˆ˜๋ก ๋‹ค์–‘ํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์— ๋Œ€ํ•ด ํ…Œ์ŠคํŠธํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋ฉฐ, ๊ฐ๊ฐ์˜ ์„ค์ •์„ ๊นŠ๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์–ด SHA์—์„œ ๋ฐœ์ƒํ•˜๋Š” ํŠธ๋ ˆ์ด๋“œ์˜คํ”„ ๋ฌธ์ œ๋ฅผ ์–ด๋Š ์ •๋„ ์™„ํ™”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Hyperband

Pseudocode for Hyperband Pseudocode for Hyperband

Hyperband๋Š” ๋‹ค์Œ ์ˆœ์„œ๋Œ€๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋งˆ๋‹ค์˜ ์˜ˆ์‚ฐ $R$, ์„ค์ •๊ฐ’ ์ค‘ ๊ฐ€์ ธ๊ฐ€์•ผ ํ•  ๋น„์œจ $\eta$๋ฅผ ์ž…๋ ฅ๊ฐ’์œผ๋กœ ๋ฐ›์Šต๋‹ˆ๋‹ค. ์ด๋•Œ $\eta$์˜ ๊ธฐ๋ณธ๊ฐ’์€ 3์ž…๋‹ˆ๋‹ค.
    • ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด ์ ์ ˆํ•œ $\eta$ ๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ $\eta = e$ ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ๋Š” $\eta$๋Š” 3์ด๋‚˜ 4๋ฅผ ์ถ”์ฒœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
  • ์ž…๋ ฅ๊ฐ’์„ ์ด์šฉํ•ด SHA๋ฅผ ์ˆ˜ํ–‰ํ•  ํšŸ์ˆ˜ (๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” bracket์ด๋ผ๊ณ  ๋ถ€๋ฆ„)์™€ ์ด ์˜ˆ์‚ฐ $B$๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ์ดˆ๊ธฐํ™”ํ•ฉ๋‹ˆ๋‹ค.
    • $s_\text{max} = \lfloor \log_\eta(R) \rfloor$, $B = (s_\text{max}+1) R$
  • ๊ฐ $s \in { s_\text{max}, s_\text{max}-1, \cdots, 0 }$ ๋งˆ๋‹ค ๋‹ค์Œ์˜ SHA๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
    • ์ตœ์ดˆ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ • ๊ฐœ์ˆ˜์™€ ํ•™์Šต Epoch ์ˆ˜๋ฅผ ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.
      • $n = \lceil \frac{B}{R} \frac{\eta^s}{(s+1)} \rceil$, $r = R\eta^{-s}$
        • ์ด๋•Œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์€ ํŠน์ • ๋ถ„ํฌ์—์„œ i.i.dํ•˜๊ฒŒ ์ƒ˜ํ”Œ๋งํ•ฉ๋‹ˆ๋‹ค.
      • SHA๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.
        • ๊ฐ ๋‹จ๊ณ„๋งˆ๋‹ค์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ • ์ˆ˜๋Š” $n_i = \lfloor n \eta^{-1} \rfloor$, ํ•™์Šต Epoch ์ˆ˜๋Š” $r_i = r \eta^i$ ์ž…๋‹ˆ๋‹ค.
        • ๋ชจ๋“  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์— ๋Œ€ํ•ด $r_i$ ๋งŒํผ ํ•™์Šตํ•˜์—ฌ ์„ฑ๋Šฅ์ด ์ข‹์€ $\lfloor n_i / \eta \rfloor$ ๊ฐœ ๋งŒํผ์˜ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ์ €์žฅํ•ฉ๋‹ˆ๋‹ค.
        • ์ €์žฅํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์— ๋Œ€ํ•ด ์œ„ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.
  • ๋ชจ๋“  ๊ฒฐ๊ณผ์— ๋Œ€ํ•ด์„œ ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ๋ฐ˜ํ™˜ํ•ฉ๋‹ˆ๋‹ค.

์‹ค์ œ ์˜ˆ์‹œ

์‹ค์ œ ๊ฐ’์„ ๋Œ€์ž…ํ•˜์—ฌ Hyperband๊ฐ€ ์–ด๋–ป๊ฒŒ ์ž‘๋™ํ•˜๋Š”์ง€ ์‚ดํŽด๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค. $R = 81, \eta = 3$์œผ๋กœ ๋‘๊ฒ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด $s_\text{max} = \lfloor \log_\eta(R) \rfloor = 4$, $B = (s_\text{max}+1)R = 5 \cdot 81$์ด ๋ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ Bracket์˜ ์ˆ˜๋Š” 5๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ด์ œ ๊ฐ๊ฐ์˜ Bracket์— ๋Œ€ํ•ด์„œ SHA๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋˜๋Š”๋ฐ์š”. $s$๊ฐ€ ํฐ ์ˆœ์„œ๋Œ€๋กœ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค.

  1. $s = s_\text{max} = 4$
    • Bracket์—์„œ ํ…Œ์ŠคํŠธํ•  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์˜ ๊ฐœ์ˆ˜๋Š” $n = \lceil \frac{B}{R} \frac{\eta^4}{(s+1)} \rceil = 81$์ด ๋˜๊ณ , ํ•™์Šตํ•  Epoch ์ˆ˜๋Š” $r = R\eta^{-s} = 81 \cdot 3^{-4} = 1$์ด ๋ฉ๋‹ˆ๋‹ค.
    • ์—ฌ๊ธฐ์„œ๋ถ€ํ„ฐ SHA๋ฅผ ์ ์šฉํ•˜๋ฉด ๋˜๋Š”๋ฐ SHA์™€์˜ ์ฐจ์ด๋Š” ๋‚จ๊ธฐ๋Š” ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์˜ ์ˆ˜์ž…๋‹ˆ๋‹ค. SHA๋Š” ์„ค์ •์˜ ๋ฐ˜์„ ๋‚จ๊ฒผ๋‹ค๋ฉด Hyperband์—์„œ๋Š” $1/\eta$ ๋งŒํผ์„ ๋‚จ๊น๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ 1 Epoch ํ•™์Šต ํ›„ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์€ $81 \cdot 1/\eta = 27$ ๊ฐœ์˜ ์„ค์ •๋งŒ์„ ๋‚จ๊น๋‹ˆ๋‹ค.
    • 27๊ฐœ์˜ ์„ค์ •์— ๋Œ€ํ•ด์„œ ๊ธฐ์กด ํ•™์Šต Epoch ์ˆ˜์— $\eta$ ๋งŒํผ์„ ๊ณฑํ•œ 3ํšŒ ํ•™์Šต์„ ๋” ํ•˜๊ณ  ์ด๋ฒˆ์—” 9๊ฐœ์˜ ์„ค์ •์„ ๋‚จ๊น๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰ ํ•˜๋‚˜์˜ ์„ค์ •์ด ๋‚จ์„ ๋•Œ๊นŒ์ง€ ์ด ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค.
  2. $s = 3$
    • Bracket์—์„œ ํ…Œ์ŠคํŠธํ•  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ • ๊ฐœ์ˆ˜๋Š” $n = \lceil \frac{B}{R} \frac{\eta^3}{(s+1)} \rceil = 34$ ๊ฐ€ ๋˜๊ณ  ํ•™์Šตํ•  Epoch ์ˆ˜๋Š” $r = R \eta^{-s} = 81 \cdot 3^{-3} = 3$ ์ด ๋ฉ๋‹ˆ๋‹ค.
    • ๊ทธ๋Ÿฌ๋ฉด 3 Epochs ๋งŒํผ ํ•™์Šตํ•˜์—ฌ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์€ 11๊ฐœ๋ฅผ ๋‚จ๊ธฐ๊ณ , ๊ทธ ๋‹ค์Œ ๋‹ค์‹œ 9ํšŒ๋ฅผ ํ•™์Šตํ•˜์—ฌ 3๊ฐœ๋ฅผ, ๋งˆ์ง€๋ง‰์œผ๋กœ 27ํšŒ๋ฅผ ํ•™์Šตํ•˜์—ฌ ๋งˆ์ง€๋ง‰ ํ•œ ๊ฐœ๋งŒ์„ ๋‚จ๊น๋‹ˆ๋‹ค.

์ด ๋ฐฉ๋ฒ•์œผ๋กœ ๋ชจ๋“  Bracket์— ๋Œ€ํ•ด SHA๋ฅผ ์ˆ˜ํ–‰ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ๋‹ค์Œ ํ‘œ๋Š” ๋ชจ๋“  Bracket์— ๋Œ€ํ•ด ๊ฐ ๋‹จ๊ณ„๋งˆ๋‹ค ๋ช‡ ๊ฐœ์˜ ์„ค์ •์ด ๋‚จ๊ณ  ๋ช‡ ๋ฒˆ์˜ ํ•™์Šต์„ ์ˆ˜ํ–‰ํ–ˆ๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

Bracket examples for Hyperband Bracket examples for Hyperband

๋‚˜๊ฐ€๋ฉฐ

Hyperband๋Š” ์ตœ๊ทผ BOHB๊ฐ€ ๋งŽ์ด ์“ฐ์ด๋Š” ์ถ”์„ธ์—์„œ ๊ทธ ๊ธฐ๋ฐ˜์ด ๋˜๋Š” ์ค‘์š”ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜์ž…๋‹ˆ๋‹ค. Hyperband์˜ ํŠน์ง•์œผ๋กœ๋Š” ์ด๋ก ์  ๊ทผ๊ฑฐ๊ฐ€ ํ™•์‹คํ•œ Successive Halving Algorithm์„ ๊ณ ๋„ํ™”ํ•˜์˜€์œผ๋ฉฐ, ํŠœ๋‹ ์ดˆ๋ฐ˜์— ๋งค์šฐ ๋น ๋ฅด๊ฒŒ ML ๋ชจ๋ธ์„ ์ˆ˜๋ ด์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์‚ฌ์šฉํ•˜๋Š” ์ž…๋ ฅ๊ฐ’์„ ์ตœ์†Œํ™”ํ•˜์—ฌ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต๊ฐ„์„ ํƒ์ƒ‰ํ•˜๋Š” ๋ฐ์— ์žˆ์–ด Exploration-Exploitation Trade-off๋ฅผ ์ค„์˜€๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค.

Figure from [1] Figure from [1]
ํ•™์Šต ์ดˆ๊ธฐ์—๋Š” ๋žœ๋ค ์„œ์น˜ ๋Œ€๋น„ 20๋ฐฐ ๋น ๋ฅด์ง€๋งŒ ์ถฉ๋ถ„ํ•œ ์‹œ๊ฐ„์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ๊ทธ ์ฐจ์ด๊ฐ€ ํฌ์ง€ ์•Š๊ฒŒ ๋จ.

๋‹ค๋งŒ ์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์•„์‰ฌ์šด ์ ์œผ๋กœ๋Š” ์ด๋ฏธ ํŠน์ • Bracket์—์„œ ํƒ์ƒ‰ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฅธ Bracket์—์„œ ๊ทธ๋Œ€๋กœ ๋‹ค์‹œ ํƒ์ƒ‰ํ•  ์ˆ˜๋„ ์žˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ๋งค Bracket๋งˆ๋‹ค ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ์„ค์ •์„ ์ƒˆ๋กœ ์ƒ˜ํ”Œ๋งํ•˜์—ฌ ๊ฐ€์ ธ์˜ค๊ธฐ ๋•Œ๋ฌธ์— ๋ฐœ์ƒํ•˜๋Š” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ํŠœ๋‹ ์ดˆ๋ฐ˜์— ๋น ๋ฅด๊ฒŒ ์ˆ˜๋ ดํ•˜๋Š”๋ฐ์— ๋น„ํ•ด ์‹œ๊ฐ„์ด ์ถฉ๋ถ„ํžˆ ํ๋ฅธ ํ›„์—๋Š” ๊ธฐ์กด ๋ฐฉ๋ฒ•๋“ค์— ๋น„ํ•ด ํฐ ๊ฐœ์„ ์ด ์—†๋‹ค๋Š” ๊ฒƒ๋„ ๋ฌธ์ œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค. ์ถ”ํ›„์— ๋‹ค๋ฃฐ BOHB์—์„œ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ์–ด๋Š ์ •๋„ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์Œ ํฌ์ŠคํŠธ์—์„œ๋Š” BOHB์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด๋„๋ก ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๋ ˆํผ๋Ÿฐ์Šค

[1] https://neptune.ai/blog/hyperband-and-bohb-understanding-state-of-the-art-hyperparameter-optimization-algorithms



This post is licensed under CC BY 4.0 by the author.