[Random Forest] Random Forest ์ค๋ช ๋ฐ ์ฅ๋จ์
์ค๋ช
Random Forest๋ ์ฌ๋ฌ ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ(decision tree)๋ฅผ ์กฐํฉํด ์์ธก ์ฑ๋ฅ์ ํฅ์์ํค๋ ์์๋ธ ํ์ต(ensemble learning) ๋ฐฉ๋ฒ ์ค ํ๋์
๋๋ค. ์ฃผ๋ก ๋ถ๋ฅ(classification)์ ํ๊ท(regression) ๋ฌธ์ ์ ์ฌ์ฉ๋๋ฉฐ, ๊ฐ๊ฐ์ ๊ฒฐ์ ํธ๋ฆฌ๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ํ์ต๋ ํ, ์ต์ข
์์ธก๊ฐ์ ๋ค์๊ฒฐ(voting) ๋๋ ํ๊ท ์ ํตํด ๊ฒฐ์ ํฉ๋๋ค. ์ด ๊ณผ์ ์์ ๊ฐ ํธ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์ผ๋ถ์ ๋ณ์์ ์ผ๋ถ๋ง์ ๋๋คํ๊ฒ ์ฌ์ฉํ์ฌ ์์ฑ๋ฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ๋ณ ํธ๋ฆฌ๊ฐ ๊ณผ์ ํฉ(overfitting)๋๋ ๋ฌธ์ ๋ฅผ ์ค์ด๊ณ , ๋ชจ๋ธ์ ์์ธก ์ ํ์ฑ์ ๋์ด๋ ๋ฐ ๊ธฐ์ฌํฉ๋๋ค.
Random Forest์ ์ฃผ์ ํน์ง์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
1. ๋๋ค์ฑ ๋์
: ๋ฐ์ดํฐ์ ์ํ๊ณผ ํผ์ฒ๋ฅผ ๋ฌด์์๋ก ์ ํํ์ฌ ๊ฐ ํธ๋ฆฌ๋ฅผ ๊ตฌ์ฑํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ์ด ๋ค์ํ ํจํด์ ํ์ตํ ์ ์์ต๋๋ค.
2. ๊ฐ๊ฑด์ฑ(Robustness): ๊ฐ ํธ๋ฆฌ๊ฐ ์๋ก ๋
๋ฆฝ์ ์ผ๋ก ํ์ต๋๋ฏ๋ก ๊ฐ๋ณ ํธ๋ฆฌ๊ฐ ์ค๋ถ๋ฅํ๋๋ผ๋ ์ ์ฒด ๋ชจ๋ธ์ ์์ธก ์ฑ๋ฅ์๋ ํฐ ์ํฅ์ ๋ฏธ์น์ง ์์ต๋๋ค.
3. ๊ณผ์ ํฉ ๋ฐฉ์ง: ์ฌ๋ฌ ํธ๋ฆฌ์ ๊ฒฐ๊ณผ๋ฅผ ํ๊ท ํ๊ฑฐ๋ ๋ค์๊ฒฐ๋ก ๊ฒฐ์ ํ๋ฏ๋ก ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๋ ํจ๊ณผ๊ฐ ์์ต๋๋ค.
4. ๋ณ์ ์ค์๋ ํ๊ฐ: Random Forest๋ ๋ชจ๋ธ ํ์ต ๊ณผ์ ์์ ๋ณ์๋ค์ ์ค์๋๋ฅผ ๊ณ์ฐํ ์ ์์ด, ๋ณ์ ์ ํ์ด๋ ํด์์ ์ ์ฉํ๊ฒ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ด์ ๊ฐ์ ํน์ฑ ๋๋ฌธ์ Random Forest๋ ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์์๋ ๋์ ์ฑ๋ฅ์ ๋ฐํํ๋ฉฐ, ์์ธก์ ์ ๋ขฐ์ฑ๊ณผ ์์ ์ฑ์ ๋ณด์ฅํ๋ ๋ฐ ์ ํฉํ ๋ชจ๋ธ๋ก ๋๋ฆฌ ํ์ฉ๋ฉ๋๋ค.
์ฅ์
1. ๋์ ์์ธก ์ฑ๋ฅ: ์ฌ๋ฌ ํธ๋ฆฌ๋ฅผ ์์๋ธ๋ก ๊ฒฐํฉํ์ฌ ์์ธก ์ฑ๋ฅ์ด ๋ฐ์ด๋ฉ๋๋ค. ํนํ ๋ณต์กํ ๋ฐ์ดํฐ์์๋ ๊ณผ์ ํฉ์ ์ค์ด๋ฉฐ ์ข์ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค.
2. ๊ณผ์ ํฉ ๋ฐฉ์ง: ๋๋ค์ฑ์ ํตํด ๊ฐ๋ณ ํธ๋ฆฌ๊ฐ ํน์ ๋ฐ์ดํฐ ํจํด์ ์ง๋์น๊ฒ ๋ง์ถ๋ ๊ณผ์ ํฉ์ ๋ฐฉ์งํฉ๋๋ค.
3. ๋ณ์ ์ค์๋ ์ ๊ณต: ๊ฐ ํผ์ฒ์ ์ค์๋๋ฅผ ๊ณ์ฐํ ์ ์์ด ํด์์ ๋์์ ์ฃผ๊ณ , ์ค์ํ ๋ณ์ ์๋ณ์ด๋ ๋ณ์ ์ ํ์ ์ ์ฉํ๊ฒ ํ์ฉ๋ฉ๋๋ค.
4. ๋
ธ์ด์ฆ์ ๊ฐํจ: ์ผ๋ถ ์ด์์น๋ ๋
ธ์ด์ฆ๊ฐ ์๋๋ผ๋ ์ ์ฒด ๋ชจ๋ธ ์ฑ๋ฅ์ ํฐ ์ํฅ์ ์ฃผ์ง ์์ต๋๋ค.
5. ๋ณ๋ ฌ ์ฒ๋ฆฌ ์ฉ์ด: ๊ฐ ํธ๋ฆฌ๋ ๋
๋ฆฝ์ ์ผ๋ก ์์ฑ๋๋ฏ๋ก ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํด ํ์ต ์๋๋ฅผ ๋์ผ ์ ์์ต๋๋ค.
๋จ์
1. ๋์ ๊ณ์ฐ ๋น์ฉ: ๋ง์ ํธ๋ฆฌ๋ฅผ ์์ฑํ๊ธฐ ๋๋ฌธ์ ๋ชจ๋ธ ํ์ต๊ณผ ์์ธก์ ์๋์ ์ผ๋ก ์๊ฐ์ด ๋ง์ด ๊ฑธ๋ฆฌ๊ณ , ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ด ๋ง์์ง ์ ์์ต๋๋ค.
2. ํด์์ ์ด๋ ค์: ๊ฐ๋ณ ํธ๋ฆฌ๋ ์ฝ๊ฒ ํด์ํ ์ ์์ผ๋, ๋ค์์ ํธ๋ฆฌ๋ฅผ ๊ฒฐํฉํ Random Forest๋ ๋ณต์ก์ฑ์ด ๋์์ ธ ๋ชจ๋ธ์ด ์ ํน์ ์์ธก์ ํ๋์ง ์ค๋ช
ํ๊ธฐ ์ด๋ ค์ด ๊ฒฝ์ฐ๊ฐ ์์ต๋๋ค.
3. ๋ง์ ํ์ดํผํ๋ผ๋ฏธํฐ: ํธ๋ฆฌ ๊ฐ์, ์ต๋ ๊น์ด, ํผ์ฒ ์ํ๋ง ๋น์จ ๋ฑ ์กฐ์ ํ ํ์ดํผํ๋ผ๋ฏธํฐ๊ฐ ๋ง์ ์ต์ ํ๋ฅผ ์ํ ์๊ฐ์ด ํ์ํ ์ ์์ต๋๋ค.
4. ๊ณ ์ฐจ์ ๋ฐ์ดํฐ์์ ์ฑ๋ฅ ์ ํ ๊ฐ๋ฅ์ฑ: ํผ์ฒ๊ฐ ๋งค์ฐ ๋ง์ ๊ฒฝ์ฐ, ๋น์ทํ ์ฑ๋ฅ์ ๋ด๋ฉด์ ๋ ๋น ๋ฅธ ์๊ณ ๋ฆฌ์ฆ(์: Gradient Boosting)์ ์ ํํ๋ ๊ฒ์ด ํจ์จ์ ์ผ ์ ์์ต๋๋ค.
์ด์ ๊ฐ์ ์ฅ๋จ์ ์ ๊ณ ๋ คํด, Random Forest๋ ์์ธก ์ฑ๋ฅ์ด ์ค์ํ ๊ฒฝ์ฐ๋ ๋ฐ์ดํฐ์ ๋ณ๋์ฑ์ด ํฐ ๋ฌธ์ ์์ ํจ๊ณผ์ ์ธ ์ ํ์ด ๋ ์ ์์ต๋๋ค.