Computer Science/Data Science

[Random Forest] Random Forest ์„ค๋ช… ๋ฐ ์žฅ๋‹จ์ 

_cactus 2024. 11. 15. 10:42
๋ฐ˜์‘ํ˜•

์„ค๋ช…


Random Forest๋Š” ์—ฌ๋Ÿฌ ๊ฐœ์˜ ๊ฒฐ์ • ํŠธ๋ฆฌ(decision tree)๋ฅผ ์กฐํ•ฉํ•ด ์˜ˆ์ธก ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ์•™์ƒ๋ธ” ํ•™์Šต(ensemble learning) ๋ฐฉ๋ฒ• ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค. ์ฃผ๋กœ ๋ถ„๋ฅ˜(classification)์™€ ํšŒ๊ท€(regression) ๋ฌธ์ œ์— ์‚ฌ์šฉ๋˜๋ฉฐ, ๊ฐ๊ฐ์˜ ๊ฒฐ์ • ํŠธ๋ฆฌ๊ฐ€ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต๋œ ํ›„, ์ตœ์ข… ์˜ˆ์ธก๊ฐ’์„ ๋‹ค์ˆ˜๊ฒฐ(voting) ๋˜๋Š” ํ‰๊ท ์„ ํ†ตํ•ด ๊ฒฐ์ •ํ•ฉ๋‹ˆ๋‹ค. ์ด ๊ณผ์ •์—์„œ ๊ฐ ํŠธ๋ฆฌ๋Š” ๋ฐ์ดํ„ฐ์˜ ์ผ๋ถ€์™€ ๋ณ€์ˆ˜์˜ ์ผ๋ถ€๋งŒ์„ ๋žœ๋คํ•˜๊ฒŒ ์‚ฌ์šฉํ•˜์—ฌ ์ƒ์„ฑ๋ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๊ฐœ๋ณ„ ํŠธ๋ฆฌ๊ฐ€ ๊ณผ์ ํ•ฉ(overfitting)๋˜๋Š” ๋ฌธ์ œ๋ฅผ ์ค„์ด๊ณ , ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์ •ํ™•์„ฑ์„ ๋†’์ด๋Š” ๋ฐ ๊ธฐ์—ฌํ•ฉ๋‹ˆ๋‹ค.

Random Forest์˜ ์ฃผ์š” ํŠน์ง•์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:
1. ๋žœ๋ค์„ฑ ๋„์ž…: ๋ฐ์ดํ„ฐ์˜ ์ƒ˜ํ”Œ๊ณผ ํ”ผ์ฒ˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์„ ํƒํ•˜์—ฌ ๊ฐ ํŠธ๋ฆฌ๋ฅผ ๊ตฌ์„ฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
2. ๊ฐ•๊ฑด์„ฑ(Robustness): ๊ฐ ํŠธ๋ฆฌ๊ฐ€ ์„œ๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต๋˜๋ฏ€๋กœ ๊ฐœ๋ณ„ ํŠธ๋ฆฌ๊ฐ€ ์˜ค๋ถ„๋ฅ˜ํ•˜๋”๋ผ๋„ ์ „์ฒด ๋ชจ๋ธ์˜ ์˜ˆ์ธก ์„ฑ๋Šฅ์—๋Š” ํฐ ์˜ํ–ฅ์„ ๋ฏธ์น˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
3. ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€: ์—ฌ๋Ÿฌ ํŠธ๋ฆฌ์˜ ๊ฒฐ๊ณผ๋ฅผ ํ‰๊ท ํ•˜๊ฑฐ๋‚˜ ๋‹ค์ˆ˜๊ฒฐ๋กœ ๊ฒฐ์ •ํ•˜๋ฏ€๋กœ ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๋Š” ํšจ๊ณผ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
4. ๋ณ€์ˆ˜ ์ค‘์š”๋„ ํ‰๊ฐ€: Random Forest๋Š” ๋ชจ๋ธ ํ•™์Šต ๊ณผ์ •์—์„œ ๋ณ€์ˆ˜๋“ค์˜ ์ค‘์š”๋„๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์–ด, ๋ณ€์ˆ˜ ์„ ํƒ์ด๋‚˜ ํ•ด์„์— ์œ ์šฉํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์™€ ๊ฐ™์€ ํŠน์„ฑ ๋•Œ๋ฌธ์— Random Forest๋Š” ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ๋„ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•˜๋ฉฐ, ์˜ˆ์ธก์˜ ์‹ ๋ขฐ์„ฑ๊ณผ ์•ˆ์ •์„ฑ์„ ๋ณด์žฅํ•˜๋Š” ๋ฐ ์ ํ•ฉํ•œ ๋ชจ๋ธ๋กœ ๋„๋ฆฌ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.



์žฅ์ 


1. ๋†’์€ ์˜ˆ์ธก ์„ฑ๋Šฅ: ์—ฌ๋Ÿฌ ํŠธ๋ฆฌ๋ฅผ ์•™์ƒ๋ธ”๋กœ ๊ฒฐํ•ฉํ•˜์—ฌ ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ์—์„œ๋„ ๊ณผ์ ํ•ฉ์„ ์ค„์ด๋ฉฐ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค.
2. ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€: ๋žœ๋ค์„ฑ์„ ํ†ตํ•ด ๊ฐœ๋ณ„ ํŠธ๋ฆฌ๊ฐ€ ํŠน์ • ๋ฐ์ดํ„ฐ ํŒจํ„ด์— ์ง€๋‚˜์น˜๊ฒŒ ๋งž์ถ”๋Š” ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•ฉ๋‹ˆ๋‹ค.
3. ๋ณ€์ˆ˜ ์ค‘์š”๋„ ์ œ๊ณต: ๊ฐ ํ”ผ์ฒ˜์˜ ์ค‘์š”๋„๋ฅผ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์–ด ํ•ด์„์— ๋„์›€์„ ์ฃผ๊ณ , ์ค‘์š”ํ•œ ๋ณ€์ˆ˜ ์‹๋ณ„์ด๋‚˜ ๋ณ€์ˆ˜ ์„ ํƒ์— ์œ ์šฉํ•˜๊ฒŒ ํ™œ์šฉ๋ฉ๋‹ˆ๋‹ค.
4. ๋…ธ์ด์ฆˆ์— ๊ฐ•ํ•จ: ์ผ๋ถ€ ์ด์ƒ์น˜๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ๋”๋ผ๋„ ์ „์ฒด ๋ชจ๋ธ ์„ฑ๋Šฅ์— ํฐ ์˜ํ–ฅ์„ ์ฃผ์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
5. ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ ์šฉ์ด: ๊ฐ ํŠธ๋ฆฌ๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ์ƒ์„ฑ๋˜๋ฏ€๋กœ ๋ณ‘๋ ฌ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ด ํ•™์Šต ์†๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋‹จ์ 


1. ๋†’์€ ๊ณ„์‚ฐ ๋น„์šฉ: ๋งŽ์€ ํŠธ๋ฆฌ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋ชจ๋ธ ํ•™์Šต๊ณผ ์˜ˆ์ธก์— ์ƒ๋Œ€์ ์œผ๋กœ ์‹œ๊ฐ„์ด ๋งŽ์ด ๊ฑธ๋ฆฌ๊ณ , ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ๋งŽ์•„์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
2. ํ•ด์„์˜ ์–ด๋ ค์›€: ๊ฐœ๋ณ„ ํŠธ๋ฆฌ๋Š” ์‰ฝ๊ฒŒ ํ•ด์„ํ•  ์ˆ˜ ์žˆ์œผ๋‚˜, ๋‹ค์ˆ˜์˜ ํŠธ๋ฆฌ๋ฅผ ๊ฒฐํ•ฉํ•œ Random Forest๋Š” ๋ณต์žก์„ฑ์ด ๋†’์•„์ ธ ๋ชจ๋ธ์ด ์™œ ํŠน์ • ์˜ˆ์ธก์„ ํ–ˆ๋Š”์ง€ ์„ค๋ช…ํ•˜๊ธฐ ์–ด๋ ค์šด ๊ฒฝ์šฐ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.
3. ๋งŽ์€ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ: ํŠธ๋ฆฌ ๊ฐœ์ˆ˜, ์ตœ๋Œ€ ๊นŠ์ด, ํ”ผ์ฒ˜ ์ƒ˜ํ”Œ๋ง ๋น„์œจ ๋“ฑ ์กฐ์ •ํ•  ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ๋งŽ์•„ ์ตœ์ ํ™”๋ฅผ ์œ„ํ•œ ์‹œ๊ฐ„์ด ํ•„์š”ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
4. ๊ณ ์ฐจ์› ๋ฐ์ดํ„ฐ์—์„œ ์„ฑ๋Šฅ ์ €ํ•˜ ๊ฐ€๋Šฅ์„ฑ: ํ”ผ์ฒ˜๊ฐ€ ๋งค์šฐ ๋งŽ์€ ๊ฒฝ์šฐ, ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋‚ด๋ฉด์„œ ๋” ๋น ๋ฅธ ์•Œ๊ณ ๋ฆฌ์ฆ˜(์˜ˆ: Gradient Boosting)์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด ํšจ์œจ์ ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์™€ ๊ฐ™์€ ์žฅ๋‹จ์ ์„ ๊ณ ๋ คํ•ด, Random Forest๋Š” ์˜ˆ์ธก ์„ฑ๋Šฅ์ด ์ค‘์š”ํ•œ ๊ฒฝ์šฐ๋‚˜ ๋ฐ์ดํ„ฐ์˜ ๋ณ€๋™์„ฑ์ด ํฐ ๋ฌธ์ œ์—์„œ ํšจ๊ณผ์ ์ธ ์„ ํƒ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

728x90
๋ฐ˜์‘ํ˜•