Decision Tree 간.단.명.료

Computer Science/Data Science

_cactus 2021. 3. 8. 00:02

Decision tree
: 의사결정나무
분류(classification)과 회귀분석(regression)에 모두 사용될 수 있기 떄문에 CART(Classification And Regression Tree)라고 불림

node

tree의 node : 질문/답을 담고 있음
- root node : 최상위 node
  - 최상위 node의 속성 feature가 가장 중요한 특성
- leaf node : 마지막 node (말단노드)
- 만약 tree의 모든 leaf node가 pure node가 될 때까지 진행하면 model의 복잡도는 매우 높아지고 overfitting됨
overfitting 방지
1. tree의 생성을 사전에 중지 : pre-prunning (=깊이의 최대를 설정, max_depth)
2. 데이터가 적은 node 삭제/병합 : post-prunning

feature importance

tree 시각화

import graphviz
from sklearn.tree import export_graphviz

classification 분류

새로운 데이터가 특정 terminal node에 속한다는 정보를 확인한 뒤 해당 terminal node에서 가장 빈도가 높은 범주에 새로운 데이처를 분류

regression 회귀

해당 terminal node의 종속변수(y)의 평균을 예측값으로 반환
예측값의 종류 = terminal node의 개수
- 따라서, 만약 terminal node 수가 3개 뿐이라면 새로운 데이터가 1000개 주어진다 하더라도 decision tree는 딱 3종류의 답만 출력

728x90

[Machine Learning] LightGBM이란? ✔ 설명 및 장단점 (0)	2021.05.20
[Machine Learning] 머신러닝, 모델의 편향(bias)과 분산(variance) : trade-off 관계 (0)	2021.05.12
문서유사도 (0)	2021.04.29
Naive Bayes Classifier (1)	2021.03.08
Random Forest 간.단.명.료 (0)	2021.03.08
단순선형회귀 / 다중선형회귀 간.단.명.료 (0)	2021.03.07
K-means Clustering 간.단.명.료 (0)	2021.03.06
머신러닝/AI에서 사용되는 "Ground Truth" 뜻 (5)	2021.03.05

🌷나의 선인장🌵