'Machine learning' 태그의 글 목록

[Machine Learning] Logistic Regression 예시를 통해 다중선형회귀 이해하기

Logistic Regression 범주형 변수 예측 모델 Logistic Regression을 알기전에 linear regression을 먼저 알아야. Multiple Linear Regression (다중선형회귀) 수치형 설명변수 X와 연속형 숫자로 이뤄진 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀계수를 데이터로부터 추정하는 모델 이때 회귀계수는 모델의 예측값과 실제값의 차이(오차제곱합 error sum of squared)을 최소로 하는 값 설명변수가 p개인 다중선형회귀의 일반 식 예시 - 1 나이와 혈압 데이터가 주어졌을 때, 오차제곱합을 최소로 하는 회귀계수 구하기 설명변수 X : 나이 종속변수 Y : 혈압 앞서 종속변수 Y는 ‘혈압’으로 연속형 숫자였음. 그렇..

Computer Science/Data Science 2022.06.22

[Machine Learning] 앙상블 기법이란?

Ensemble 기법 Ensemble Learning이란 여러개의 분류기를 생성하고 그 예측을 결합하여 보다 정확한 예측을 내는 기법 강력한 하나의 모델을 사용하는 대신 보다 약한 모델을 여러개 조합하는 방식 Ensemble Learning 종류 앙상블 학습은 3가지 유형으로 분류됨 Voting Bagging Boosting Voting 여러개의 classifier가 투표를 통해 최종 예측결과 결정 서로 다른 알고리즘 여러개 결합하여 사용 Voting 방식 Hard Voting : 다수의 classifier가 예측한 결과값을 최종 결과로 선정 (다수결의 법칙) Soft Voting : 모든 classifier가 예측한 label값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 label값을 최종결과로 선..

Computer Science/Data Science 2022.06.20

[Machine Learning] LightGBM이란? ✔ 설명 및 장단점

📌 Remind LightGBM에 들어가기전에 복습 겸 reminding을 해보자. Light GBM의 GBM은 Gradient Boosting Model로, tree를 기반으로 하는 학습 알고리즘이다. 이 GBM의 학습방식을 쉽게말하면, 틀린부분에 가중치를 더하면서 진행한다고 할 수 있다. Gradient Boosting에서 Boosting은 여러개의 tree를 만들되, 기존에 있는 모델(tree)를 조금씩 발전시켜서 마지막에 이를 합하는 개념으로, Random Forest의 Bagging기법과 다른 방법이다. Boosting하는 방식에도 크게 2가지가 있다. 1. AdaBoost와 같이 중요한 데이터(일반적으로 모델이 틀린 데이터)에 대해 weight를 주는 방식 2. GBDT와 같이 loss fun..

Computer Science/Data Science 2021.05.20

[Machine Learning] 머신러닝, 모델의 편향(bias)과 분산(variance) : trade-off 관계

머신러닝에서 편향과 분산은 언제 쓰이는 용어인가? Supervised Learning(지도학습)에 대해서 간단히 설명해보자면 사람이 정해준 정답이 있고, 우리의 모델은 그 정답을 잘 맞추는 방향으로 학습(training)을 한다. 이때, 학습을 하면서 모델이 내놓는 예측값들의 경향을 표현하기위해 편향과 분산이라는 용어를 사용한다. 쉽게 말하자면, 다음과 같다 A. 예측값과 정답 간의 관계를 "편향"으로 표현 (bias : model의 output과 실제값 사이의 제곱 error, 정확도와 비슷한 개념) B. 예측값끼리의 관계를 "분산"으로 표현 (variance : model이 각기 다른 train set에 대하여 성능의 변화정도가 급하게 변하는지, 안정적으로 변하는지를 나타내는 척도) [딥러닝] Bia..

Computer Science/Data Science 2021.05.12

Decision Tree 간.단.명.료

Decision tree : 의사결정나무 분류(classification)과 회귀분석(regression)에 모두 사용될 수 있기 떄문에 CART(Classification And Regression Tree)라고 불림 node tree의 node : 질문/답을 담고 있음 root node : 최상위 node 최상위 node의 속성 feature가 가장 중요한 특성 leaf node : 마지막 node (말단노드) 만약 tree의 모든 leaf node가 pure node가 될 때까지 진행하면 model의 복잡도는 매우 높아지고 overfitting됨 overfitting 방지 tree의 생성을 사전에 중지 : pre-prunning (=깊이의 최대를 설정, max_depth) 데이터가 적은 node 삭..

Computer Science/Data Science 2021.03.08

Random Forest 간.단.명.료

Ensemble 앙상블 여러 개의 머신러닝 model을 연결하여 강력한 model을 만드는 기법 classifier/regression에 전부 효과적 random forest와 gradient boosting은 둘다 model을 구성하는 기본 요소로 decision tree를 사용한다 random forest 조금씩 다 다른 여러 decision tree의 묶음 랜덤 포레스트의 등장 배경 : 각각의 tree는 비교적 예측을 잘 할 수 있지만, 데이터의 일부에 overfitting하는 경향을 가짐 따라서, 잘 작동하지만 서로 다른 방향으로 overfitting된 tree를 많이 만들고 그 결과를 평균내면 overfitting을 줄일 수 있다 이렇게 하면 tree model의 예측 성능은 유지하되 overf..

Computer Science/Data Science 2021.03.08

머신러닝/AI에서 사용되는 "Ground Truth" 뜻

머신러닝에 관련한 글을 읽다보면 "ground-truth"라는 용어를 많이 접하게 된다. "ground-truth"는 기상학에서 유래하였으며, 어느 한 장소에서 수집된 정보를 의미하는 용어로 사용되었다고 한다. 그렇다면 machine learning/AI의 문맥에서 사용되는 "ground-truth"의 뜻은 무엇인가. What is ground truth? Ground truth isn't true. It's an ideal expected result. It might involve hand-labeling example datapoints to collect desirable answer data for training your system. For example, a set of images mig..

Computer Science/Data Science 2021.03.05

🌷나의 선인장🌵

Machine learning 7

티스토리툴바