'Computer Science/Data Science' 카테고리의 글 목록

[Random Forest] Random Forest 설명 및 장단점

설명 Random Forest는 여러 개의 결정 트리(decision tree)를 조합해 예측 성능을 향상시키는 앙상블 학습(ensemble learning) 방법 중 하나입니다. 주로 분류(classification)와 회귀(regression) 문제에 사용되며, 각각의 결정 트리가 독립적으로 학습된 후, 최종 예측값을 다수결(voting) 또는 평균을 통해 결정합니다. 이 과정에서 각 트리는 데이터의 일부와 변수의 일부만을 랜덤하게 사용하여 생성됩니다. 이를 통해 개별 트리가 과적합(overfitting)되는 문제를 줄이고, 모델의 예측 정확성을 높이는 데 기여합니다. Random Forest의 주요 특징은 다음과 같습니다: 1.랜덤성 도입: 데이터의 샘플과 피처를 무작위로 선택하여 각 트리를 구성하..

Computer Science/Data Science 2024.11.15

Collaborative Denoising Auto-Encoders for Top-N Recommender Systems1. IntroductonCDAE (Collaborative Denoising AutoEncoder) 는 DAE를 Collaborative Filtering에 적용하여 top-N 추천에 활용한 모델모델은 input으로 corrupted된 user-item 선호도를 주고 이것의 latent representation을 학습→ 이는 corrupted되기 전의 원래의 input을 더 잘 복원해줌2. Problem DefinitionNotation$U$ : set of users$I$ : set of items$O = (u,i,y_{ui})$ : user의 item에 대한 선호도implict ..

Computer Science/Data Science 2024.09.24

[머신러닝] Likelihood "우도" 란?

우리가 머신러닝을 공부하다보면 MLE(Maximum LIkelihood Estimation)을 많이 접한다. 여기서 의미하는 Likelihood가 무엇인가? 최대우도법(MLE)란 - 모수적인 데이터 밀도 추정 방법 - 파라미터 𝜃 = (𝜃1,𝜃2,..𝜃n)으로 구성된 어떤 확률밀도함수 P에서 관측된 표본 데이터 집합을 x = (x1,x2,..,xn)라 할 때, 이 표본들에서 파라미터 𝜃 = (𝜃1,𝜃2,..𝜃n)을 추정하는 방법이다. 좀 더 쉬운 이해를 위해 그림과 에시를 보면서 MLE를 더 잘 이해해보자 예시 ) 예를 들어 다음과 같이 데이터가 있다고 하자 x = { 1, 4, 5, 6, 9 } 이때 데이터 x는 아래 그림의 주황색 곡선과 파란색 곡선 중 어떤 곡선으로부터 추출되었을 확률이 더 높은가?..

Computer Science/Data Science 2022.08.21

[머신러닝을 위한 통계지식]

1. 머신러닝을 하는데 통계가 필요한가요? - 데이터를 다룰 때 통계에서 주로 사용하는 가정을 사용합니다. 기본적으로 전체를 알지 못하는 상황에서 sampling된 데이터만을 보고 모델을 만들기 때문에 기본적으로 불확실성을 지닐 수 밖에 없기 때문이죠. 모델을 만드는 일은 parameter를 추정하는 일이라고 생각해볼 수 있습니다. 이 과정에서 데이터 분포 또는 모델에 대한 가정을 할 때 통계지식 필요하죠. 2. 확률분포에 어떤 것들이 있나요? 그리고 언제 사용할 수 있나요? - uniform distribution, 정규분포, 베르누이 분포, 이항분포, 베타분포, 디리클레 분포 등이 있습니다. 데이터에 대한 정보를 전혀 모르는 상황에서는 정규분포로 가정하는 것이 좋습니다. 분류 문제는 주로 베르누이 분..

Computer Science/Data Science 2022.08.16

[Machine Learning] Logistic Regression 예시를 통해 다중선형회귀 이해하기

Logistic Regression 범주형 변수 예측 모델 Logistic Regression을 알기전에 linear regression을 먼저 알아야. Multiple Linear Regression (다중선형회귀) 수치형 설명변수 X와 연속형 숫자로 이뤄진 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀계수를 데이터로부터 추정하는 모델 이때 회귀계수는 모델의 예측값과 실제값의 차이(오차제곱합 error sum of squared)을 최소로 하는 값 설명변수가 p개인 다중선형회귀의 일반 식 예시 - 1 나이와 혈압 데이터가 주어졌을 때, 오차제곱합을 최소로 하는 회귀계수 구하기 설명변수 X : 나이 종속변수 Y : 혈압 앞서 종속변수 Y는 ‘혈압’으로 연속형 숫자였음. 그렇..

Computer Science/Data Science 2022.06.22

[Machine Learning] 앙상블 기법이란?

Ensemble 기법 Ensemble Learning이란 여러개의 분류기를 생성하고 그 예측을 결합하여 보다 정확한 예측을 내는 기법 강력한 하나의 모델을 사용하는 대신 보다 약한 모델을 여러개 조합하는 방식 Ensemble Learning 종류 앙상블 학습은 3가지 유형으로 분류됨 Voting Bagging Boosting Voting 여러개의 classifier가 투표를 통해 최종 예측결과 결정 서로 다른 알고리즘 여러개 결합하여 사용 Voting 방식 Hard Voting : 다수의 classifier가 예측한 결과값을 최종 결과로 선정 (다수결의 법칙) Soft Voting : 모든 classifier가 예측한 label값의 결정 확률 평균을 구한 뒤 가장 확률이 높은 label값을 최종결과로 선..

Computer Science/Data Science 2022.06.20

[CNN] CNN feature map과 filter 시각화

목적 : CNN layer들 중간중간 추출되는 feature들을 시각화해보면서 layer를 거치면서 어떠한 변화가 일어나는지 알아본다. CNN architecture 들어가기전에, CNN을 이해하기 위해 꼭 필요한 정보들에 대해서 정리해본다. 1. input image에 우리는 filter(=mask=kernel)를 적용하여 feature map을 생성한다. 이때 filter는 이미지가 가지고 있는 edge, vertical line, horizontal line, bends와 같은 여러 feature들을 나타내주도록 도와준다. 2. 생성된 feature map에 pooling을 적용한다. min, avg, max pooling등을 쓸 수 있고, 그 중에서 max pooling을 사용했을 때 성능향상을 ..

Computer Science/Data Science 2022.04.18

[text mining] word embedding 이거면 끝!

텍스트 데이터 표현 방식 텍스트 기반의 모델을 만들기 위해서는 텍스트 데이터를 숫자로 표현해야함 텍스트 데이터를 표현하는 방식(feature representation)으로 sparse representation이 먼저 등장하였고 sparse representaion의 단점을 보완하기 위해 dense representation가 등장 sparse representation의 대표적인 기법은 one-hot encoding이고 dense representation의 대표적인 기법은 word embedding one-hot encoding 컴퓨터는 문자를 이해하지 못하기 때문에 숫자로 표현해줘야하며 one-hot encoding은 여러 표현기법들 중 가장 기본적인 방법 sparse representation에..

Computer Science/Data Science 2022.03.02

[Machine Learning] LightGBM이란? ✔ 설명 및 장단점

📌 Remind LightGBM에 들어가기전에 복습 겸 reminding을 해보자. Light GBM의 GBM은 Gradient Boosting Model로, tree를 기반으로 하는 학습 알고리즘이다. 이 GBM의 학습방식을 쉽게말하면, 틀린부분에 가중치를 더하면서 진행한다고 할 수 있다. Gradient Boosting에서 Boosting은 여러개의 tree를 만들되, 기존에 있는 모델(tree)를 조금씩 발전시켜서 마지막에 이를 합하는 개념으로, Random Forest의 Bagging기법과 다른 방법이다. Boosting하는 방식에도 크게 2가지가 있다. 1. AdaBoost와 같이 중요한 데이터(일반적으로 모델이 틀린 데이터)에 대해 weight를 주는 방식 2. GBDT와 같이 loss fun..

Computer Science/Data Science 2021.05.20

[Machine Learning] 머신러닝, 모델의 편향(bias)과 분산(variance) : trade-off 관계

머신러닝에서 편향과 분산은 언제 쓰이는 용어인가? Supervised Learning(지도학습)에 대해서 간단히 설명해보자면 사람이 정해준 정답이 있고, 우리의 모델은 그 정답을 잘 맞추는 방향으로 학습(training)을 한다. 이때, 학습을 하면서 모델이 내놓는 예측값들의 경향을 표현하기위해 편향과 분산이라는 용어를 사용한다. 쉽게 말하자면, 다음과 같다 A. 예측값과 정답 간의 관계를 "편향"으로 표현 (bias : model의 output과 실제값 사이의 제곱 error, 정확도와 비슷한 개념) B. 예측값끼리의 관계를 "분산"으로 표현 (variance : model이 각기 다른 train set에 대하여 성능의 변화정도가 급하게 변하는지, 안정적으로 변하는지를 나타내는 척도) [딥러닝] Bia..

Computer Science/Data Science 2021.05.12

문서유사도

문서유사도 0. Base 예를 들어 다음과 같이 문서가 있고, 문서를 feature space에 놓는다고 생각해보자 강아지 귀엽다 매우 강아지가 귀엽다 1 1 0 강아지가 매우 귀엽다 1 1 1 고양이가 매우 귀엽다 0 1 1 각 단어 ‘강아지’, ‘고양이’, ‘매우’를 축으로 하는 특성공간(feature space)에서 다음 문서들을 하나의 좌표로 생각할 수 있음 ‘강아지가 귀엽다’ --> (1,1,0) ‘강아지가 매우 귀엽다’ --> (1,1,1) ‘고양이가 매우 귀엽다’ --> (0,1,1) 두 단어 혹은 문장이 주어졌을 때, 유사도를 측정하는 방법은 여러가지가 있다 cosine similarity jaccard similarity euclidean distance manhattan distance..

Computer Science/Data Science 2021.04.29

Naive Bayes Classifier

개요 단순규칙모형: 예측변수가 필요 없는 모형, 주로 고급 모형들과 비교하기 위한 baseline 단순 베이즈 분류모형 => 이 기법들은 데이터 구조에 대한 가정을 거의 하지 않는다는 공통점! (data-driven) (makes no assumption about the data) 단순규칙 모든 예측변수를 분류한 상채에서 어느 한 record를 m개의 집단 중에 제일 많은 하나(prevalent class)로 분류하는 단순한 규칙 단순 베이즈 분류모형 단순규칙보다 정교한 방법 : 단순규칙 + 예측변수 정보 다른 분류모형과 달리 naive bayes classifier는 예측변수가 범주형인 경우에만 적용됨 따라서 수치형 예측변수는 범주형 예측변수로 변환하여야 함 단순 베이즈 기법은 데이터 집합이 매우 클..

Computer Science/Data Science 2021.03.08

Decision Tree 간.단.명.료

Decision tree : 의사결정나무 분류(classification)과 회귀분석(regression)에 모두 사용될 수 있기 떄문에 CART(Classification And Regression Tree)라고 불림 node tree의 node : 질문/답을 담고 있음 root node : 최상위 node 최상위 node의 속성 feature가 가장 중요한 특성 leaf node : 마지막 node (말단노드) 만약 tree의 모든 leaf node가 pure node가 될 때까지 진행하면 model의 복잡도는 매우 높아지고 overfitting됨 overfitting 방지 tree의 생성을 사전에 중지 : pre-prunning (=깊이의 최대를 설정, max_depth) 데이터가 적은 node 삭..

Computer Science/Data Science 2021.03.08

Random Forest 간.단.명.료

Ensemble 앙상블 여러 개의 머신러닝 model을 연결하여 강력한 model을 만드는 기법 classifier/regression에 전부 효과적 random forest와 gradient boosting은 둘다 model을 구성하는 기본 요소로 decision tree를 사용한다 random forest 조금씩 다 다른 여러 decision tree의 묶음 랜덤 포레스트의 등장 배경 : 각각의 tree는 비교적 예측을 잘 할 수 있지만, 데이터의 일부에 overfitting하는 경향을 가짐 따라서, 잘 작동하지만 서로 다른 방향으로 overfitting된 tree를 많이 만들고 그 결과를 평균내면 overfitting을 줄일 수 있다 이렇게 하면 tree model의 예측 성능은 유지하되 overf..

Computer Science/Data Science 2021.03.08

단순선형회귀 / 다중선형회귀 간.단.명.료

단순선형회귀 하나의 특성을 이용해서 타겟 예측 y = wx + b y : 예측값 x : 특성 w : 가중치/계수(coefficient) b : 편향(offset) 주어진 sample data들을 이용하여 가장 적합한 w와 b를 찾아야 함 -> 보통 경사하강법(gradient descent)를 이용해서 찾는다 다중선형회귀 여러 개의 특성을 이용해서 타겟 예측 y = w0x0 + w1x1 = w2x2 + ... + b 역시 MSE를 최소화하는 가장 적합한 w들과 b를 찾는 것이 목표 문제 : 과대적합 될 때가 종종 있다 => 일반화 능력이 떨어진다 릿지(Ridge)와 라쏘(Lasso) 방법으로 해결

Computer Science/Data Science 2021.03.07

🌷나의 선인장🌵

Computer Science/Data Science 17

티스토리툴바