Computer Science/Data Science

문서유사도

_cactus 2021. 4. 29. 22:47

<!doctype html>

문서유사도

0. Base

예를 들어 다음과 같이 문서가 있고, 문서를 feature space에 놓는다고 생각해보자

	강아지	귀엽다	매우
강아지가 귀엽다	1	1	0
강아지가 매우 귀엽다	1	1	1
고양이가 매우 귀엽다	0	1	1

각 단어 ‘강아지’, ‘고양이’, ‘매우’를 축으로 하는 특성공간(feature space)에서 다음 문서들을 하나의 좌표로 생각할 수 있음

‘강아지가 귀엽다’ --> (1,1,0)
‘강아지가 매우 귀엽다’ --> (1,1,1)
‘고양이가 매우 귀엽다’ --> (0,1,1)

두 단어 혹은 문장이 주어졌을 때, 유사도를 측정하는 방법은 여러가지가 있다

cosine similarity
jaccard similarity
euclidean distance
manhattan distance

🔎 -

jaccard 유사도는 중복을 고려하지 X, cosine 유사도는 중복 고려 O

1. cosine 유사도

cosine 유사도는 vector로 표현된 두 문장이 이루는 각도의 cosine값이다. 따라서 cosine 유사도를 계산하기 위해서는 문장을 vector로 변환하는 작업 필요

✒️ 공식

** 예시 )**

‘강아지 귀여워. 강아지 귀여워’ 와 ‘고양이 귀여워’ 는 ‘강아지 귀여워’ 와 똑같은 거리에 있음

(2,0,2) (0,1,1) (1,0,1)

‘강아지 귀여워. 강아지 귀여워’ 와 강아지 귀여워’ == ‘고양이 귀여워’ 와 ‘강아지 귀여워’

	강아지	고양이	귀엽다
강아지 귀여워. 강아지 귀여워	2	0	2
고양이 귀여워	0	1	1
강아지 귀여워	1	0	1

문장을 vector로 변환하는 방법

TF-IDF를 이용한 bag of words ✔️
word2vec

doc을 vector로 변환하게 되면 vector의 길이는 총 문서 내 단어 수가 된다

과정

먼저 tf-idf matrix를 생성하여 문서를 벡터화
cosine_similarity/linear_kernel 함수를 이용하여 cosine similarity matrix 생성

 
from sklearn.feature_extraction.text import TfidfVectorizer
​
tfidf = TfidfVectorizer()
# title에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(df['title_token'])
print(tfidf_matrix.shape)

sklearn에서 제공하는 패키지 중 linear_kernel을 사용하여 cosine similarity 계산

 
from sklearn.metrics.pairwise import cosine_similarity
# scikit-learn cosine similarity API는 희소행렬, 밀집행렬 모두 가능 + 배열, 행렬 모두 가능
​
from sklearn.metrics.pairwise import linear_kernel
# cosine_similarity보다 빠름
​
# 앞서 만든 tf-idf matrix로 cosine similarity 계산
cos_sim = linear_kernel(tfidf_matrix,tfidf_matrix)

 
# 유사도를 이용한 추천
# 보고자하는 index와 가장 유사한 문서 10개의 index 찾기 
# sim score를 내림차순 정렬하여 top10개의 index와 score 반환
def top10(idx, sim_pair) :
    sim_score = list(enumerate(sim_pair[idx]))
    sim_score = sorted(sim_score, key = lambda x:x[1], reverse=True)
    
    # 상위 100개 항목 가져옴
    top10score = sim_score[1:11]
    tag_indices = [i[0] for i in top10score]
    score = [i[1] for i in top10score]
    return tag_indices, score

2. jaccard 유사도

두 문장의 교집합과 합집합의 크기를 통해 구하는 방식

✒️ 공식

예시 )

다음 두 문장이 주어진다고 가정

※ 위 예시에서는 유사도 계산 전에 lemmatization 과정을 거침 (lemmatization은 단어의 뿌리는 찾는 과정. 예 : had와 has의 뿌리는 have)

다이어그램을 통해 두 문장의 교집합의 단어개수는5개, 합집합은 10개 ➡️ jaccard similarity = 0.5

python code

 
xxxxxxxxxx
 
def get_jaccard_sim(str1, str2): 
    a = set(str1.split()) 
    b = set(str2.split())
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

*jaccard 유사도는 set을 사용 ➡️ 중복을 고려하지 않음

3. Euclidean 거리

문서를 좌표로 표현하고 두 좌표 사이의 거리를 구하여 유클리드 거리를 계산. 이때, 문서의 좌표는 각 단어의 출현 빈도이므로 CountVectorizer사용

단어의 출현빈도로 사용하기 때문에 단어의 빈도가 늘어나거나 줄어들면 의미에 차이가 없더라도 거리가 멀어짐

예시 )

‘강아지 귀여워. 강아지 귀여워’ 와 ‘고양이 귀여워’ 는 ‘강아지 귀여워’ 와 똑같은 거리에 있음

(2,0,2) (0,1,1) (1,0,1)

‘강아지 귀여워. 강아지 귀여워’ 와 강아지 귀여워’ == ‘고양이 귀여워’ 와 ‘강아지 귀여워’

강아지 고양이 귀엽다

강아지 귀여워. 강아지 귀여워 2 0 2

고양이 귀여워 0 1 1

강아지 귀여워 1 0 1

 
xxxxxxxxxx
 
from sklearn.metrics.pairwise import euclidean_distances
# 0번 문서와 1번 문서 사이의 거리
print(euclidean_distances(tdm[0], tdm[1]))

문장을 vector로 변환하는 방법

TF-IDF를 이용한 bag of words
word2vec

두 방법의 큰 차이...

tf-idf는 한 단어당 한 숫자를 만들어냄 / word embedding은 한 단어당 한 vector를 만들어냄
tf-idf는 전체적으로 문서를 분류하는데 잘 작동 / word embedding은 문맥적인 내용을 확인하는데 잘 작동

1) TF-IDF를 이용한 bag of words

2) word2vec

reference

https://simonezz.tistory.com/45

https://leo-bb.tistory.com/18 : 문서간 코사인 유사도에 기반한 '유사 게시물 추천시스템'

http://doc.mindscale.kr/km/unstructured/04.html : 주제분석 - 문서유사도, 클러스터링, 토픽모델링

문서 군집화 - KMeans

위 데이터 사용

 
x
 
title_token_doc = df['title_token_doc'].values
​
from sklearn.feature_extraction.text import TfidfVectorizer
​
tfidf = TfidfVectorizer()
# title에 대해서 tf-idf 수행
tfidf_matrix = tfidf.fit_transform(title_token_doc)
print(tfidf_matrix.shape)

 
x
 
from sklearn.cluster import KMeans
km = KMeans(n_clusters=4, random_state=1234)
cluster_label = km.fit_transform(tfidf_matrix)

최적 K 정하기

elbow 기법
silhouette 기법
dunn index
DB

1. elbow 기법

kmeans clustering은 군집 내 SSE(오차제곱합)이 최소가 되도록 cluster의 중심을 결정해나감

따라서, k=1일때보다 k=2일때의 SSE가 작다면 k=2가 더 적합하다는 것을 알 수 있음

이런식으로 cluster의 개수를 늘려나가면 SSE를 계산하고 이를 그래프로 표현

SSE값이 점점 줄다가 줄어드는 비율이 급격하게 작아지는 부분이 생김. 이때 그래프 모양이 팔꿈치 같다고 하여 elbow라는 이름이 붙음

그리고 이 팔꿈치에 해당하는 부분이 우리가 구하고자하는 최적의 cluster 개수

 
 
xxxxxxxxxx
 
 
 
# cluster개수에 따른 데이터 X의 SSE값을 그래프로 그려주는 함수
def elbow(X) :
    sse = []
    for i in range(1,11) :
        km = KMeans(n_clusters=i, init='k-means++', random_state=1234)
        km.fit(X)
        sse.append(km.inertia_) # km.inertia_ : kmeans 클러스터링으로 계산된 SSE값
    plt.plot(range(1,11),sse,marker='o')
    plt.xlabel('cluster #n')
    plt.ylabel('SSE')
    plt.show()
 

👉 K=3일때가 팔꿈치 부분! 최적의 cluster 개수는 3

2. silhouette 실루엣 기법

clustering의 품질을 정량적으로 계산해주는 방법
dunn index의 경우 clustering의 유효성을 검증하기 위한 하나의 값이 있는데, silhouette의 경우
개체별(데이터별)
로 그 적합성이 평가됨
즉, 모든 개체의 silhouette값을 확인하고, cluster별로 그 값의 분포에 문제가 없는지 확인하는 방식

✒️ 공식 : i번째 데이터 x(i)에 대한 실루엣 계수 s(i)

a(i) : 군집 내 응집도(cohesion), 데이터 x(i)와 동일한 군집 내의 나머지 데이터들과의 평균거리

작을 수록 응집도가 높다 --> 좋음

b(i) : 군집 간 분리도(separation), 데이터 x(i)와 가장 가까운 군집 내의 모든 데이터들과의 평균거리

클수록 좋다

👉 a(i)는 작을수록, b(i)는 클수록 좋음, 따라서 s(i)는 1에 가까울수록 군집이 잘 생성되었다는 의미 ↔️ 반대로 군집화가 잘 안되면 s(i)값은 0에 가까움

👉 일반적으로 모든 개체의 silhoutte값이 0.5보다 크면 clustering이 잘 되었다고 평가

sklearn silhouette score

silhouette score의 경우 개별 개체에 대해서 값을 도출할 수 있음
sklearn은 각 sample에 대해서 계산할 수있게도하고, 평균값을 내는 것도 지원함

 
xxxxxxxxxx
 
from sklearn.metrics import silhouette_samples, silhouette_score

sampels

평균만으로는 숨겨지는 부분들이 있으므로 그 분포를 보다 정확하게 보려고.
이를 위해서 실제 데ㅣ

 
x
 
import numpy as np
from sklearn.metrics import silhoutte_samples
from matplotlib import cm
​
def plot_silhouetter(X, cluster_labels) :
    cluster_labels = np.unique()

 
 
xxxxxxxxxx
 
 
 
import numpy as np
import pandas as pd
import csv
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
​
filename = "CSV_BIG.csv"
​
# Read the CSV file with the Pandas lib.
path_dir = ".\\"
dataframe = pd.read_csv(path_dir + filename, encoding = "utf-8", sep = ';' ) # "ISO-8859-1")
df = dataframe.copy(deep=True)
​
#Use silhouette score
range_n_clusters = list (range(2,10))
print ("Number of clusters from 2 to 9: \n", range_n_clusters)
​
for n_clusters in range_n_clusters:
    clusterer = KMeans (n_clusters=n_clusters).fit(?)
    preds = clusterer.predict(?)
    centers = clusterer.cluster_centers_
​
    score = silhouette_score (?, preds, metric='euclidean')
    print ("For n_clusters = {}, silhouette score is {})".format(n_clusters, score)
 

 
xxxxxxxxxx
 
for n_clusters in range_n_clusters:
    clusterer = KMeans(n_clusters=n_clusters)
    preds = clusterer.fit_predict(df)
    centers = clusterer.cluster_centers_
​
    score = silhouette_score(df, preds)
    print("For n_clusters = {}, silhouette score is {})".format(n_clusters, score))

3. Dunn Index

표준화된 값이라고 할 수는 없음(?)
분자 : 군집 간 거리들 중 최소값
분모 : 군집 내 개체 간 거리의 최대값
👉 값이 1이상이라면 가장 작은 군집 간의 거리가 군집 내의 가장 먼 거리보다 길다고 할 수 있음 --> 군집화가 잘 되었다

거리 측정 방식 --> Euclidean? Jaccard? 이건 우리가 선택해야할 문제

reference

http://blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&categoryNo=0&parentCategoryNo=0&viewDate=&currentPage=1&postListTopCurrentPage=1&from=postView : kmeans clustering 최적의 클러스터 개수 찾기

https://frhyme.github.io/python-lib/clustering_evaluation/ : 클러스터링을 다시 공부해봅시다

euclidean 거리 계산시 단어의 출현빈도로 사용하기 때문에 단어의 빈도가 늘어나면 벡터의 크기가 커져 거리가 멀어짐. 반면에 cosine 유사도는 벡터의 크기(magnitude)를 무시하고 각도만 보고 측정하므로 이러한 점에서 cosine 유사도를 이용하는 것이 더 좋음

jaccard 유사도 또한 중복을 무시하기 때문에 단어의 반복적인 발생이 있는 경우 cosine 유사도를 사용하는 것이 좋음

clustering 품질을 정량적으로 분석할 수 있는 지표로 실루엣 기법을 사용할 수 있고, 최적의 k를 찾는데에 활용할 수 있음

하지만 실루엣 기법은 모든 개체들간의 거리를 계산하는 방식이기에 차원이 큰 matrix에 대해서 computation이 굉장히 크며, 데이터가 sparse한 특성을 가진 경우 실루엣 스코어가 매우 낮게 측정됨. k개수를 증가시킬수록 실루엣 스코어가 증가하긴 하나 그 차이가 굉장히 미미함.

--> 차원이 크고 sparse한 데이터로 클러스터링한 것을 실루엣 기법을 통해 정량적으로 비교하기엔 한계가 있음

차원축소를 위한 PCA, TSNE 과정도

728x90

저작자표시 (새창열림)

'Computer Science > Data Science' 카테고리의 다른 글

[CNN] CNN feature map과 filter 시각화 (0)	2022.04.18
[text mining] word embedding 이거면 끝! (0)	2022.03.02
[Machine Learning] LightGBM이란? ✔ 설명 및 장단점 (0)	2021.05.20
[Machine Learning] 머신러닝, 모델의 편향(bias)과 분산(variance) : trade-off 관계 (0)	2021.05.12
Naive Bayes Classifier (1)	2021.03.08
Decision Tree 간.단.명.료 (0)	2021.03.08
Random Forest 간.단.명.료 (0)	2021.03.08
단순선형회귀 / 다중선형회귀 간.단.명.료 (0)	2021.03.07

현재글문서유사도

🌷나의 선인장🌵