Computer Science/Data Science

๋ฌธ์„œ์œ ์‚ฌ๋„

_cactus 2021. 4. 29. 22:47
๋ฐ˜์‘ํ˜•

<!doctype html>

๋ฌธ์„œ์œ ์‚ฌ๋„

 

0. Base

์˜ˆ๋ฅผ ๋“ค์–ด ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋ฌธ์„œ๊ฐ€ ์žˆ๊ณ , ๋ฌธ์„œ๋ฅผ feature space์— ๋†“๋Š”๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž

  ๊ฐ•์•„์ง€ ๊ท€์—ฝ๋‹ค ๋งค์šฐ
๊ฐ•์•„์ง€๊ฐ€ ๊ท€์—ฝ๋‹ค 1 1 0
๊ฐ•์•„์ง€๊ฐ€ ๋งค์šฐ ๊ท€์—ฝ๋‹ค 1 1 1
๊ณ ์–‘์ด๊ฐ€ ๋งค์šฐ ๊ท€์—ฝ๋‹ค 0 1 1

๊ฐ ๋‹จ์–ด ‘๊ฐ•์•„์ง€’, ‘๊ณ ์–‘์ด’, ‘๋งค์šฐ’๋ฅผ ์ถ•์œผ๋กœ ํ•˜๋Š” ํŠน์„ฑ๊ณต๊ฐ„(feature space)์—์„œ ๋‹ค์Œ ๋ฌธ์„œ๋“ค์„ ํ•˜๋‚˜์˜ ์ขŒํ‘œ๋กœ ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์Œ

  • ‘๊ฐ•์•„์ง€๊ฐ€ ๊ท€์—ฝ๋‹ค’ --> (1,1,0)
  • ‘๊ฐ•์•„์ง€๊ฐ€ ๋งค์šฐ ๊ท€์—ฝ๋‹ค’ --> (1,1,1)
  • ‘๊ณ ์–‘์ด๊ฐ€ ๋งค์šฐ ๊ท€์—ฝ๋‹ค’ --> (0,1,1)
img

 

 

๋‘ ๋‹จ์–ด ํ˜น์€ ๋ฌธ์žฅ์ด ์ฃผ์–ด์กŒ์„ ๋•Œ, ์œ ์‚ฌ๋„๋ฅผ ์ธก์ •ํ•˜๋Š” ๋ฐฉ๋ฒ•์€ ์—ฌ๋Ÿฌ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค

  1. cosine similarity
  2. jaccard similarity
  3. euclidean distance
  4. manhattan distance

 

๐Ÿ”Ž -

  • jaccard ์œ ์‚ฌ๋„๋Š” ์ค‘๋ณต์„ ๊ณ ๋ คํ•˜์ง€ X, cosine ์œ ์‚ฌ๋„๋Š” ์ค‘๋ณต ๊ณ ๋ ค O
  •  

 

 

 

1. cosine ์œ ์‚ฌ๋„

cosine ์œ ์‚ฌ๋„๋Š” vector๋กœ ํ‘œํ˜„๋œ ๋‘ ๋ฌธ์žฅ์ด ์ด๋ฃจ๋Š” ๊ฐ๋„์˜ cosine๊ฐ’์ด๋‹ค. ๋”ฐ๋ผ์„œ cosine ์œ ์‚ฌ๋„๋ฅผ ๊ณ„์‚ฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋ฌธ์žฅ์„ vector๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์ž‘์—… ํ•„์š”

โœ’๏ธ ๊ณต์‹

** ์˜ˆ์‹œ )**

๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ. ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ ์™€ ‘๊ณ ์–‘์ด ๊ท€์—ฌ์›Œ’ ๋Š” ‘๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ ์™€ ๋˜‘๊ฐ™์€ ๊ฑฐ๋ฆฌ์— ์žˆ์Œ

(2,0,2) (0,1,1) (1,0,1)

๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ. ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ ์™€ ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ == ‘๊ณ ์–‘์ด ๊ท€์—ฌ์›Œ’ ์™€ ‘๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ

  ๊ฐ•์•„์ง€ ๊ณ ์–‘์ด ๊ท€์—ฝ๋‹ค
๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ. ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ 2 0 2
๊ณ ์–‘์ด ๊ท€์—ฌ์›Œ 0 1 1
๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ 1 0 1

 

๋ฌธ์žฅ์„ vector๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•

  1. TF-IDF๋ฅผ ์ด์šฉํ•œ bag of words โœ”๏ธ
  2. word2vec

doc์„ vector๋กœ ๋ณ€ํ™˜ํ•˜๊ฒŒ ๋˜๋ฉด vector์˜ ๊ธธ์ด๋Š” ์ด ๋ฌธ์„œ ๋‚ด ๋‹จ์–ด ์ˆ˜๊ฐ€ ๋œ๋‹ค

๊ณผ์ •

  1. ๋จผ์ € tf-idf matrix๋ฅผ ์ƒ์„ฑํ•˜์—ฌ ๋ฌธ์„œ๋ฅผ ๋ฒกํ„ฐํ™”
  2. cosine_similarity/linear_kernel ํ•จ์ˆ˜๋ฅผ ์ด์šฉํ•˜์—ฌ cosine similarity matrix ์ƒ์„ฑ
 
 
 
 
 

sklearn์—์„œ ์ œ๊ณตํ•˜๋Š” ํŒจํ‚ค์ง€ ์ค‘ linear_kernel์„ ์‚ฌ์šฉํ•˜์—ฌ cosine similarity ๊ณ„์‚ฐ

 
 
 
 
 
 
 
 
 
 

 

 

2. jaccard ์œ ์‚ฌ๋„

  • ๋‘ ๋ฌธ์žฅ์˜ ๊ต์ง‘ํ•ฉ๊ณผ ํ•ฉ์ง‘ํ•ฉ์˜ ํฌ๊ธฐ๋ฅผ ํ†ตํ•ด ๊ตฌํ•˜๋Š” ๋ฐฉ์‹

โœ’๏ธ ๊ณต์‹

img
์˜ˆ์‹œ )

๋‹ค์Œ ๋‘ ๋ฌธ์žฅ์ด ์ฃผ์–ด์ง„๋‹ค๊ณ  ๊ฐ€์ •

image-20210408145953246

โ€ป ์œ„ ์˜ˆ์‹œ์—์„œ๋Š” ์œ ์‚ฌ๋„ ๊ณ„์‚ฐ ์ „์— lemmatization ๊ณผ์ •์„ ๊ฑฐ์นจ (lemmatization์€ ๋‹จ์–ด์˜ ๋ฟŒ๋ฆฌ๋Š” ์ฐพ๋Š” ๊ณผ์ •. ์˜ˆ : had์™€ has์˜ ๋ฟŒ๋ฆฌ๋Š” have)

๋‹ค์ด์–ด๊ทธ๋žจ์„ ํ†ตํ•ด ๋‘ ๋ฌธ์žฅ์˜ ๊ต์ง‘ํ•ฉ์˜ ๋‹จ์–ด๊ฐœ์ˆ˜๋Š”5๊ฐœ, ํ•ฉ์ง‘ํ•ฉ์€ 10๊ฐœ โžก๏ธ jaccard similarity = 0.5

 

 

python code

 
 
 
 
 

*jaccard ์œ ์‚ฌ๋„๋Š” set์„ ์‚ฌ์šฉ โžก๏ธ ์ค‘๋ณต์„ ๊ณ ๋ คํ•˜์ง€ ์•Š์Œ

*

 

3. Euclidean ๊ฑฐ๋ฆฌ

๋ฌธ์„œ๋ฅผ ์ขŒํ‘œ๋กœ ํ‘œํ˜„ํ•˜๊ณ  ๋‘ ์ขŒํ‘œ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ตฌํ•˜์—ฌ ์œ ํด๋ฆฌ๋“œ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐ. ์ด๋•Œ, ๋ฌธ์„œ์˜ ์ขŒํ‘œ๋Š” ๊ฐ ๋‹จ์–ด์˜ ์ถœํ˜„ ๋นˆ๋„์ด๋ฏ€๋กœ CountVectorizer์‚ฌ์šฉ

๋‹จ์–ด์˜ ์ถœํ˜„๋นˆ๋„๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹จ์–ด์˜ ๋นˆ๋„๊ฐ€ ๋Š˜์–ด๋‚˜๊ฑฐ๋‚˜ ์ค„์–ด๋“ค๋ฉด ์˜๋ฏธ์— ์ฐจ์ด๊ฐ€ ์—†๋”๋ผ๋„ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด์ง

์˜ˆ์‹œ )

๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ. ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ ์™€ ‘๊ณ ์–‘์ด ๊ท€์—ฌ์›Œ’ ๋Š” ‘๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ ์™€ ๋˜‘๊ฐ™์€ ๊ฑฐ๋ฆฌ์— ์žˆ์Œ

(2,0,2) (0,1,1) (1,0,1)

๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ. ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ ์™€ ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ’ == ‘๊ณ ์–‘์ด ๊ท€์—ฌ์›Œ’ ์™€ ‘๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ

  ๊ฐ•์•„์ง€ ๊ณ ์–‘์ด ๊ท€์—ฝ๋‹ค
๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ. ๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ 2 0 2
๊ณ ์–‘์ด ๊ท€์—ฌ์›Œ 0 1 1
๊ฐ•์•„์ง€ ๊ท€์—ฌ์›Œ 1 0 1

 

 
 
 
 
 

 

 

 

 

 

 

 

 

 

 

 

๋ฌธ์žฅ์„ vector๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ๋ฐฉ๋ฒ•

  1. TF-IDF๋ฅผ ์ด์šฉํ•œ bag of words
  2. word2vec

๋‘ ๋ฐฉ๋ฒ•์˜ ํฐ ์ฐจ์ด...

  • tf-idf๋Š” ํ•œ ๋‹จ์–ด๋‹น ํ•œ ์ˆซ์ž๋ฅผ ๋งŒ๋“ค์–ด๋ƒ„ / word embedding์€ ํ•œ ๋‹จ์–ด๋‹น ํ•œ vector๋ฅผ ๋งŒ๋“ค์–ด๋ƒ„
  • tf-idf๋Š” ์ „์ฒด์ ์œผ๋กœ ๋ฌธ์„œ๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š”๋ฐ ์ž˜ ์ž‘๋™ / word embedding์€ ๋ฌธ๋งฅ์ ์ธ ๋‚ด์šฉ์„ ํ™•์ธํ•˜๋Š”๋ฐ ์ž˜ ์ž‘๋™

 

 

 

 

 

1) TF-IDF๋ฅผ ์ด์šฉํ•œ bag of words

2) word2vec

 

 

 

 

 

 

 

 

 

 


reference

https://simonezz.tistory.com/45

https://leo-bb.tistory.com/18 : ๋ฌธ์„œ๊ฐ„ ์ฝ”์‚ฌ์ธ ์œ ์‚ฌ๋„์— ๊ธฐ๋ฐ˜ํ•œ '์œ ์‚ฌ ๊ฒŒ์‹œ๋ฌผ ์ถ”์ฒœ์‹œ์Šคํ…œ'

http://doc.mindscale.kr/km/unstructured/04.html : ์ฃผ์ œ๋ถ„์„ - ๋ฌธ์„œ์œ ์‚ฌ๋„, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ํ† ํ”ฝ๋ชจ๋ธ๋ง

 

 

 




๋ฌธ์„œ ๊ตฐ์ง‘ํ™” - KMeans

image-20210414141909909

์œ„ ๋ฐ์ดํ„ฐ ์‚ฌ์šฉ

 
 
 
 
 
 
 
 
 
 

 

 

 

์ตœ์  K ์ •ํ•˜๊ธฐ

  1. elbow ๊ธฐ๋ฒ•
  2. silhouette ๊ธฐ๋ฒ•
  3. dunn index
  4. DB

 

1. elbow ๊ธฐ๋ฒ•

kmeans clustering์€ ๊ตฐ์ง‘ ๋‚ด SSE(์˜ค์ฐจ์ œ๊ณฑํ•ฉ)์ด ์ตœ์†Œ๊ฐ€ ๋˜๋„๋ก cluster์˜ ์ค‘์‹ฌ์„ ๊ฒฐ์ •ํ•ด๋‚˜๊ฐ

๋”ฐ๋ผ์„œ, k=1์ผ๋•Œ๋ณด๋‹ค k=2์ผ๋•Œ์˜ SSE๊ฐ€ ์ž‘๋‹ค๋ฉด k=2๊ฐ€ ๋” ์ ํ•ฉํ•˜๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Œ

์ด๋Ÿฐ์‹์œผ๋กœ cluster์˜ ๊ฐœ์ˆ˜๋ฅผ ๋Š˜๋ ค๋‚˜๊ฐ€๋ฉด SSE๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ์ด๋ฅผ ๊ทธ๋ž˜ํ”„๋กœ ํ‘œํ˜„

SSE๊ฐ’์ด ์ ์  ์ค„๋‹ค๊ฐ€ ์ค„์–ด๋“œ๋Š” ๋น„์œจ์ด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์ž‘์•„์ง€๋Š” ๋ถ€๋ถ„์ด ์ƒ๊น€. ์ด๋•Œ ๊ทธ๋ž˜ํ”„ ๋ชจ์–‘์ด ํŒ”๊ฟˆ์น˜ ๊ฐ™๋‹ค๊ณ  ํ•˜์—ฌ elbow๋ผ๋Š” ์ด๋ฆ„์ด ๋ถ™์Œ

๊ทธ๋ฆฌ๊ณ  ์ด ํŒ”๊ฟˆ์น˜์— ํ•ด๋‹นํ•˜๋Š” ๋ถ€๋ถ„์ด ์šฐ๋ฆฌ๊ฐ€ ๊ตฌํ•˜๊ณ ์žํ•˜๋Š” ์ตœ์ ์˜ cluster ๊ฐœ์ˆ˜

 
 
 
 
 
image-20210414155644703

๐Ÿ‘‰ K=3์ผ๋•Œ๊ฐ€ ํŒ”๊ฟˆ์น˜ ๋ถ€๋ถ„! ์ตœ์ ์˜ cluster ๊ฐœ์ˆ˜๋Š” 3

 

2. silhouette ์‹ค๋ฃจ์—ฃ ๊ธฐ๋ฒ•

  • clustering์˜ ํ’ˆ์งˆ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๊ณ„์‚ฐํ•ด์ฃผ๋Š” ๋ฐฉ๋ฒ•
  • dunn index์˜ ๊ฒฝ์šฐ clustering์˜ ์œ ํšจ์„ฑ์„ ๊ฒ€์ฆํ•˜๊ธฐ ์œ„ํ•œ ํ•˜๋‚˜์˜ ๊ฐ’์ด ์žˆ๋Š”๋ฐ, silhouette์˜ ๊ฒฝ์šฐ
    ๊ฐœ์ฒด๋ณ„(๋ฐ์ดํ„ฐ๋ณ„)
    ๋กœ ๊ทธ ์ ํ•ฉ์„ฑ์ด ํ‰๊ฐ€๋จ
  • ์ฆ‰, ๋ชจ๋“  ๊ฐœ์ฒด์˜ silhouette๊ฐ’์„ ํ™•์ธํ•˜๊ณ , cluster๋ณ„๋กœ ๊ทธ ๊ฐ’์˜ ๋ถ„ํฌ์— ๋ฌธ์ œ๊ฐ€ ์—†๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๋ฐฉ์‹

โœ’๏ธ ๊ณต์‹ : i๋ฒˆ์งธ ๋ฐ์ดํ„ฐ x(i)์— ๋Œ€ํ•œ ์‹ค๋ฃจ์—ฃ ๊ณ„์ˆ˜ s(i)

image-20210414155837937
  • a(i) : ๊ตฐ์ง‘ ๋‚ด ์‘์ง‘๋„(cohesion), ๋ฐ์ดํ„ฐ x(i)์™€ ๋™์ผํ•œ ๊ตฐ์ง‘ ๋‚ด์˜ ๋‚˜๋จธ์ง€ ๋ฐ์ดํ„ฐ๋“ค๊ณผ์˜ ํ‰๊ท ๊ฑฐ๋ฆฌ
  • ์ž‘์„ ์ˆ˜๋ก ์‘์ง‘๋„๊ฐ€ ๋†’๋‹ค --> ์ข‹์Œ
  • b(i) : ๊ตฐ์ง‘ ๊ฐ„ ๋ถ„๋ฆฌ๋„(separation), ๋ฐ์ดํ„ฐ x(i)์™€ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๊ตฐ์ง‘ ๋‚ด์˜ ๋ชจ๋“  ๋ฐ์ดํ„ฐ๋“ค๊ณผ์˜ ํ‰๊ท ๊ฑฐ๋ฆฌ
  • ํด์ˆ˜๋ก ์ข‹๋‹ค

๐Ÿ‘‰ a(i)๋Š” ์ž‘์„์ˆ˜๋ก, b(i)๋Š” ํด์ˆ˜๋ก ์ข‹์Œ, ๋”ฐ๋ผ์„œ s(i)๋Š” 1์— ๊ฐ€๊นŒ์šธ์ˆ˜๋ก ๊ตฐ์ง‘์ด ์ž˜ ์ƒ์„ฑ๋˜์—ˆ๋‹ค๋Š” ์˜๋ฏธ ↔๏ธ ๋ฐ˜๋Œ€๋กœ ๊ตฐ์ง‘ํ™”๊ฐ€ ์ž˜ ์•ˆ๋˜๋ฉด s(i)๊ฐ’์€ 0์— ๊ฐ€๊นŒ์›€

๐Ÿ‘‰ ์ผ๋ฐ˜์ ์œผ๋กœ ๋ชจ๋“  ๊ฐœ์ฒด์˜ silhoutte๊ฐ’์ด 0.5๋ณด๋‹ค ํฌ๋ฉด clustering์ด ์ž˜ ๋˜์—ˆ๋‹ค๊ณ  ํ‰๊ฐ€

 

sklearn silhouette score

  • silhouette score์˜ ๊ฒฝ์šฐ ๊ฐœ๋ณ„ ๊ฐœ์ฒด์— ๋Œ€ํ•ด์„œ ๊ฐ’์„ ๋„์ถœํ•  ์ˆ˜ ์žˆ์Œ
  • sklearn์€ ๊ฐ sample์— ๋Œ€ํ•ด์„œ ๊ณ„์‚ฐํ•  ์ˆ˜์žˆ๊ฒŒ๋„ํ•˜๊ณ , ํ‰๊ท ๊ฐ’์„ ๋‚ด๋Š” ๊ฒƒ๋„ ์ง€์›ํ•จ
 
 
 
 
 

sampels

  • ํ‰๊ท ๋งŒ์œผ๋กœ๋Š” ์ˆจ๊ฒจ์ง€๋Š” ๋ถ€๋ถ„๋“ค์ด ์žˆ์œผ๋ฏ€๋กœ ๊ทธ ๋ถ„ํฌ๋ฅผ ๋ณด๋‹ค ์ •ํ™•ํ•˜๊ฒŒ ๋ณด๋ ค๊ณ .
  • ์ด๋ฅผ ์œ„ํ•ด์„œ ์‹ค์ œ ๋ฐใ…ฃ

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

3. Dunn Index

  • ํ‘œ์ค€ํ™”๋œ ๊ฐ’์ด๋ผ๊ณ  ํ•  ์ˆ˜๋Š” ์—†์Œ(?)
  • ๋ถ„์ž : ๊ตฐ์ง‘ ๊ฐ„ ๊ฑฐ๋ฆฌ๋“ค ์ค‘ ์ตœ์†Œ๊ฐ’
  • ๋ถ„๋ชจ : ๊ตฐ์ง‘ ๋‚ด ๊ฐœ์ฒด ๊ฐ„ ๊ฑฐ๋ฆฌ์˜ ์ตœ๋Œ€๊ฐ’
  • ๐Ÿ‘‰ ๊ฐ’์ด 1์ด์ƒ์ด๋ผ๋ฉด ๊ฐ€์žฅ ์ž‘์€ ๊ตฐ์ง‘ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๊ตฐ์ง‘ ๋‚ด์˜ ๊ฐ€์žฅ ๋จผ ๊ฑฐ๋ฆฌ๋ณด๋‹ค ๊ธธ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์Œ --> ๊ตฐ์ง‘ํ™”๊ฐ€ ์ž˜ ๋˜์—ˆ๋‹ค
  • ๊ฑฐ๋ฆฌ ์ธก์ • ๋ฐฉ์‹ --> Euclidean? Jaccard? ์ด๊ฑด ์šฐ๋ฆฌ๊ฐ€ ์„ ํƒํ•ด์•ผํ•  ๋ฌธ์ œ

 


reference

http://blog.naver.com/PostView.nhn?blogId=samsjang&logNo=221017639342&categoryNo=0&parentCategoryNo=0&viewDate=&currentPage=1&postListTopCurrentPage=1&from=postView : kmeans clustering ์ตœ์ ์˜ ํด๋Ÿฌ์Šคํ„ฐ ๊ฐœ์ˆ˜ ์ฐพ๊ธฐ

https://frhyme.github.io/python-lib/clustering_evaluation/ : ํด๋Ÿฌ์Šคํ„ฐ๋ง์„ ๋‹ค์‹œ ๊ณต๋ถ€ํ•ด๋ด…์‹œ๋‹ค

 

1.

euclidean ๊ฑฐ๋ฆฌ ๊ณ„์‚ฐ์‹œ ๋‹จ์–ด์˜ ์ถœํ˜„๋นˆ๋„๋กœ ์‚ฌ์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹จ์–ด์˜ ๋นˆ๋„๊ฐ€ ๋Š˜์–ด๋‚˜๋ฉด ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ๊ฐ€ ์ปค์ ธ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด์ง. ๋ฐ˜๋ฉด์— cosine ์œ ์‚ฌ๋„๋Š” ๋ฒกํ„ฐ์˜ ํฌ๊ธฐ(magnitude)๋ฅผ ๋ฌด์‹œํ•˜๊ณ  ๊ฐ๋„๋งŒ ๋ณด๊ณ  ์ธก์ •ํ•˜๋ฏ€๋กœ ์ด๋Ÿฌํ•œ ์ ์—์„œ cosine ์œ ์‚ฌ๋„๋ฅผ ์ด์šฉํ•˜๋Š” ๊ฒƒ์ด ๋” ์ข‹์Œ

jaccard ์œ ์‚ฌ๋„ ๋˜ํ•œ ์ค‘๋ณต์„ ๋ฌด์‹œํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹จ์–ด์˜ ๋ฐ˜๋ณต์ ์ธ ๋ฐœ์ƒ์ด ์žˆ๋Š” ๊ฒฝ์šฐ cosine ์œ ์‚ฌ๋„๋ฅผ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ์ข‹์Œ

 

2.

clustering ํ’ˆ์งˆ์„ ์ •๋Ÿ‰์ ์œผ๋กœ ๋ถ„์„ํ•  ์ˆ˜ ์žˆ๋Š” ์ง€ํ‘œ๋กœ ์‹ค๋ฃจ์—ฃ ๊ธฐ๋ฒ•์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ณ , ์ตœ์ ์˜ k๋ฅผ ์ฐพ๋Š”๋ฐ์— ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Œ

ํ•˜์ง€๋งŒ ์‹ค๋ฃจ์—ฃ ๊ธฐ๋ฒ•์€ ๋ชจ๋“  ๊ฐœ์ฒด๋“ค๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ฐฉ์‹์ด๊ธฐ์— ์ฐจ์›์ด ํฐ matrix์— ๋Œ€ํ•ด์„œ computation์ด ๊ต‰์žฅํžˆ ํฌ๋ฉฐ, ๋ฐ์ดํ„ฐ๊ฐ€ sparseํ•œ ํŠน์„ฑ์„ ๊ฐ€์ง„ ๊ฒฝ์šฐ ์‹ค๋ฃจ์—ฃ ์Šค์ฝ”์–ด๊ฐ€ ๋งค์šฐ ๋‚ฎ๊ฒŒ ์ธก์ •๋จ. k๊ฐœ์ˆ˜๋ฅผ ์ฆ๊ฐ€์‹œํ‚ฌ์ˆ˜๋ก ์‹ค๋ฃจ์—ฃ ์Šค์ฝ”์–ด๊ฐ€ ์ฆ๊ฐ€ํ•˜๊ธด ํ•˜๋‚˜ ๊ทธ ์ฐจ์ด๊ฐ€ ๊ต‰์žฅํžˆ ๋ฏธ๋ฏธํ•จ.

--> ์ฐจ์›์ด ํฌ๊ณ  sparseํ•œ ๋ฐ์ดํ„ฐ๋กœ ํด๋Ÿฌ์Šคํ„ฐ๋งํ•œ ๊ฒƒ์„ ์‹ค๋ฃจ์—ฃ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ์ •๋Ÿ‰์ ์œผ๋กœ ๋น„๊ตํ•˜๊ธฐ์—” ํ•œ๊ณ„๊ฐ€ ์žˆ์Œ

 

 

 

์ฐจ์›์ถ•์†Œ๋ฅผ ์œ„ํ•œ PCA, TSNE ๊ณผ์ •๋„

728x90
๋ฐ˜์‘ํ˜•