Computer Science/Data Science

[Machine Learning] Logistic Regression μ˜ˆμ‹œλ₯Ό 톡해 λ‹€μ€‘μ„ ν˜•νšŒκ·€ μ΄ν•΄ν•˜κΈ°

_cactus 2022. 6. 22. 14:25
λ°˜μ‘ν˜•

Logistic Regression

  • λ²”μ£Όν˜• λ³€μˆ˜ 예츑 λͺ¨λΈ

 

Logistic Regression을 μ•ŒκΈ°μ „μ— linear regression을 λ¨Όμ € μ•Œμ•„μ•Ό.

 

 

Multiple Linear Regression (λ‹€μ€‘μ„ ν˜•νšŒκ·€)

  • μˆ˜μΉ˜ν˜• μ„€λͺ…λ³€μˆ˜ X와 μ—°μ†ν˜• 숫자둜 이뀄진 μ’…μ†λ³€μˆ˜ Yκ°„μ˜ 관계λ₯Ό μ„ ν˜•μœΌλ‘œ κ°€μ •ν•˜κ³  이λ₯Ό κ°€μž₯ 잘 ν‘œν˜„ν•  수 μžˆλŠ” νšŒκ·€κ³„μˆ˜λ₯Ό λ°μ΄ν„°λ‘œλΆ€ν„° μΆ”μ •ν•˜λŠ” λͺ¨λΈ
    • μ΄λ•Œ νšŒκ·€κ³„μˆ˜λŠ” λͺ¨λΈμ˜ μ˜ˆμΈ‘κ°’κ³Ό μ‹€μ œκ°’μ˜ 차이(μ˜€μ°¨μ œκ³±ν•© error sum of squared)을 μ΅œμ†Œλ‘œ ν•˜λŠ” κ°’
  • μ„€λͺ…λ³€μˆ˜κ°€ p개인 λ‹€μ€‘μ„ ν˜•νšŒκ·€μ˜ 일반 식

  • μ˜ˆμ‹œ - 1
    • λ‚˜μ΄μ™€ ν˜ˆμ•• 데이터가 μ£Όμ–΄μ‘Œμ„ λ•Œ, μ˜€μ°¨μ œκ³±ν•©μ„ μ΅œμ†Œλ‘œ ν•˜λŠ” νšŒκ·€κ³„μˆ˜ κ΅¬ν•˜κΈ°
      • μ„€λͺ…λ³€μˆ˜ X : λ‚˜μ΄
      • μ’…μ†λ³€μˆ˜ Y : ν˜ˆμ••

 

 

 

μ•žμ„œ μ’…μ†λ³€μˆ˜ YλŠ” ‘ν˜ˆμ••’으둜 μ—°μ†ν˜• μˆ«μžμ˜€μŒ. κ·Έλ ‡λ‹€λ©΄, μ—°μ†ν˜• 숫자 λŒ€μ‹  λ²”μ£Όν˜• λ³€μˆ˜λ₯Ό μ΄μš©ν•΄ μœ„μ™€ 같은 νšŒκ·€λͺ¨λΈμ„ λ§Œλ“€ 수 μžˆλŠ”κ°€

  • μ˜ˆμ‹œ - 2
    • λ‚˜μ΄μ™€ μ•” λ°œμƒμ—¬λΆ€ (1: λ°œλ³‘, 0: 정상)
      • μ„€λͺ…λ³€μˆ˜ X : λ‚˜μ΄
      • μ’…μ†λ³€μˆ˜ Y : μ•” λ°œμƒμ—¬λΆ€ (0/1)

 

 

이처럼 κ·Έλž˜ν”„κ°€ μ΄μƒν•˜κ²Œ κ·Έλ €μ§€λŠ” μ΄μœ λŠ” Y의 μ„±μ§ˆ λ•Œλ¬Έ. λ²”μ£Όν˜•μ΄κΈ° λ•Œλ¬Έμ— 정상 1, λ°œλ³‘ 0 으둜 λ°”λ€Œμ–΄λ„ μ „ν˜€ 지μž₯이 μ—†μœΌλ©° 0,1 μˆ«μžλŠ” 아무 의미λ₯Ό μ§€λ‹ˆμ§€ μ•ŠμŒ

→ 그렇기에 Yκ°€ λ²”μ£Όν˜•μΈ 경우 λ‹€μ€‘μ„ ν˜•νšŒκ·€ λͺ¨λΈμ„ κ·ΈλŒ€λ‘œ μ μš©ν•  수 μ—†μŒμš”μ•½ν•˜μžλ©΄, λ‹€μ€‘μ„ ν˜•νšŒκ·€λŠ” μ’…μ†λ³€μˆ˜κ°€ μ—°μ†ν˜•, λ‘œμ§€μŠ€ν‹±νšŒκ·€λŠ” μ’…μ†λ³€μˆ˜κ°€ λ²”μ£Όν˜•

⇒ μ΄λŸ¬ν•œ 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μ œμ•ˆλœ λ‘œμ§€μŠ€ν‹± νšŒκ·€ λͺ¨λΈ (Logistic Regression)

 

 

 

μš”μ•½ν•˜μžλ©΄, λ‹€μ€‘μ„ ν˜•νšŒκ·€λŠ” μ’…μ†λ³€μˆ˜κ°€ μ—°μ†ν˜•, λ‘œμ§€μŠ€ν‹±νšŒκ·€λŠ” μ’…μ†λ³€μˆ˜κ°€ λ²”μ£Όν˜•

 

 

 

728x90
λ°˜μ‘ν˜•