티스토리 뷰

201021

Impurity (불순도)/ Entropy (불확실성)

Decision Tree는

  • 순도가 증가하고
  • 불순도/ Entropy가 감소하는 방향으로 학습을 진행, 영역을 분기한다.
  • Information Theory (정보 이론)
    • Information Gain (정보 획득) : 순도 ↑ & 불순도/ 불확실성 ↓
      • 정보 획득의 양이 크게 발생하는 방향 (= 불확실성이 많이 감소하는 방향)으로 node가 분기
      • 정보 획득량을 어떤 사건이 얼마만큼의 정보를 줄 수 있는지를 수치화 => 정보 함수 (I.F) / Entropy

Decision Tree

  • 데이터를 분석해서, 이들 데이터 사이에 존재하는 패턴
  • 예측 가능한 규칙들의 조합을 만드는 알고리즘
  • 독립, 종속 => 이산적인 데이터로 classification 작업을 할 때 사용
  • 장점 : 빠르게 학습, 간단한 형태, 다른 모델에 비해 더 좋은 성능을 낼 때가 있다.
  • 단점 : class (분류)의 개수가 많을 때 좋지 않다.
  • Root node/ inter mdediate node/ termical (leaf) node

정보 함수

  • 정보의 가치 (양)을 구하는 함수
  • 항상 일어나는 사건 -> 확률 1
    • 정보의 가치가 없다. (정보의 양이 적다.)
    • EX) 아침에 해가 뜬다.
  • 확률이 0에 가까운 사건
    • 정보의 가치가 높고 정보의 양이 많다.
    • EX) 앙침에 해가 안뜬다.

Entropy

  • 무질서도를 정량화해서 수치로 표현
  • 확률변수의 불확실성을 수치로 표현
  • Entropy가 높을수록 불확실성을 높게 띄고 -> 특징을 찾아내기 어렵다.

 

정보획득량

  • 전체 Entropy - 분류 후 Entropy
  • 정보 획득량이 최대한인 방향으로 학습/분기 진행
  • 불확실한 상황 (정보량 多 - Entropy ↑) => 불확실X 상황 (정보량 少 - Entropy ↓)

 

영역에 대한 Entropy 구하기

  • 분기 전 Entropy > 분기 후 Entropy 
    • Entropy가 감소했다. (0.9544 -> 0.7489)
    • 불확실성 감소
    • 순도 증가
    • 정보 획득 발생
    • 정보 획득량 = 0.9544 - 0.7489
    • 분기를 하는게 더 좋은 상황

 

201023 CNN

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
글 보관함