카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다. [1]
카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2 / 기댓값 으로 계산한다.
카이제곱에 의한 특징선택
카이 제곱의 임계치를 설정하고
해당 임계치 이상의 용어를 제외한 나머지 용어는 폐기한다.
문헌은 오직 남아있는 용어만을 고려하여 텍스트 분류 과정을 처리한다.
분류함수 평가를 위한 측정체계 F-척도(F-measure)
F-척도는 정확률과 재현율을 결합하고 각 척도에 따른 가중치를 부여한다.
정확률(precision)과 재현율(recall)
F-척도(F-measure)
α 는 정확률과 재현율의 상대적인 중요성을 의미한다.
α=0 일 경우 오직 정확률만 고려되며
α = ∞ 일 경우엔 재현율만 고려하게 된다.
α = 0.5 일 때는 동등하게 반만큼 중요하다.
가장 많이 쓰는 F-척도 형식은 정확률과 재현율에 똑같은 가중치를 부여함으로써 획득된다.
α =1 일 때 F1-척도라고 말하고 다음과 같이 계산된다.
F1-척도는 정확률과 재현율의 상대적인 중요성에 균형을 준다.
'정보검색론' 카테고리의 다른 글
정보검색론 웹수집(Web Crawling) (0) | 2018.01.25 |
---|---|
웹 크롤러의 구조와 구현 (0) | 2018.01.19 |
웹 수집기(Web Crawler) (0) | 2018.01.18 |
텍스트 분류 (0) | 2018.01.17 |
[파일구조] B tree 와 B+ tree (0) | 2018.01.16 |