본문 바로가기

정보검색론8

정보검색론 웹수집(Web Crawling) 웹수집(Web Crawling) from wang inyoung 웹 수집에 대해 정리한 내용을 ppt 로 만들어보았습니다. 2018. 1. 25.
웹 크롤러의 구조와 구현 웹 크롤러의 구조와 구현 수집기는 다운로더, 저장소, 스케줄러 등 세 모듈로 이루어져 있고 결정적인 모듈은 스케줄러이다.스케쥴러는 '프론티어(frontier)'로도 알려져 있는 방문할 URL의 큐를 유지하고, 하나 또는 그 이상의 다운로더를 특정 순서로 큐에서 순서대로 나오는 그 URL에 보내게 된다. 다운로더는 각 URL에 해당하는 내용을 검색해서 구문 분석 후 저장소 모듈에 보내며 나중에 색인화되고 검색하게 된다.또 저장소 모듈은 해당 페이지에서 검색된 메타데이터를 스케줄러에 제공하게 되는데 메타데이터는 스케줄링 정책을 구동시키는 데 중요한 정보가 된다. * 프론티어(frontier)웹 크롤러는 master/slave 모델을 따르며 Master(Frontier), Slave(Agent), Monito.. 2018. 1. 19.
카이제곱검정, F-척도 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다. [1]카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2 / 기댓값 으로 계산한다. 카이제곱에 의한 특징선택 카이 제곱의 임계치를 설정하고해당 임계치 이상의 용어를 제외한 나머지 용어는 폐기한다.문헌은 오직 남아있는 용어만을 고려하여 텍스트 분류 과정을 처리한다. 분류함수 평가를 위한 측정체계 F-척도(F-measure) F-척도는 정확률과 재현율을 결합하고 각 척도에 따른 가중치를 부여한다. 정확률(precision)과 재현율(recall)F-척도(F-measure) α 는 정확률과 재현율의.. 2018. 1. 18.
웹 수집기(Web Crawler) 웹 수집기(Web Crawler)웹스파이더, 웹로봇, 등으로 알려지기도 함 웹으로부터 페이지를 자동으로 수집하는 소프트웨어이며 , 웹 검색의 경우 페이지들은 나중에 색인과 탐색에 쓰이게 된다.인터넷 상에서 돌아다니는 것은 아니고 별도에 위치한 웹 서버에게 문서 요청을 보내게 된다. 검색엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해서 웹 크롤링한다. 웹 크롤러는 방문한 사이트의 모든 페이지의 복사본 생성하는데 사용되며 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해서 인덱싱한다. (위키백과) 웹 수집기의 작동원리 출처 : http://www.zinicap.kr/archives/5273 검색엔진은 링크(link) 와 텍스트(text) 기반으로 인식한다. 크롤러가 방문한 웹 페이지에.. 2018. 1. 18.