분류 전체보기66 웹 크롤러의 구조와 구현 웹 크롤러의 구조와 구현 수집기는 다운로더, 저장소, 스케줄러 등 세 모듈로 이루어져 있고 결정적인 모듈은 스케줄러이다.스케쥴러는 '프론티어(frontier)'로도 알려져 있는 방문할 URL의 큐를 유지하고, 하나 또는 그 이상의 다운로더를 특정 순서로 큐에서 순서대로 나오는 그 URL에 보내게 된다. 다운로더는 각 URL에 해당하는 내용을 검색해서 구문 분석 후 저장소 모듈에 보내며 나중에 색인화되고 검색하게 된다.또 저장소 모듈은 해당 페이지에서 검색된 메타데이터를 스케줄러에 제공하게 되는데 메타데이터는 스케줄링 정책을 구동시키는 데 중요한 정보가 된다. * 프론티어(frontier)웹 크롤러는 master/slave 모델을 따르며 Master(Frontier), Slave(Agent), Monito.. 2018. 1. 19. 카이제곱검정, F-척도 카이제곱검정은 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법이다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용된다. [1]카이제곱 값은 χ2 = Σ (관측값 - 기댓값)2 / 기댓값 으로 계산한다. 카이제곱에 의한 특징선택 카이 제곱의 임계치를 설정하고해당 임계치 이상의 용어를 제외한 나머지 용어는 폐기한다.문헌은 오직 남아있는 용어만을 고려하여 텍스트 분류 과정을 처리한다. 분류함수 평가를 위한 측정체계 F-척도(F-measure) F-척도는 정확률과 재현율을 결합하고 각 척도에 따른 가중치를 부여한다. 정확률(precision)과 재현율(recall)F-척도(F-measure) α 는 정확률과 재현율의.. 2018. 1. 18. [Django] model, 마이그레이션, 템플릿 프로젝트와 앱을 생성한 뒤,앱에서 사용할 모델클래스를 앱의 models.py 파일에 정의해야 한다. 1. Django 모델 Django에서 Model은 데이타 서비스를 제공하는 Layer이다. Django의 Model은 각 Django App안에 기본적으로 생성되는 models.py 모듈 안에 정의하게 된다. models.py 모듈 안에 하나 이상의 모델 클래스를 정의할 수 있으며, 하나의 모델 클래스는 데이타베이스에서 하나의 테이블에 해당된다 모델 클래스는 models.Model 을 상속받아야 한다.모델 클래스는 필드를 정의하기 위해 인스턴스 변수가 아닌 클래스 변수를 사용하는데, 이는 그 변수가 테이블 필드의 내용을 갖는 것이 아니라, 테이블의 컬럼 메타 데이타를 정의하는 것이기 때문이다. 필드를 정.. 2018. 1. 18. Django로 앱 만드는 초기과정 장고앱 만드는 과정 간단 정리!virtualenv와 django 설치를 했다는 가정 하에,, 1. 가상환경을 실행 리눅스/레드헷 계열command-line$ source myvenv/bin/activate* virtualenv란? Python실행파일과 pip로 설치된 라이브러리들을 독립된 폴더에 넣어버리는 방법으로써,프로젝트별로 개발환경에서 독립된 개발환경을 제공해줘야 각각의 프로젝트간에 환경변수들이 꼬이는 발생하지 않고 실제로 사용할 프레임워크와 버전충동을 피할 수 있다. 같은 모듈이라도 모듈 내에서 각각 프로그램이 다른 버젼을 필요로할 때나, python 프로그램을 실행하기 위한 최소한의 환경을 마련하고자 할 때, 그리고 github 등의 저장소와 연계하고자 할 때 등 가상환경은 매우 다양하게 사용될.. 2018. 1. 18. 이전 1 ··· 10 11 12 13 14 15 16 17 다음