본문 바로가기

전체 글66

웹 수집기(Web Crawler) 웹 수집기(Web Crawler)웹스파이더, 웹로봇, 등으로 알려지기도 함 웹으로부터 페이지를 자동으로 수집하는 소프트웨어이며 , 웹 검색의 경우 페이지들은 나중에 색인과 탐색에 쓰이게 된다.인터넷 상에서 돌아다니는 것은 아니고 별도에 위치한 웹 서버에게 문서 요청을 보내게 된다. 검색엔진과 같은 여러 사이트에서는 데이터의 최신 상태 유지를 위해서 웹 크롤링한다. 웹 크롤러는 방문한 사이트의 모든 페이지의 복사본 생성하는데 사용되며 검색 엔진은 이렇게 생성된 페이지를 보다 빠른 검색을 위해서 인덱싱한다. (위키백과) 웹 수집기의 작동원리 출처 : http://www.zinicap.kr/archives/5273 검색엔진은 링크(link) 와 텍스트(text) 기반으로 인식한다. 크롤러가 방문한 웹 페이지에.. 2018. 1. 18.
텍스트 분류 텍스트분류 from wang inyoung 텍스트 분류에 대한 피피티 자료입니당 2018. 1. 17.
centos7 gitlab gitlab 사용법 git config --global user.name "이름" git config --global user.email "이메일"Create Repository(저장소 만들기)mkdir 프로젝트이름 cd 프로젝트이름 git init touch README git add README git commit -m 'first commit' git remote add origin git@gitlab.com:demun/저장소이름.git git push -u origin master 출처: http://demun.tistory.com/2431 [demun(대문블로그)] 출처 https://www.zerocho.com/category/Git/post/581042fdcae2d100152ceae6git .. 2018. 1. 16.
[파일구조] B tree 와 B+ tree B-Tree 검색을 위한 자료구조 중에서 이진 트리는 비록 하나의 부모가 두 개의 자식밖에 가지질 못하고 자칫 균형이 맞지 않으면 검색 효율이 선형검색 급으로 떨어지지만 잠재력이 가장 크다. 그렇지만 이진 트리는 구조의 간결함과 균형만 맞다면 검색, 삽입, 삭제 모두 O(logN)의 성능을 보이는 장점이 있어서 이를 바탕으로 개선하고자 하는 노력이 많이 있어 왔다. 그 중에서도 B-Tree는 이진트리를 확장해서 더 많은 수의 자식을 가질 수 있게 일반화하였다. B-트리는 자식 수에 대한 일반화를 하면서 하나의 레벨에 더 많이 저장되는 것 뿐만 아니라 트리의 균형을 자동으로 맞추는 로직까지 갖추었다. 게다가 이 균형 로직은 단순하면서도 효율적이다. 그래서 B-트리는 레벨로만 따지면 완전히 균형을 맞춘 트리.. 2018. 1. 16.