본문 바로가기

정보검색론8

텍스트 분류 텍스트분류 from wang inyoung 텍스트 분류에 대한 피피티 자료입니당 2018. 1. 17.
[파일구조] B tree 와 B+ tree B-Tree 검색을 위한 자료구조 중에서 이진 트리는 비록 하나의 부모가 두 개의 자식밖에 가지질 못하고 자칫 균형이 맞지 않으면 검색 효율이 선형검색 급으로 떨어지지만 잠재력이 가장 크다. 그렇지만 이진 트리는 구조의 간결함과 균형만 맞다면 검색, 삽입, 삭제 모두 O(logN)의 성능을 보이는 장점이 있어서 이를 바탕으로 개선하고자 하는 노력이 많이 있어 왔다. 그 중에서도 B-Tree는 이진트리를 확장해서 더 많은 수의 자식을 가질 수 있게 일반화하였다. B-트리는 자식 수에 대한 일반화를 하면서 하나의 레벨에 더 많이 저장되는 것 뿐만 아니라 트리의 균형을 자동으로 맞추는 로직까지 갖추었다. 게다가 이 균형 로직은 단순하면서도 효율적이다. 그래서 B-트리는 레벨로만 따지면 완전히 균형을 맞춘 트리.. 2018. 1. 16.
hash 자료형 python 딕셔너리 자료형 사람은 누구든지 "이름" = "홍길동", "생일" = "몇 월 몇 일" 등으로 구분할 수 있다. 파이썬은 영리하게도 이러한 대응 관계를 나타낼 수 있는 자료형을 가지고 있다. 요즘 사용하는 대부분의 언어들도 이러한 대응 관계를 나타내는 자료형을 갖고 있는데, 이를 연관 배열(Associative array) 또는 해시(Hash)라고 한다.파이썬에서는 이러한 자료형을 딕셔너리(Dictionary)라고 하는데, 단어 그대로 해석하면 사전이라는 뜻이다. 즉, people이라는 단어에 "사람", baseball이라는 단어에 "야구"라는 뜻이 부합되듯이 딕셔너리는 Key와 Value라는 것을 한 쌍으로 갖는 자료형이다. 예컨대 Key가 "baseball"이라면 Value는 "야구"가될.. 2018. 1. 16.
텍스트 분류 1. 서론 텍스트 분류 text classification - 하나 혹은 그 이상의 클래스 라벨을 각 문헌에 연결짓는 행위 즉, 문헌을 클래스에 넣는 과정클래스 - 라벨에 의해 표현될 수 있는 내용을 가진 문헌을 넣을 집합. 분류된 그룹. (=범주 category )ex) 심장 수술 클래스 = { 심장 질환을 다루는 수술 절차에 관한 문헌 } => 주제분류( topic classification) 클래스 라벨이 문헌의 주제를 나타냄. -- 클래스 관련 문제 : 문헌 집단을 라벨링 없이 부분집합으로 나누는 것. 각각의 부분집합은 라벨이 붙어 있지 않기 때문에 클러스터(cluster)라고 한다. (= text clustering) 텍스트 분류 = 정보를 정리해서 데이터의 이해와 해석을 돕는다. 2. 텍스트 .. 2018. 1. 11.