Decision tree기법을 이용한 아이리스 꽃 분류

이미지
김기훈 물리학과 hoon2680@naver.com 이지연 수학과 dwnse1010@naver.com 이미영 응용시스템학과 meme22@hanyang.ac.kr 조준희 수학과 cho1004jh@naver.com Ⅰ. Introduction 아이리스 꽃 데이터는 영국 통계학자이자 생물학자인 피셔가 정의한 다변량 데이터 세트이다. 이 데이터에는 setosa, versica, virginica 이 세가지 종이 있으며 이러한 사실을 통해 '이 세가지 종은 어떤 차이가 있고 어떻게 구분이 될까?' 라는 생각을 할 수 있다. 이 물음에 답하기 위해 주어진 아이리스에 대한 여러가지 데이터를 바탕으로 종을 어떻게 분류할 수 있을지 Decision tree 기법을 통해 알아보는 것이 우리의 목표이다. Ⅱ. Datasets sckit-learn의 datasets 모듈에서 아이리스 데이터에대한 정보를 불러와 pandas를 이용해 DataFrame으로 변형한다. preprocessing 모듈의 LabelEncoder를 이용하여 dataset에 종에 대한 열을 추가시킨다. 이렇게 불러온 아이리스 데이터는 아래와 같다. 데이터 세트에는 꽃받침의 길이 (Sepal Length), 꽃받침의 너비 (Sepal Width), 꽃잎의 길이 (Petal Length), 꽃잎의 너비 (Petal Width), 이렇게 4 가지 속성을 가진 150 개의 자료가 있다 . (Iris setosa, Iris viritica, Iris synicolor 세 종 각각 50 개의 샘플이다. )  Ⅲ. Methodology (1) choice of algorithm * Decision tree 기법 Decision tree 는 일련의 질문에 대한 결정을 통해 데이터를 분류하는 모델이며 train set에 있는 feature을 기반으로 정답을 예측할 수 있는 일련의 질문들을 학습한다. 위 그림은 tree의 구조이다. Decision tree...