본문 바로가기
Data Analysis/RapidMiner

[Altair 래피드마이너 서포터즈] 6회차 활동

by su_hyeon 2023. 5. 14.

이번 활동은 저번활동에 이어서 래피드마이너 실습과  Data Preparation & Enginnering의 certification 취득에 도전하였다!

 

1. 래피드마이너 실습

 

 

 

4회차 활동에 이어서 Get Started with Rapidminer & Machine Learning 챕터에 들어가서 Connecting to Database 부터 학습을 진행하였다

 

1. Connecting to Database

이번 챕터의 주된 내용은 데이터 베이스를 래피드마이너에 연결시키는 것이었다.

 

'데이터베이스에 연결하는 방법'에 대해서 먼저 데이터베이스 연결 설정을 검토한 다음, 자신을 위해 또는 다른 사람이 사용할 연결 템플릿을 만드는 방법을 보여줍니다.

또한, Postgres 데이터베이스를 사용하는 관계형 데이터베이스의 구성을 시연하지만, NoSQL 데이터베이스 또는 클라우드 스토리지에 대한 연결을 설정할 수 있는 위치에 대해 간략하게 언급하겠습니다.

 

여기서 Postgres와 NoSQL은 데이터베이스를 구축하는 언어라고 생각하면 된다. (Oracle도 있다.)

 

1) 먼저, 상단에 있는 connections의 Creat Connection을 눌러준다. (연결장치를 생성한다는 의미)

 

2) 아래와 같은 창이 하나 뜨는데, connection type은 database로 눌러주고, 우리가 래피드마이너에 사용하고 있는 저장소가 Local Repository 이기 때문에 Repository 선택창에는  Local Repository 를 입력하여 준다.

+) connection type에는 database 뿐만 아니라 구글 클라우드, 이메일 등의  자료들을 연결해줄 수 있는 기능들도 포함되어 있기 때문에 사용자가 하고자 하는 방향으로 선택해주면 된다.

3) connection name에는 연결해주는 이름을 설정하여 주는데, 이는 나중에 연결하고 난 뒤 계속 사용해줄 이름이라고 생각하면 된다.

 

4) create를 눌러주면 아래와 같은 창이 뜬다. 먼저 info에는 간단한 Description을 만들 수 있는 창이 있고, 연결하는 데이터 베이스의 간략한 설명을 적어주면 된다.

5) set up 창에는 이제 데이터베이스를 연결해주기 위해서 여러가지를 설정할 수 있는데, 먼저 database system에는 아래와 같이 PostgresSQL을 선택해주면 된다.

만약, Oracle이나 MySQL을 사용한다면 그것을 눌러주면 된다.

 

6) 5번에서 User, Password 등 자신의 계정과 Postgres 링크를 삽입해주면 되는데, 나는 계정이 따로 없기 때문에 여기까지 실습을 진행하였고, 만약, 다 완료하면 아래와 같이 connection에 우리가 만들어준 postgres 파일이 생성된 것을 볼 수 있다. 

 

 

2. Creating a 'Decision Tree' Model

 

이번 학습 내용은 제목과 비슷하게 의사결정 나무 모델을 구축하는 실습을 진행하였다.

간단한 데이터 전처리를 진행하고 의사결정 나무 모델의 구축 방법과 간단한 결과 설명으로 의사결정나무 모델의 장점인 쉽고 빠른 해석이라는 것을 알게 되었다.

 

 

1) 먼저, 데이터를 로딩하기 위해서 Read Excel 오피레이터를 불러주고 import configuration wizard에서 데이터를 불러와 주었다.

 

customer-churn-data.xlsx
0.03MB

 

2) Next를 눌러주면 아래와 같은 화면이 나오는데 여기서 Churn이 예측하고자 하는 라벨값에 해당하기 때문에 Change Role에서 속성의 역할을 lable로 변경해주고 finish를 눌러주었다.

 

3) Results를 통해서 데이터를 불러온 것을 확인하였는데, 예측하고자하는 라벨 값에 결측치가 있는 것을 알 수 있다.

 

4) 라벨값에 결측치가 있으면 분석하는데에 악영향을 미치기 때문에 filter examples 오피레이터를 이용하여 결측치를 제거해주었다.

 

아래와 같이 add filters 파라미터에서 churn에 대해 is not missing을 선택해주고 ok를 눌러준다.

 

 

5) 결과를 확인해보면 결측치가 잘 제거되었음을 알 수 있다.

 

6) 다음으로 의사결정나무 모델를 실습하기 위해서 Decision Tree 오피레이터를 끌어와 주었다.

 

모델의 파라미터를 지정해줄 수 있지만, 이번 영상에서는 따로 추가적인 설명이 나오지는 않았다.

 

아래와 같은 결과가 의사결정이 구축된 것이라고 생각하면 된다.

 

간략하게 설명하자면, 제일 위에 있는 속성인 Gender에 의해서 male과 female로 나누어진다.

이렇게 제일 먼저 기준이 되는 것을 "루트노드"라고 부른다.

루트노드를 시작으로 사각형으로 되어 있는 속성에 따라서 타겟이 나누어 질 때까지 나무 모양으로 뿌리를 아래 방향으로 형성에 나간다.

 

제일 아래 빨간색과 파란색으로 나누어지는 기준을 '리프 노드'라고 부른다.

빨간색과 파란색의 비율에 따라서 예측하고자 하는 값이 달라진다.

 

 

 

 

 

2. 자격증 취득

 

주제는 Data Preparation & Enginnering이었고, 가장 먼저 Course를 수강하면서 주제에 관한 학습을 진행하였다.

 

 

 

자격증 시험 홈페이지에 들어가면, 가장 먼저 Introduction을 설명해준다.

자격증시험에 나오는 내용들을 소개해준다고 생각하면 된다.

 

 

 

또한, 시험 시간과 맞는 답을 선택하는 방법을 설명해주고, 예시 문제 3문제를 풀어보면서 시험에 대해 추가적으로 소개해준다.

 

시험을 치른 결과, 정답률이 75% 이상으로 자격증을 취득하였다.

 

이전의 자격증과 함께 총 2개의 자격증을 취득한 것을 볼 수 있었다.