본문 바로가기
KT에이블스쿨/에이쁠 기자단

[KT에이쁠 기자단] 2주차 후기(8.14~8.18) 데이터처리, 데이터 분석 및 의미 찾기

by 롱싱싱 2023. 8. 29.

안녕하세요..!

 

KT에이블스쿨 2주차가 무사히 끝났습니다!!

 

2주차에는 데이터프레임의 열을 삭제하거나, 두 개의 데이터프레임을 병합하는 등의 데이터 처리와, 이러한 데이터를 가지고 시각화를 하거나, 단변량, 다변량분석으로 데이터의 의미를 찾는 시간을 가졌습니다.

 

8.14

데이터 처리

8.15

광복절 (휴강)

8.16

데이터 처리

8.17

데이터 분석 및 의미찾기

8.18

데이터 분석 및 의미찾기

 

이번 주에는 광복절이 껴있어서 하루 쉴 기회가 있었지만 다음 주부터 시작될 코딩 마스터스를 대비하기 위해 알고리즘 공부와 스터디를 하느라 약간의 휴식만 취했습니다..😋


python프로그래밍, 데이터처리

데이터 처리 부분에서는 분석을 수행하기 전 데이터프레임을 조작하는 방법과 변수 하나만 가지고 분석을 수행하는 단변량 분석에 대해 배울 수 있었고 숫자형 변수와 범주형 변수의 다양한 그래프를 그리며 각 그래프와 데이터가 의미하는 바를 배울 수 있었다.

또한 강사님께서 매일 강의를 시작할 때마다 중요하다고 반복했던 CRSIP-DM(데이터분석방법론)!!에 대해 배울 수 있었다!

 

파이썬 라이브러리 & 단변량 분석

파이썬 라이브러리 부분에서는 데이터프레임을 조작하는 방법에 대해 배웠다. 

저번 주차에 이어서 한기영 강사님께서 강의를 진행해주셨다! 데이터프레임의 컬럼 이름 수정, 열 추가, 열 삭제, 값 변경, 결합 등에 대해서 배웠다. 특히 concat과 merget에 대해 자세히 알 수 있었고 강사님께서 질문 하나하나에 열심히 답해주시며 내가 놓쳤던 부분에 대해서도 다시 한번 배울 수 있었다!

단변량 분석

단변량 분석은 변수 하나를 가지고 데이터를 분석하는 방법이다. 범주형 데이터와 숫자형 데이터에 따라 분석하는 방법이 다르다. 숫자형 변수의 경우는 평균, 중앙값, 최빈값, 사분위수 같이 정보의 대표값으로 히스토그램, kdeplot, boxplot을 그릴 수 있고, 범주형 변수의 경우는 구간을 나눠 빈도수나 범주별 비율로 barplot 그래프를 그릴 수 있다.

그래프를 그리는 코드 자체는 쉬웠지만 이 그래프를 가지고 어떻게 해석하냐가 중요한 것 같다.

강사님께서는 그래프의 밀집 구간과 희박한 구간을 보고 왜 그런지 파악하는 것이 중요하다고 말씀해주셨다!

CRSIP-DM

강사님께서 가장 중요하다고 말씀해주셨던 데이터 분석 방법론이다. 

1. 비즈니스 이해

2. 데이터 이해

3. 데이터 준비

4. 모델링

5. 평가

6. 배포

의 순서대로 진행된다. 

CRISP-DM은 비즈니스와 데이터의 상호작용을 강조하며, 반복적이고 순환적인 과정을 통해 프로젝트를 진행한다. 각 단계는 상세한 태스크와 가이드라인을 제공하며, 팀은 이를 따라가며 프로젝트를 성공적으로 수행할 수 있다.

매번 강의를 시작하실 때마다 이 표를 보여주시면서 설명을 하셨는데, 그만큼 중요하다는 뜻이다.. 아직은 헷갈리는 부분도 있지만 실전에서 비즈니스 문제를 해결할 수 있도록 열심히 공부해봐야겠다.


 

데이터 분석 및 의미찾기

앞서 했던 단변량분석에서는 뭔가를 판단하기에는 부족하다는 느낌을 받았을 때가 있었다. 이러한 문제점들을 이변량 분석을 통해 각 데이터의 feature와 target의 연관성에 대해 자세히 확인해 볼 수 있었다. 

  숫자 범주
  시각화 수치화 시각화 수치화
숫자 산점도(scatter) 피어슨 상관계수 kdeplot X
범주 막대그래프(barplot) 변수 2개: ttest(t통계량) 모자이크(mosaicplot) 카이제곱검정
변수 3개 이상:anova(분산분석)

 

예를 들어, 타이타닉 탑승자 데이터에서 탑승지역과 사망률의 연관성과 같이, 이변량 분석을 사용하니 단변량 분석에서는 보이지 않던 여러 분석 데이터들을 얻을 수 있었다. 

각 데이터 종류 별 사용해야 하는 그래프를 그리는 방법과 수치화 방법이 모두 달랐다. 숫자-숫자는 산점도, 상관계수, 범주-숫자는 막대그래프, t통계량, 분산분석, 범주-범주는 모자이크플롯, 카이제곱검정, 숫자-범주는 kdeplot과 같이 각 데이터별의 특성을 잘 알고 있어야 실제 데이터를 분석할 때 유용하게 사용할 수 있을 것 같다.

그래프를 잘 그리거나 수치화해도 결국 분석은 사람이 하는 것이기 때문에 그래프 ,수치화를 보고 데이터를 분석할 수 있는 역량을 갖춰야겠다.

 

https://dmk4660.tistory.com/19


2주차 총정리

약 2주간 데이터 분석에 대해 자세히 배울 수 있었다. 2주차를 가르쳐 주신 한기영 강사님은 나중에 다시 오신다고 한다.😢

다음주부터는 코딩 마스터스와 미니프로젝트가 시작된다 지금 우리반에서 알고리즘 스터디를 만들어 열심히 공부중인데, 일단 목표치는 70문제 이상을 풀고 싶다!! 그리고 미니프로젝트를 하러 직접 대면으로 KT사옥에 가서 팀원들을 처음 만나는데, 아주 떨린다..! 공부한 내용으로 조원들에게 피해가 가지 않도록 열심히 참여할 것이다.