본문 바로가기
#시간순/KT 에이블 스쿨 - 기자단

[1차미프] Jupyter로 데이터 다듬기!

by taeni 2024. 8. 5.


[일정] : 240307~240308(2일간) 진행되었다.

예비군을 가셔야하는 조원분들이 7분들 3분이었어서 

첫째날은 나머지 4명이서 오프라인으로 진행, 

둘째날은 모두다 분당교육장에서 만나기로 정하였다.

미프 전 교육은 파이썬과 주피터툴로 데이터 다듬기를 배웠다.

그래서 첫번째 미프는 주피터 툴로 엑셀파일을 불러오고
유통고객 구매패턴의 데이터를 전처리하는 일을 하였다.

 

주제로는 

[1일차] 유통고객 구매패턴 데이터 전처리

[2일차] 머신러닝과 AI모델링을 위한 토익 진단평가 데이터 다듬기

로 정해졌다.

 

해당 문제가 주피터 툴이 처음인 나에게는 조금 어려운데

다음날 만나는 처음 만나는 조원들에게 못해가는 모습을 보이기 싫어서 

1:1 문의에 튜터님께 물어가며

무사히 만들어 냈다.

튜터님께서 잘 알려주셔서 무사히 첫 미프를 잘 헤쳐나갈 수 있었다🩷

 


3/7일 저녁에는 다음날 일정과 해야할 일에 대해 카톡으로 회의를 했다.

 

[3/7 작성한 3/8일정과 TODO LIST]

 

하루뿐이지만
나름 조장이 되어

팀의 실적이 신경쓰여 발표신청을 하였지만

경쟁이 치열해
미처 발표까지 이루어지지는 못하여 아쉬었다.

 

 

[준비한 발표 대본]

안녕하세요 
18조 회의 브리핑하도록 하겠습니다

조희조는
인덱스, 로우수가 차이가 나서 왜 그럴까 이유를 분석하는 것을 초점으로 회의시간을 채웠습니다.

첫째날은 

1일차 2:2의 비율로 - 결과값이 달라서 이유를 분석해보았더니   
아까 선생님이 말씀해주셨던
원인: - 조인의 문제   outer   /   inner
로 인덱스 값이 다르게 나온다는 것을 알게 되었습니다.

오늘  둘째날은,
 조원1명의 데이터 탐색 결과가 달라서 로우 값을 비교를 해보니
데이터 탐색 
500정도가 나와야 하는데 1500명 이 나와 
역으로 디버깅하면서 코드 한줄씩 해석하면서, 문법 점검과 이 작업을 하는 이유를 토론하며 학습했습니다.

그래서 발견한 원인으로는

원인 : temp1 와 temp2 를 잘못 불러와서 
계속 temp 값이 누적되어 1500줄이 나온 것으로 분석할 수 있었습니다.


이외로도 :
-중간중간 copy를 사용하여 예비 백업하고
-시간이 많이 걸리니 주석처리
-상황에 맞게 데이터프레임 확인하기 등

실무에 적용할 수 있는 꿀팁들도 공유를 하였습니다.


또한 판다스 치트 시트도 하나는 
지금까지 강의를 요약한 것과
유투브 강의를 들어 만든 치트시트 
이렇게 두가지의 다른 스타일로 공유할 수 있어서 좋은 시간 이었습니다.


느낀점으로는 

- 혼자있었을 때는 이해가 안되고 이게 맞나라는 확신이 없었는데 조원의 도움으로 쉽게 이해하고 안심할 수 있었다.

-얼굴도 못본 사람들과 미프 자체가 처음이라 
어색했었던 것 같은데 / 
오늘 분당교육장에 와 회의를 하면서
밥이랑 과자도 같이먹고 친해지는 계기가 되었습니다.


이만 들어주셔서 감사합니다.