본문 바로가기
#시간순/KT 에이블 스쿨 - 기자단

[5-1차미프] 시계열 데이터 기반 상품 판매량 예측_AI 모델 비교

by taeni 2024. 8. 6.


[일정] : 240424~240502(6일간) 진행되었다.
하지만 기간이 조금 긴 편이라
주제가 2번 정도로 나뉘어서,
 
5-1차 : 수 목 금,
5-2차 : 월 화 목
으로 이루어졌다.

 

이 글은 5-1차의 과제를 작성해 놓았다.

 

각각의 파라미터를 튜닝하고 모델링하는 것이 오래 걸리기 때문에

2모델(랜덤포레스트와 RGB)에 각각 3명씩 붙어서 

최적의 파라미터를 찾는 작업을 하였다.

 


[PPT]

특히 조장님이 많이 힘써주신 발표자료


[발표대본]

기존에 모델링도 ppt도 촉박하기는 하였지만 
모든 팀원들이 과정에 잘 참여해서

발표자인 내가 모르는 부분이 있을 때는
해당 부분을 맡은 팀원들에게 Q&A를 해서
발표 대본 또한 시간에 맞춰서 잘 작성, 발표할 수 있었다.

ppt  대본
1 표지
안녕하세요 ~ 3일만 이네요.
시계열 데이터 기반 상품 판매량 예측 
발표를 맡은 이태희 입니다. 

2
우선 프로젝트 진행 개요에 대해서 말씀드리겠습니다.

이번 5차 1시기 미프에서의 포인트는 
머신러닝을 이용하여 '시계열 데이터'를 이용한  `상품 판매량 예측`을 하는 것이었습니다.
{시계열 데이터를 다루는 것이 포인트!} 였습니다.

3 
이번 프로젝트 목표를 좀 더 구체적으로 한정시키겠습니다.
- 데이터의 전처리 할 때 44번 매장과 그에 대한 3,12, 42번의 핵심상품을 조사해보는 것과
- 리드타임동안 판매량 에 다라
리드 타임(lead time)은 상품의 주문일시와 납품까지의 소요시간을 생각해  재고 상태를 예측 해야 하는 것이었지만 (3개의 상품은 사실 2로 통일 되었었죠.)

4 
타임라인 설명해도록 하겠습니다. 
첫째날 데이터 처리 와 eda를 진행하였고 
둘째날과 셋째날에 모델링과, 좀더 좋은 성능을 갖는 튜닝작업을 진행했습니다.

이 과정들을 통해 얻은 예측과 결론을 말씀드리도록 하겠스빈다.

5
데이터 처리입니다.
데이터 전처리의 경우, 
우선 3년치의 데이터를
interpolate, 선형보간법을 통해 결측치를 처리하였습니다.


6
[EDA]  분석 순서 : 매장 분석 , 3,12, 의 비교,  42번으로 분석의 범위를 좁혀 나갔습니다

store의 비교를 보시면 
우선 아래의 그래프를 보시면 
3년동안의 총 데이터 를 보면, 년말에 방문 고객수가 있다는 것을 확인할 수 있습니다.

아래 그래프를 (위 그래프)의 스토어별로 쪼개어 보면 ,
역시나 거의 모든 매장들이 년말에 방문객 수가 올라가는 것을 볼 수 있지만, 

파란색, store 18의 경우는  2016년 말 그래프가 홀로 내려가 해당 부분을 확인해 보니 데이터가 없어서 이상치가 생긴 것을 확인 ,하지만 44번 스토어만 

강의 중 42번은 값이 너무 작아서  - 해당 원인 : 휴무

1.매장 분석을 하고 
3,12,

7 ★
2014~ 2016년 주요 상품 판매 데이터를 확인하게 ㅆ습니다epdlxjf를 확인할 tndlTt브니다. 
206
그래프가 3번과 12 
3번 초록 색 데이터 값이 매우 낮게 나와서 
12 번과 3번을 위주로 비교릃 ㅐㅆㄱ ㅗ

8 휴무 데이터를 확인할 수 있습니다. 
설날이나 크리스마스 세일 때문에  방문자가 늘어났습니다.

다른 메모장 

데이터를  ㅍ

9 유가부터 
없음 ppt 읽기 

10
eda 정리 포인트 4가지

11모델링 변수 구성의 경우 -
1차 데이터 구성은 이렇게 되고
2차 데이터 구성은 이렇
 이 둘의 비지도 학습 후 상관계수를 비교해보았을 떄~ 

12 
기본적이 모델로는 선혀오히귀모델을 사용했는데,
선형회귀도 마찬가지로 추가적인 데이터를 넣을 수록 높은 성능을 가지는 것을 확인할 수 있었습니다. 
 
13 모델링비교를 하도록 하겠습니다 
랜덤포레스트가 가장 좋았습니다 

14 모델링 튜닝을 했을 때도 
랜덤포레스트 모델이 성능이 더 좋은 것을 r2값을 확인할 수 있습니다.

15 [테스트 데이터로 예측]
초기 목적이었던 
리드타임 동안 판매량에 따라 재고 상태를 예측에 성공한 화면을 볼 수 있습니다.

테스트데이터를 넣어서 확인해보니까 
2017년도 
3월1일에 의 데이터를 이용해서 모델예측을 하였습니다.

모델링한 예측값과 입고량과 재고량을 판단하고 
그에 따른 기회손실이 0이 나온 것을 확인할수 있습니다.
-------------
[결론]
파악을 할 수 있었고
예측도 가능할 수 있었습니다.

[느낀점]
전처리와 모델링 튜닝에 대해서 많은 5차 미니프로젝틍 였던 것 같습니다.
들어주셔서 감사합니다.

[꽉 찬 육각형 18조!]