1차 미니 프로젝트는 0307 - 0308 이틀로 진행되었다!
일주일 전 홈페이지에서 전농 교육장으로 예약을 했고,
나는 외출할 땐 항상 아아를 마셔야 하기에 미리 주변에 카페가 어디 있는지 찾아봤다. mbti J 아님
(근처에 메가 커피가 있음 !_!)
집에서 전농 교육장까지는 30-40분 정도가 걸렸고, 역시나 출근길엔 사람이 정말 많았다....
30분 동안 지하철에서 찌뿌돼서 왔다...
이틀간 한 미니프로젝트는 다음과 같다.
1. 구매패턴을 통한 이탈고객 예측
2. 토익 점수 예측
1. 구매패턴을 통한 이탈고객 예측
- 대상 고객
- 2014 ~ 2016년 신규 가입 고객 이면서 2016년 하반기에 한번 이상 방문한 고객
- 위 대상 고객 중, 2017년 1~3월(3개월) 동안 방문(구매) 하지 않은 사람은 이탈로 간주
- feature 생성
- 가입연수(RegDuration)
- 최근 3개월(2016년 10~12월) 간 방문 횟수
- 최근 3개월(2016년10~12월)간 구매금액
2. 토익 점수 예측
- 응시회차는 seq로 구분됨, 모든 응시자가 1,2,3의 회차 값을 갖고 있음
- seq1, seq2, seq3으로 feature 생성해서 구분
- 데이터 전처리 수행 (불필요 칼럼 삭제, Null 처리, 중복값 제거, 한 행으로 합치기 등
프로젝트!!라고 해서 살짝 겁을 먹었는데 아직 초반이라 그런지 쉽게 끝났다.
그리고 나는 토익 점수 예측을 추가 분석해 봤다.
먼저 데이터는 다음과 같이 있다.
내가 분석하고 싶었던 것들은 아래와 같다.
1. 성별에 따른 시험 성적 비교
2. 연령에 따른 시험 성적 비교
3. 모의테스트 및 기출문제 공부 횟수와 성적 간의 관계
자 하나씩 분석해 보자!
1. 성별에 따른 시험 성적 비교
필요한 데이터만 가져와서 성별에 따른 Total 점수를 시각화했다.
토익의 Total 점수는 여성이 좀 더 높긴 하지만 큰 차이는 없다.
그럼 과목에 따라 비교하면 큰 차이가 있을까?
모든 면에서 여성의 비율이 조금 더 많이 차지하지만 이것도 역시 큰 차이 없음을 볼 수 있다.
2. 연령에 따른 시험 성적 비교
분석을 하기 전 나의 가설은 연령이 증가함에 따라 Total이 감소할 것이다.
같은 데이터에서 생일과 점수를 수집했고 연령대 feature을 새로 만들어주었다.
여기서 연령대 기준으로 Total 점수를 시각화를 했을 때 위와 같은 그래프가 나왔고,
42세 이후로 점수가 급격하게 떨어지는 것을 볼 수 있다.
또한 상관계수를 계산해 본 결과 -0.786으로 아주 강한 음의 상관관계임을 볼 수 있다.
3. 모의테스트 및 기출문제 공부 횟수와 성적 간의 관계
우선 분석에 필요한 데이터 (토익 모의테스트 횟수, 기출문제 공부 횟수, Total)만 가져왔다.
시각화를 하기 전 회귀 계수와 절편을 계산해 봤다.
위의 계산은 에이블 스쿨에서는 아직 안 배웠지만 알고 있었기에 한번 해봤다.
해석을 해보자면 다음과 같다.
토익 모의테스트 횟수 : -2.42 , 기출문제 공부 횟수 : 4.08
토익 모의테스트 횟수가 1 증가할 때마다 'Total' 점수는 평균적으로 약 -2.42점 감소하고,
기출문제 공부 횟수가 1 증가할 때마다 평균적으로 약 4.08점 증가한다고 해석할 수 있다.
절편(예측값)은 회귀선이 독립 변수(입력 변수)가 모두 0인 경우에 종속 변수(출력 변수)의 예측값이 되는 점을 나타낸다. 이것은 독립 변수의 값이 모두 0일 때, 종속 변수의 기본적인 예측값이라고 생각할 수 있다.
다음으로 시각화를 해보았다.
기출문제 공부 횟수와 Total Score 사이의 양의 상관관계:
기출문제를 공부하는 것은 토익 시험에 대한 경험을 쌓는 것이다.
경험이 쌓일수록 토익 시험의 유형과 문제 해결 방법에 대한 이해가 깊어지고, 문제를 풀 때 능숙도가 높아질 수 있다. 따라서 기출문제 공부 횟수가 증가하면 종속 변수인 Total Score도 증가하는 경향이 있다.
토익 모의테스트 횟수와 Total Score 사이의 음의 상관관계:
반면에 모의 테스트는 토익 시험을 경험해 보는 것이지만, 실제 시험과 같은 압박과 긴장감을 경험하기 어렵다. 모의 테스트는 실제 시험과 유사하지만 그 경험의 강도가 낮기 때문에 실제 시험의 결과와는 다를 수 있다. 따라서 모의 테스트를 많이 볼수록 종속 변수인 Total Score가 감소하는 경향이 있다.
이렇게 궁금했던 가설 검증 끝!
1차 미프가 끝나고 회식이 있었다. 1차 2차가 있었지만 난 1차만 참여했다 !
ㅋㅋㅋㅋㅋㅋㅋ 자동인식 하니까 다 가려졌다 ㅋㅋㅋㅋ
다음에도 유용하게 써먹어야지
그럼 뿅 !
'KT AIVLE School' 카테고리의 다른 글
06. AICE 자격증 대비 [4차 미니 프로젝트] (3) | 2024.04.29 |
---|---|
05. 3차 미니 프로젝트 후기 (2) | 2024.04.29 |
04. 머신러닝 복습 #1 (4) | 2024.04.23 |
03. 2차 미니 프로젝트 후기 (4) | 2024.03.25 |
01. KT 에이블 스쿨 5기 DX 최종 합격 후기 (5) | 2024.03.08 |