본문 바로가기
대외활동/공모전

[2022 빅콘테스트] 데이터분석리그 데이터분석분야 퓨처스부문

by rahites 2022. 11. 13.

https://www.bigcontest.or.kr/main.php

 

빅콘테스트

기업에서 실제 보유하고 있는 데이터를 자유롭게 활용하여 새로운 비즈니스 모델 및 참신한 아이디어를 제시하고, 빅데이터 인재발굴을 통한 청년 취업 기회를 제공

www.bigcontest.or.kr

(2022.08.30. ~ 2022.10.14)

함께한 팀원 : 고민성, 이수빈, 주민지

 

1. 주제

대출 진입장벽 완화 및 핀다 서비스 홍보를 위한 고객 군집별 메시지 제안

(앱 사용성 데이터를 통한 대출신청 예측분석)

 

2. 방법

(1) 데이터 분석 및 결측치 처리

(2) 대출 신청 예측 모델 구축

(3) 군집분석으로 고객 군집화

(4) 군집별 서비스 메시지 제안

 

3. 제공 데이터

(1) loan_result : 대출 결과 데이터 (신청서 번호, 금융사 번호, 상품 번호, 승인 한도, 승인 금리 ....)

(2) user_spec : 유저 정보 데이터 (신청서 번호, 유저 번호, 생년, 성별, 신용점수, 수입 ....)

(3) log_data : 유저 로그 데이터 (유저 번호, 행동명, 행동일시, 일자 ....)

외부 데이터 활용 : 한국은행 표준금리

- 이상치 제거 및 Standard  Scaler를 활용한 스케일링

- target 값(대출 여부)이 1보다 0이 많은 데이터이기에 Oversampling을 활용(Smote 기법)

 

4. 활용

(1) 대출여부 예측 모델 구축

Ensemble 결과 F1 score : 0.3181

(2) 예측한 결과를 활용한 군집분석 ( 3가지 군집으로 나누어 분석 )

 

5. 느낀점

여름방학이 끝나고 2학기의 시작을 알리는 공모전이었습니다. 중간고사가 시작하기 전에 공모전 하나에만 집중해서 끝내보자는 마인드로 임했고, 코로나로 인해 처음으로 대면으로 학교를 다니며 진행했던 공모전인만큼 우여곡절이 많았던 것 같습니다. 처음 데이터를 받고나서 3가지 데이터를 어떤식으로 merge를 할 지에 대해 팀원들과 가장 많은 대화를 나눈 것 같습니다. 그만큼 전처리에 시간을 많이 투자했고 최선의 방법을 찾아 합쳐보았습니다.

 

가장 아쉬웠던 부분은 대출여부를 예측하는 모델링의 f1 score가 0.3대를 넘지 못했던 것이었습니다. Oversampling과 앙상블을 활용하여 결국 0.3을 넘는 결과를 만들기는 했으나 너무 낮은 수치라고 생각되어 이게 맞는 결과인지 팀 내에서 많은 이야기를 했던 것 같습니다. 기존값에 0이 많아서인지 모델의 성능을 올리기가 어려웠고 이에 모델링을 전처리 다음으로 시간을 많이 투자했던 것 같습니다 (제출하고나서 주위에 같은 공모전을 나갔던 팀에게 물어보니 비슷한 모델링 성능을 보였습니다.... 원래 이런 Task였던 것인지..). 

 

군집분석은 최근 나갔던 공모전에 계속 활용을 하였지만 좋은 결과를 받지 못했기에 이번에 사용하고 싶지 않았지만, 주제가 군집화를 장려하고 있기에 활용하였습니다. 지금 생각해보면 군집화를 했기 때문에 이를 뒷받침할 만한 더 구체적인 근거를 댔으면 좋았겠다는 생각이 들고, 이를 위한 통계 기반의 공부의 필요성을 다시 느낄 수 있었습니다. 확실히 경영, 마케팅, 통계, 데이터 분석 등 여러 과목이 융합되어야 더 많은 인사이트를 발견할 수 있을 것 같고, 전공분야가 아니기에 앞으로 필요한 부문의 독서를 통해 지식을 쌓으려 합니다. 체육대회, 축제 등 오랜만에 대면으로 학교를 다니며 바쁜 한 달을 보냈는데 학생회 활동과 함께 공모전에도 열심히 참여해준 팀원들 모두 수고하셨습니다!!

 

댓글