본문 바로가기
대외활동/공모전

[DACON] SW중심대학 공동 AI 경진대회 <예선>

by rahites 2022. 9. 17.

https://dacon.io/competitions/official/235902/overview/description

 

SW중심대학 공동 AI 경진대회 ❮예선❯ - DACON

분석시각화 대회 코드 공유 게시물은 내용 확인 후 좋아요(투표) 가능합니다.

dacon.io

(2022.08.01. ~ 2022.08.26)

 

 

심리학 테스트 데이터를 분석하여 심리 성향을 예측하는 알고리즘 개발

 

최종 결과 : Public 5위(0.90684), Private 7위(0.90276) -> 실격 ( Data Leakage )

https://dacon.io/competitions/official/235902/codeshare/6212?page=1&dtype=recent 

 

[쿠민의힘] Private 7위, 점수 : 0.90276, ExtraTrees + LGBM

SW중심대학 공동 AI 경진대회 ❮예선❯

dacon.io

주로 작업한 파트 : 모델링, 앙상블

핵심 모델 : ExtraTrees, LGBM

파라미터 튜닝 : 베이지안 최적화

평가 지표 : AUC

함께한 팀원 : 고민성, 이수빈, 이승학, 주민지

 

느낀점

제주도 공모전을 마치고 온 뒤 대학 사람들과 함께 DACON에서 주최하는 'SW중심대학 공동 AI경진대회'에 참여하였습니다. 대학 대전이라는 컨셉에 흥미가 있었고 예선때는 정형 데이터, 본선에는 OCR데이터를 다루어 여러 방면의 데이터를 다뤄볼 수 있는 좋은 기회라고 생각하였습니다. 물론 제주도 공모전에서 수상하지 못하고 심적으로 많이 힘든 시기였지만, 아무런 수확없이 여름방학을 마무리할 수 없다는 의지로 팀원들과 함께 힘을 합쳐 도전해보았습니다. 사실 예선 대회는 학교별 상위 5팀만 뽑기 때문에 탑 티어에 들 필요는 없었지만 분석을 하다보니 더 높은 점수를 얻을 수 있을 것 같아 기왕 시작한 대회 상위 팀에 이름을 올려보자는 목표로 열심히 노력하였습니다.

 

Public 5위, Private 7위로 상위 4% 안에 들 수 있어 리더보드 결과 자체는 나쁘지 않았습니다.  하지만 코드를 제출한 뒤 Data Leakage라는 문제를 발견하게 되었습니다. 마지막 코드 검토를 안한 것은 아니었습니다. 그저 Data Leakage 규정을 자세히 확인해보지 않아 자세하게 검토를 하지 못한 것이 문제였습니다. 문제가 되는 코드는 단 2줄로 Test Data의 결측치를 채울 때 Test Data의 통계값을 이용한 부분이었습니다. 사실 지금까지 머신러닝 공부를 하며 Test Data의 결측치를 이런식으로 채우는 데 있어 Data Leakage라는 경각심을 가지지 못했던 것 같습니다. 그래서 이번 최종 검토를 할 때도 이를 바로 체크해내지 못했고 그 결과 실격으로까지 이어진 것 같습니다. 

 

많은 생각이 드는 대회였습니다. 예선이기 때문에 사실 그렇게 힘을 쏟지 않아도 됐었는데 열심히 하려다 실격을 당했다는 점, Data Leakage 규정을 제대로 숙지하지 못했다는 점, 본선의 OCR 데이터를 다뤄보지 못했다는 점 등 대회가 끝나도 여러 아쉬운 점들이 자꾸 생각나 마음을 힘들게합니다. 그래도 이 또한 다 저의 실력인 것.. 얼른 아쉬움을 떨쳐버리고 새로운 곳으로 나아가고자 합니다. 이번 대회로 Data Leakage에 대한 규정을 뼈저리게 느꼈고다시는 이런 실수를 반복하지 않도록 철저하게 검토를 진행할 것입니다. 여름방학의 마지막을 함께해준 팀원분들께 다시한번 감사함을 표합니다. (ノ◕ヮ◕)ノ

 

댓글