본문 바로가기
대외활동/공모전

[K-water] 2022년 대국민 물 빅데이터 공모전

by rahites 2022. 8. 8.

https://water.or.kr/infomation/publication/publicSubscriptionInfo.do?seq=1953&p_group_seq=1846&menu_mode=2 

 

K-water와 함께하는 물정보포털 Mywater(수자원,수도,지하수)

K-water와 함께하는 물정보포털 MyWater,수자원 물정보포털,수자원, 상하수도, 지하수, 물 정보, 한국수자원공사, 수돗물, 물상식 등 정보제공

www.water.or.kr

참가 신청서 : 2022.04.12 ~ 2022.04.21

결과 제출 : 2022.06.28 ~ 2022.07.14

함께한 팀원 : 고민성, 이수빈, 주민지

 

주제

성공적인 수돗물(아리수) 음용 확대를 위한 시범 지역 추천

 

 

방법

1. 아리수 시범 사업 지역 추천을 위해 현재 아리수 사업이 진행되고 있는 서울 25개 구를 사업 성공 지역과 실패 지역으로 구분

( 서울시 음용식수 통계 데이터를 이용, 수돗물을 마시는 비율이 높은 상위 20%를 성공지역으로 분류 -> 추후 1과 0으로 labeling )

( 데이터가 존재하는 2016년과 예측 기법으로 만든 2021년의 데이터를 모두 활용 )

 

2. 서울시를 비롯한 전국의 시군구별 수돗물 음용에 영향을 줄 수 있는 특징들을 분석

( 환경적 요인, 유동인구, 자동차, 주택, 가구 현황, 세대 수 등 크게 13종류의 data 활용 )

 

3. 위에서 고려한 특징들로  feature data를 만든 후 label값이 존재하는 서울지역의 데이터를 train, 서울 이외의 데이터를 test로 구분하여 머신러닝 과정을 통해 서울 이외의 지역에서 어떤 지역이 서울에서 수돗물을 많이 음용하는 지역과 비슷한 특징을 가지고 있는지를 파악

( Logistic Regression, RandomForest, ExtraTree, XgBoost, KNN, MLP ,Kmeans 방법들을 이용하여 모델링 )

 

4. 총 7가지 모델을 이용해 test 데이터를 예측하여 가장 많은 모델이 추천한 지역을 최종 시범 사업 추천 지역으로 선정

 

활용

1. 공공데이터

2. 웹 크롤링

( BeautifulSoup 사용, 데이터마다 차이가 있는 지역명을 하나의 시군구 지역명으로 통일 )

 

3. 머신러닝 모델링 

( Logistic Regression, RandomForest, ExtraTree, XgBoost, KNN, MLP, Kmeans )

사용 모델
군집 선택 : Elbow method

4. Matplotlib 시각화 

시각화 예시

느낀점

1학기가 끝나고 방학의 시작을 알리는 공모전이었습니다. 참가 신청서를 작성했던 기간과 실제 대회 준비를 시작했던 기간의 차이가 있어 다시 시작하기가 어려웠는데 특히 팀원들 모두 바쁜 기말고사 기간을 마친 뒤라 더욱 힘들었던 것 같습니다.

 

이번 공모전은 아쉽지만 서류에서 탈락을 했습니다.  어떤 제출작이 선정되었는지나 감점 요인들을 알 수는 없지만, 분석했던 과정을 복기해보니 부족했던 점이 몇몇 보였습니다. 비지도학습인 Kmeans의 성능 검증을 보여주지 않았던 부분이나 분산 분석의 이유를 더 자세히 설명하지 못한점이 특히 아쉽게 느껴집니다. 물론 주제의 방향성이 가장 중요하지만요..

 

이번 공모전은 특히 주제 선정 과정에서 딥러닝 공부의 필요성을 더 느끼게 되었는데 그 이유는 단순 머신러닝 모델을 구축해 다른사람에게 보여줄 때나 분석을 함에 있어 한계가 존재한다고 느꼈기 때문입니다. 예를들어 '녹조의 심각성을 파악한다' 라는 아이디어가 있을 때 머신러닝은 수치적인 데이터의 분석으로 단순 시각화나 수치적인 데이터만을 보여줄 수 있지만 딥러닝 모델을 사용하면 시각적으로 색깔을 확인해가며 녹조의 심각성을 파악한다던가, 청각적으로 달라지는 소리의 차이점을 찾는다던가 등 좀 더 색다른 인사이트의 발견이 가능하고 제출물을 보는 사람으로 하여금 재미를 불러 일으킬 수 있을 것입니다. 

 

방학인 현재 딥러닝 관련 공부를 지속적으로 하고 있는데 얼른 자유자재로 모델을 활용할 수 있도록 지식을 쌓고 싶고, 마지막으로 이번 대회를 준비하느라 방학임에도 오랫동안 고생해준 우리 팀원분들께 감사를 보냅니다 :) 

 

댓글