by 정찬
안녕하세요 공공빅데이터 인턴십 포스팅을 맡은 Staff 정찬입니다.
오늘은 공공빅데이터 인턴십이 무엇인지, 무얼 하는지, 저는 어떤 프로젝트를 했고, 거기서 무얼 느꼈는지 이야기하면서 공공빅데이터 인턴십을 망설이는 분들에게 가이드를 제공하고자 합니다.
공공빅데이터 인턴십은 행정안전부와 지능정보사회연구원에서 주최하는 인턴십입니다.
만 19세부터 34세라면 누구나 신청할 수 있고
인성, 서류, 면접을 거쳐 선발됩니다.
이렇게 선발된 1020명의 인원은 전국 264개 기관의 인턴십에 참여하게 됩니다. 참여 기관은 크게 공공기관, 지방자치단체, 중앙부처로 나뉩니다. 제가 여기 적어둔 곳은 일부에 불과합니다. 또 매년 참여 기관이 조금씩 달라지니까 유의하세요!
공공기관 | 지방자치단체 | 중앙부처 |
---|---|---|
도로교통공단 | 시청 | 외교부 |
한국소비자원 | 군청 | 통계청 |
한국고용정보원 | 구청 | 고용노동부 |
한국교통연구원 | 보건복지부 | |
한국수력원자력 | 행정안전부 | |
한국무역보험공사 | 국민연금공단 |
그렇다면 인턴십에서는 무얼할까요? 일단 기본 소양을 위해 사전교육을 진행하고 7~8월 두 달 동안 전문교육을 받았습니다. 그리고 가을부터 겨울까지 약 4에서 6개월을 기관에서 인턴십을 진행합니다.
사전교육 | 전문교육 | 일경험 수련 | |
---|---|---|---|
기간 | 2주 | 2달 | 4~6달(기관별 상이) |
장소 | On-line | On/Off-line | 기관별 상이 |
학습 내용 | python,R,통계 기초 | 기획, 모델링, SQL, 크롤링, QGIS, 실무형 프로젝트 | 기관별 상이 |
사전교육에서는 코사다마 데이터사이언스 커리큘럼의 1주차 pandas 내용에 더해 간단한 통계와 R코드 기초를 배웁니다. 난이도가 낮고 활용도 또한 크지 않다고 느꼈습니다.
두번째 전문교육에서는 크게 교육과 실무형 프로젝트로 나누어 진행되었습니다.
교육 내부에서도 기획과 기술적 능력으로 나누어 학습했는데요. 코사다마 데이터사이언스 코스를 수료하신 분이라면 파이썬 관련 내용은어렵지 않게 소화하실 것 같습니다. R은 워낙 코드가 간단해서 어렵지 않았고, 지도 시각화 툴인 QGIS는 GUI로 구성되어서 직관적으로 시각화 및 분석을 할 수 있게 되었습니다. SQL은 Fall Rush에서 제가 기획한 커리큘럼으로 학습하신다면 내년에는 소화하기 편하실거예요!
그리고 저는 실무형 프로젝트가 가장 기억에 남는데요. 팀원 모두가 전공자가 아닌 상황이어서 난이도가 조금 있었지만 앞으로 프로젝트를 하는데 두고두고 생각날 것 같습니다. 프로젝트 내용은 추후 설명드리겠습니다.
마지막으로 다음주부터 일경험 수련, 즉 인턴십이 시작됩니다. 저의 경우 인천시청에 배정되어 이미지, 텍스트 분석, 모델 고도화 작업을 진행할 예정입니다.
간단하게 저희 팀에서 진행한 프로젝트를 설명드리겠습니다. 시각화 자료는 저 혼자 진행한 내용이 아니기 때문에 블로그에는 공개하지 못하는 점 양해 부탁드립니다.
대신 대회 참여 영상 링크 올려드립니다.
공공기관인만큼 프로젝트의 목적이 국민 삶의 질을 개선하는 정책 제안이었습니다. 저는 Project Manager를 맡아 프로젝트 전반을 책임졌습니다. 주제는 '학대피해아동 쉼터 최적 입지 선정'이었습니다.
먼저 학대 피해건수가 10년 사이 5배 증가한 내용을 누적 그래프로 시각화 했고, 설치 관련 예산이 부족하다는 점을 강조했습니다.
이후 학대 피해 대비 쉼터 개수가 턱없이 부족함을 보여주었습니다. 실제로 현재 쉼터는 73개소, 이용 가능 인원이 532명 밖에 되지 않습니다. 학대 피해건수는 3만건에 달하는데 말이죠.
거기에 양천구 아동학대 사건 이후 올해부터 즉각분리제도가 시행되었습니다. 즉각분리제도는 2회 신고시 즉각 분리할 수 있는 제도로 시행 이후 보호건수가 55% 증가해 추가 설치가 절실한 상황임을 어필했습니다.
그래서 아동친화도를 고려한 공공임대주택으로 예산까지 고려한 쉼터 최적입지를 선정했다는 스토리텔링을 진행했습니다.
이후에는 상관분석, 분산팽창지수, 모란인덱스 등을 통해 변수를 추출하고,
공간회귀분석을 통해 R스퀘어 값이 가장 높은 모델을 채택해 아동친화도 지수를 설정했습니다.
마지막으로 QGIS라는 지도시각화 프로그램을 사용해 실제 위치에 해당하는 최적지를 추출할 수 있었습니다.
마지막으로 결정권자를 설득할 수 있는 구체적 수치가 포함된 기대효과까지 제시하면서 발표를 마무리 했습니다.
프로젝트를 진행하면서 데이터 사이언티스트로서 느낀 점은
QGIS를 통해 지도 시각화를,
R을 통해 통계처리를 할 수 있었습니다.
첫번째 느낀점과도 이어지는데요.
정책을 제안하고, 설득하기 위해서 필요한 분석과 시각화면 충분하다는 생각이 들었습니다.
저는 오히려 이 점 덕분에 너무 기술에 치우치지 않은 주제를 선정할 수 있었고, 의미있는 프로젝트를 할 수 있었다고 생각합니다.
다음으로는 PM으로서 느낀점입니다.
이를 조율하는 부분이 조금 어려웠고,
저는 소수만 파이썬으로 분석을 하기보다 팀원들이 익숙하고 잘 다룰 수 있는 엑셀과 R을 적극 활용해 업무를 배분했던 것 같습니다. 또, 다들 잘 모르는 QGIS의 경우 관심 있는 분들이 숙달될 수 있도록 시간 배분을 추가로 했던 것 같습니다.
전체적인 프로젝트 진행 흐름을 익힐 수 있었습니다.
오랬만에 서울로 출근하다 보니 체력이 몇시쯤 고갈되는지, 어떻게 해야 오후를 알차게 보낼 수 있는지 연구할 수 있었습니다.
프로젝트 진행하는데 있어 코사다마에서 주로 사용했던 툴인
SLACK으로 업무와 생활을 분리했고,
notion을 통해 일정 관리와 회의록 작성을 효율적으로 할 수 있었습니다.
Google drive로 데이터를 일원화 한 것도 편리함을 더했습니다.
자 그래서 마지막 결론입니다. 제목이 '공공빅데이터 인턴십을 망설이는 사람들에게' 잖아요? 저는 아래와 같은 기준을 추천하려고 합니다.
만약 내가
라면 한번쯤 해볼만 하다고 생각합니다.
반면
예를 들어 AI나 딥러닝에 관심 있으신 분들에게는 추천드리지 않습니다.
이미 있는 데이터를 통해 새로운 분석과 정책을 만드는게 목표인 프로그램이다 보니 직접적 도움이 되지는 않을 것 같네요.
인턴십에 대한 제 기억은 여기까지 입니다.
선발 과정이나 기관 선택은 너무 세부적인 내용이 많아서 제외했어요.
혹시 궁금하신 분들은 jung666597@cosadama.co.kr로 문의주시면 좋을 것 같습니다.
지금까지 Staff 정찬이었습니다. 감사합니다.