ASAC 5기에서 진행했던 머신러닝 팀 프로젝트를 디벨롭한 결과에 대해서 업데이트를 하고자 합니다.
서론
저는 본 프로젝트를 학술지로 작성하여 2024 한국컴퓨터정보학회 하계 학술대회에 제출하였고, 심사를 완료받은 뒤 지난 7월 12일 학술대회에서 구두 발표를 마쳤습니다. 최종적으로 본 학술지는 우수논문상을 수상하게 되었습니다. 본 프로젝트를 리드했던 팀장이자 학술지 제1저자, 발표자로서 무척 뿌듯합니다.
'성과로 말할 수 있어야 한다'는 원칙의 중요성을 실감하고 있는 요즘입니다. 과정도 중요하지만, 결국 나를 가장 잘 어필할 수 있는 것은 탁월한 성과입니다. ASAC 5기에서 모두가 같은 시간동안 'ML 프로젝트'라는 같은 과제를 준비했고, 같은 날에 발표를 마쳤습니다. 그러나 그 중에 발표 이후 반성과 회고를 통해 프로젝트를 보완하고 더 나은 방향으로 디벨롭하여 학술지로 작성/발표한 뒤 우수논문상까지 이끌어낸 사람은 제가 유일합니다. 저는 본 프로젝트 경험을 통해같은 시간과 과제가 주어졌을 때몰입과 주인의식, 기술에 대한 깊은 이해와 응용력을 토대로 남들보다 더 탁월한 성과를 도출해낼 수 있다는 자신감을 얻었습니다.제가 과연 어디에 첫 취직을 하게 될지는 모르겠지만, 나의 이런 열정과 노력을 관통하고 알아보는 사람이 이 세상에 누군가 한 명은 있을 것이라고 생각합니다 :-)
프로젝트의 주제는 다음과 같습니다.
유튜브 쇼츠의 조회수 예측 - 뷰티 광고 콘텐츠를 중심으로
차별화
본 프로젝트는 4가지 키워드로 차별화를 확보했습니다. 첫째는 쇼츠, 둘째는 뷰티, 셋째는 광고(마케팅), 넷째는 국내입니다.
"유튜브 영상의 조회수 예측"은 아주 예전부터 꾸준한 연구가 이루어진 바 있는 스테디하고 좀 뻔한 주제입니다. 그러나 조사를 통해 이러한 연구들이 비교적 옛날(2010년대)에 주로 이루어졌으며, 따라서 2021년 7월 출시된 쇼츠의 조회수를 예측하는 모델이나 연구는 상대적으로 부족하다는 사실을 발견할 수 있습니다. 또한 쇼츠 중에서도 특히 '뷰티 광고' 콘텐츠를 타겟팅한 연구는 전무했습니다.
그래서 프로젝트를 이끌고 완성하기까지 많은 고난과 역경이 있었지만, 내가 전에 없던 새로운 연구를 수행해 낸다는 자체로 큰 동기부여가 되어 무탈히 성과를 도출해 낼 수 있었습니다.
성능 고도화
제가 프로젝트에서 가장 많은 시간을 할애한 파트는 예측 모델의 성능 고도화였습니다.
먼저 선행 연구를 조사한 결과 유튜브 영상의 조회수 예측 회귀 모델의 경우 최고 성능을 가진 모델의 평가 지표가 MSE 3.5 ~ 5.5 사이를 웃도는 것을 확인할 수 있었습니다. 그러나 제가 첫 baseline 모델링을 수행했을 때 별다른 하이퍼파라미터 튜닝을 거치지 않은 상태에서도 모델의 예측 성능이 MSE 2.0-3.0 사이를 기록하였고, 보팅이나 하이퍼파라미터 최적화, 피처엔지니어링 등을 거친 끝에 모델의 예측 성능을 MSE 1.36까지 극대화할 수 있었습니다.
우리의 연구 모델은 왜 이렇게 성능이 좋았을까? 돌아보면 두가지 이유를 생각해볼 수 있었습니다.
첫째, 저는 국내/쇼츠/뷰티/광고 라는 4가지 키워드로 한정하여 데이터를 수집하였습니다. 이 과정에서 신뢰할 수 있는 YouTube Data API를 사용하였고, 수집 이후에는 일일히 하나씩 검토하며 garbage data가 없는지 필터링하는 과정을 거쳤습니다. 따라서 저는 제가 수집한 2,184개의 데이터가 '목적에 부합하는 진실된 데이터'라고 자신할 수 있습니다. 이렇게 비슷한 주제와 카테고리의 데이터만을 제대로 필터링하게 되면서데이터 사이의 유사성이 잘 확보되었을 것이고, 따라서 예측 모델의 성능도 좋아졌을 것입니다.
둘째, 피처엔지니어링을 통해 중요도나 기여도가 낮은 변수를 삭제 처리하여 최종적으로 18개의 변수만 남긴 했지만, 처음에 수집한 row data 변수는 30개가 넘었습니다. 저는 모든 변수를 일일히 하나씩 뜯어보면서 시각화하고 꼼꼼하게 분석하여 회귀 모델에 적합하도록 전처리과정을 거쳤습니다. 이상치 하나도 허투루 보지 않았고, 모델링 중간 중간 성능의 변화를 살피며 변수마다 다양한 방법으로 표준화와 정규화를 진행하였습니다. 이 과정에서 다양한 통계 지식을 활용하였고, 확률과 통계 공부를 열심히 해 둔 보람을 느꼈습니다.
그러나 아무리 데이터를 신경써서 수집하고, 하이퍼파라미터 최적화를 하고, 피처 엔지니어링에 혼을 쏟아 부어도, 모델 성능이 결국엔 나아지지 않는 (슬픈) 경우를 저도 수없이 겪어보았기 때문에- 위와 같이 노력을 통해 빛을 발할 수 있는 기회가 주어진 것에 대해 무척 감사하고 있습니다.
학술지 작성
저는 프로젝트의 팀장으로서 책임감을 가지고 학술지 제1저자 역할을 맡아 처음부터 끝까지 학술지를 직접 작성했습니다. 쉬운 작업은 아니었지만, 원래부터 글을 읽고 쓰는 것을 좋아해서 한켠으로는 이런 고된 과정을 즐기기도 하였던 것 같습니다.
2024 한국컴퓨터정보학회 하계 학술대회에서는 투고 받는 학술지를 2쪽 또는 4쪽 분량으로 제한하고 있었습니다. 데이터 수집/추출부터 전처리, 시각화, 분석, 모델링, 피처엔지니어링 등 모든 과정에서 정말 많은 노력을 기울였고 할 말이 많았지만, 최종적으로 학술지를 2쪽으로 압축하여 작성하기로 결정했습니다. 본 프로젝트는 학문적 의의가 다분하고 선행 연구에 비해 우수한 성능을 확보했다는 점에서 가치가 충분합니다. 하지만, 생성형 AI 시대인 2024년을 사는 지금 "조회수 예측 회귀 모델"이라는 주제 자체는 매우 가벼울 수밖에 없습니다.비록 주제는 가벼울지언정 그 과정에서 많은 것을 배웠다는 점에서 매우 자랑스럽기도 합니다. 어쨌든 저는 명확한 자기객관화를 통해 2쪽의 짧은 학술지에 함축적으로 필요한 내용을 선별적으로 담기로 결정했습니다. 나중에 기회가 되면 4쪽 학술지를 작성할 수 있는 헤비한 주제를 다룰 날도 오겠죠.
학술지 작성 과정에는 ASAC 권강사님께서 정말 많은 도움을 주셨습니다. 학회가 어떤 식으로 운영되고 학술지를 어떻게 써야하는지 경험이 전무했던 제가 명확한 글을 쓸 수 있도록 혼을 담아서 코칭을 해주셨습니다. 이 과정에서 명확한 기술적 커뮤니케이션의 중요성을 뼈저리게 배웠습니다. 특히 제가 타겟으로 하는 데이터 사이언티스트나 AI 엔지니어 직무는 기술에 대한 이해와 활용력도 무척 중요하지만, 다양한 유관 부서와 협업을 필요로 하는 만큼 명확한 기술적 소통 능력 역시 매우 중요합니다. 이번 학술지 작성을 통해서 내가 한 일이나 내가 이루어낸 성과에 대해서 담백하게 글로 전달하고 설명할 수 있는 능력을 조금 더 키울 수 있었습니다.
권강사님 오늘도 감사합니다!
예측 결과
최종 선정한 모델을 통해서 예측한 결과는 포트폴리오에 포함되어 있으며, 유튜버 개인정보 보호를 위해 본 포스팅에는 공개하지 않기로 결정하였음을 양해 바랍니다. 본 프로젝트의 포트폴리오를 보고 싶으신 분들께서는 댓글 또는 niceonesuri@gmail.com 으로 소속과 목적을 말씀해 주시면 포트폴리오 링크를 전송해 드리도록 하겠습니다.
마무리
본 프로젝트를 통해 제가 얻은 가장 값진 자산은 '내 프로젝트'라는 주인의식을 가지고 누구보다 프로젝트에 몰입하여 탁월한 성과를 도출한 일련의 경험입니다. 뻔한 주제를 트랜디하게 각색하고 그 과정에서 이루어진 논문 조사와 트랜드 분석, 목적에 맞는 데이터 수집을 위해 새로운 API를 연구하여 정복했을 때의 짜릿함, 모델의 예측 성능을 조금이라도 더 끌어올리고자 무한히 반복했던 하이퍼파라미터 최적화, 인사이트 도출을 위해 수없이 뜯어본 변수들과 SHAP분석 플롯, 고작 2장짜리의 짧은 학술지를 고치고 고치고 고쳐서 최선의 결과물을 도출했던 집념까지-
이 모든것을 경험해볼 수 있게 해준 ASAC 5기의 시스템과 환경, 그리고 무한한 지원을 보내주신 권강사님께 무척 감사합니다. 이번 경험을 통해서 앞으로 더 어렵고 복잡한 주제의 프로젝트에 도전해보고 싶은 동력, 무엇이든 거뜬히 해낼 수 있다는 자신감을 얻었습니다.
6-9주차는 머신러닝 팀프로젝트와 발표가 있었던 주간이었습니다. 저희 조는 <유투브 뷰티 마케팅 영상의 반응율 예측>이라는 주제로 프로젝트를 진행했고, 발표 이후 디벨롭 과정을 거쳐 <유튜브 마케팅 영상의 조회수 예측 - 뷰티 쇼츠 영상을 중심으로>라는 새로운 주제로 다가오는 7월 학회 발표를 준비하고 있습니다. 지난 개인 EDA 프로젝트 발표 이후 작성한 회고와 마찬가지로 이번 팀 프로젝트 회고 역시 잘한 점과 개선할 점을 중점적으로 작성해 볼텐데요. 개인 프로젝트와 조금 다르게 이번 포스팅에서는 팀 프로젝트를 진행하면서 어떤 문제상황이 있었는지, 그리고 부족했던 점을 어떻게 개선했는지를 중점적으로 적어보도록 하겠습니다.
1. 문제의식
저희 조는 유투브 뷰티 광고 영상의 메타데이터를 수집해서 조회수, 좋아요 수, 댓글 수로 구성된 '반응률'이라는 마케팅 지표를 예측하는 프로젝트를 진행했는데요. 뷰티 업계와 광고주에게 어필할 수 있는 실용적인 프로젝트라는 믿음은 있었지만, 프로젝트에 기승전결이 있는지, 주제와 결론이 부합하는지에 대해서는 프로젝트를 진행하는 내내 의문이 들었어요. 그러다 보니 발표 자료를 구성하면서 급히 짜맞추고 끼워맞추는 부분이 다수 발생했고, 프로젝트의 완성도가 성에 차지 않았습니다. 그 이유를 돌아보니 다음과 같습니다. 첫째, 프로젝트를 진행하는 내내 세부 주제를 계속해서 조금씩 틀고 변경하게 되면서 전체적인 흐름과 구성에 일관성이 없었습니다. 저희 팀은 막연히 '유투브 광고에 관련된 무언갈 하자'라는 생각으로 데이터를 수집하고 들여다 보면서 발표 직전에야 '뷰티 광고 영상'을 타겟으로 하자는 결론을 내릴 수 있었는데요. 로우 데이터를 분석하며 프로젝트 아이디어를 얻는 것이 때로는 좋은 방법이 될 수는 있겠지만, 제한된 시간 안에 기승전결을 도출해야 했던 이번 과제에 있어서는 다소 효율적이지 못한 접근 방법이었다고 생각합니다. 둘째, 어떠한 프로젝트를 진행할 때에는 기존에 어떤 선행 연구가 이루어졌는지에 대한 데이터 분석이 필수적으로 이루어져야 하는데, 저희 조는 시간에 쫓기면서 이 점을 간과했습니다. 그러다 보니 유투브의 뷰티 마케팅 영상에 대한 연구사례가 있는지 없는지조차 알지 못했고, 선행 연구에 비교했을 때 우리 프로젝트에는 어떤 차별점이 있는지조차 파악할 수 없었습니다. 내 프로젝트가 가지는 강점과 의의에 대해 스스로 설득이 되지 않으니 프로젝트 막바지로 갈수록 '이게 맞나?'라는 생각이 들 수밖에 없었습니다. 셋째, 소통의 부족으로 유기적인 팀플레이가 다소 부족했고 역할 분담이 효율적으로 이루어지지 못했습니다. 저희 팀원 모두 열의가 가득했고 개별 능력치도 월등히 좋았던지라 이 점이 더욱 아쉬웠어요. 모두 적극적으로 프로젝트에 참여했고, 열린 마음으로 소통을 하려고 했지만, 저를 포함한 팀원 모두가 데이터 기반의 소통을 해본 경험이 부족했던 것이 원인이라고 생각하고 있습니다.
2. 개선방향
프로젝트를 진행하면서 겪은 시행착오를 통해 얻은 값진 교훈을 토대로, 저는 저의 팀 프로젝트 결과물을 다음과 같이 디벨롭하고 있습니다.
로우 데이터를 분석하면서 뷰티 카테고리의 영상 데이터 분포도가 운동, 패션, 테크, 반려동물, 등의 다른 카테고리와 다양한 차별점이 있는 점을 발견했는데요, 특히 타 카테고리와 달리 뷰티 카테고리의 광고 영상은 평균 2.5배 이상 쇼츠 영상의 비율이 많은 것을 확인할 수 있었습니다. 이를 통해 유튜브의 뷰티 광고 영상 중에서도 쇼츠 영상을 타겟팅하여 연구를 진행하면 의의가 있을 것이라고 생각했습니다.
유투브 영상의 조회수 예측에 관한 선행 연구, 숏폼 광고 영상에 관한 선행 연구, 유튜브 뷰티 카테고리 영상에 관한 선행 연구를 최대한 많이 조사했습니다. 그 결과, 유투브 영상의 조회수 예측에 관한 선행 연구는 활발히 이루어진 바 있으나 뷰티 광고 영상만을 타겟팅한 연구 사례는 존재하지 않으므로 우리 연구에 확실한 차별점이 있을 뿐더러 뷰티 광고 업계에 필요한 인사이트를 제공하는 선구자 역할을 할 수 있다는 근거를 확보했습니다.
기존 프로젝트에서는 마케팅 수치 중 하나인 반응률이라는 지표를 예측하는 것을 목표로 했습니다. 하지만 광고 업계에서 반응률이라는 지표가 하나의 통일된 공식으로 존재하지 않으며 업체마다 필요에 따라 수정해서 쓰는 관례가 있음을 확인했습니다. 게다가 '반응률'이라는 수치가 무엇을 의미하는지 비교할 수 있는 대상이나 선행 연구사례가 없어 해석이 난해한 점을 고려해 조회수 예측이라는 전통적인 모델을 구성하는 것으로 방향을 수정하기로 결정했습니다. 예측한 조회수는 누구나 직관적으로 받아들이고 해석하기 쉬운 장점이 있습니다.
기존 프로젝트에서는 영상의 조회수, 구독자수, 길이, 태그 빈도 등 메타데이터만을 수집하고 분석하여 모델을 구축했습니다. 그러다보니 영상 내부의 시청각 데이터에 관한 고려를 전혀 하지 못했을 뿐더러, 인플루언서로서 영향력을 가지는 유투버에 대한 피처 추출도 간과하게 되었습니다. 이번 프로젝트에서는 뷰티 업계에서 전문성을 가진 인플루언서로 판단될 만한 국내 뷰티 유투버 192명을 직접 선정하고, 이 유투버들의 광고 영상의 메타데이터와 함께 시청각 데이터를 수집하고 분석하여 모델을 구축했습니다.
기존 프로젝트는 발표자료를 잘 구성하여 취업을 위한 포트폴리오로 제작하는것을 목표로 삼았습니다. 그러나 1-4와 같은 일련의 데이터 기반의 의사결정을 통해 우리의 연구가 학술지로서 충분한 가치를 가진다는 합리적인 판단을 내리게 되었고, 새로 디벨롭하는 프로젝트는 학회에 발표하는 저널 형식으로 완성하기로 결정했습니다. 저희 팀은 6월 중순까지 프로젝트를 마무리하여 7월 학회에 발표하는 것을 목표로 하고 있습니다.
3. 마무리
이번 프로젝트에서'데이터 기반의 의사결정'을 통한 프로젝트 기획과 구성이 중요하다는 정말 값진 교훈을 얻었습니다. 우리는 협업을 하면서 끊임 없이 서로를 설득시키는 과정을 반복합니다. 때로는 그 설득이 내가 옳다일 수도 있고, 네가 틀렸다일 수도 있겠죠. 나를 이해하지 못하는 팀원을 설득하는 일, 이해가 되지 않는 팀원의 말을 계속해서 듣는 일은 생각보다도 더 어렵고 소모적입니다. 때로는 일을 시작하기도 전에 말을 하다가 진이 다 빠지기도 하고요.이럴 때 필요한 것이 바로 데이터입니다.번지르르한 말 천 마디보다 하나의 데이터가 더 큰 설득력을 가질 수 있습니다.우리는 데이터를 기반으로 의사소통을 하고, 의사결정을 내릴 수 있어야 한다는 걸, 이번 프로젝트를 통해 깨달았어요. 이렇게 얻은 깨달음을 토대로 더 나은 방향으로 팀 프로젝트를 디벨롭할 수 있어서 정말 감사하게 생각하고 있습니다. 제가 구상한 개선 방향을 믿고 따라와주는 멋진 팀원들에게 감사하다고 말하고 싶어요. 추가로 말씀드리자면, 지난 회고부터 틈틈이 언급했던 대로, 모든 KDT 교육과정이 대부분 비슷하겠지만, ASAC 빅데이터 분석과정은 특히 교육과정이 매우 타이트합니다. 그럼에도 불구하고 수업만 듣는다면 남는 게 없어요. 내가 무엇을 배우고 공부하는지 뭐라도 흔적을 남기고 아웃풋을 만들기 위해서는 수업 이상으로 틈틈이 꾸준히 노력해야 합니다. 더불어 본인에게 부족한 부분은 스스로 파악하고 자기주도적으로 보충해야 하고, 그와 동시에 포트폴리오도 구축해야 하며, 본인이 희망하는 필드에 걸맞는 자격을 갖추기 위한 추가 공부도 진행해야 합니다. 저는 그렇게 살고 있어요. 하루 24시간이 모자랄 만큼 바쁘지만, 그래도 누가 떠먹여주는 것보다 내가 스스로 개척해나가는 미래가 더욱 값지고 빛날 것이라는 일념으로 즐겁게 생활하고 있습니다.
주의 : 본 회고의 모든 내용은 글쓴이(수리링) 본인이 처음부터 끝까지 직접 작성했습니다. 본 회고를 참고하시거나 활용하실 분들께서는 반드시 사전에 댓글 또는 이메일로 목적을 설명하시고 글쓴이의 동의를 구하시기 바랍니다. (이메일 : niceonesuri@gmail.com)
[목차] 1. 기조 연설 회고 2. AWS 생성형 AI 체험 & 기업 부스 회고(kt ds) 3. 데이터분석 강의 회고 4. 깨알 보너스 (공짜 점심, 자격증존, etc)
2024년 5월 17일 (금) 서울 코엑스에서 열린 AWS Summit Seoul에 참여했습니다. 올해 써밋 서울은 16-17일 2일간 열렸는데요, 저는 현재 참여중인 SK플래닛 T아카데미 수업과 팀프로젝트 일정으로 인해 양일 모두 참석하긴 어려워 금요일 하루만 참석을 했습니다. AWS CCP 자격증을 취득한 이후로 아마존의 클라우드 서비스와 클라우드 엔지니어링에 아주 큰 흥미와 호기심을 가지고 있었던 저에게는 꿈만 같은 하루였는데요. 제가 참여한 2일차 AWS Summit Seoul에서 느낀 3가지 키워드를 말씀드리면 다음과 같습니다.
비용 절감, 지속 가능성, 생성형 AI
AWS의 다양한 서비스가 기업에 제공하는 비용 절감 효과, 지속 가능성에 대한 끝없는 도전과 추구, 마지막으로 다양한 생성형 AI 기술을 통한 성장과 혁신. 이 3가지 키워드가 계속해서 강조되었습니다. 본 포스팅에는 위 3가지 측면에 입각하여 2024 AWS Summit Seoul에서기억에 남았던 부분에 대한 요약과 함께 느낀점을 회고 형식으로 작성해 보도록 하겠습니다 :-)
1. 기조 연설
[1] The Frugal Architecture
AWS CTO Werner Vogels는 Frugal Architecture (절약형 아키텍처)의 중요성에 대해 강조하면서 클라우드 환경에서 비용 효율성이 얼마나 중요한지 이야기했습니다. 클라우드 환경은 기업의 하드웨어 제약을 제거하여 서비스의 개발과 배포 속도를 혁신하는데요, 이렇게 클라우드가 가져다 주는 비용 효율성과 지속 가능성을 기업들이 우선순위로 두고 핵심 제약사항으로 고려해야 한다고 힘주어 말했습니다. 그리고 이를 실현하기 위해 아키텍트로서 가져야 할 철학과 접근 방법에는 무엇이 있는지 제시했습니다. 직접 아래와 같이 간단하게 정리해 보았습니다.
비기능적 요구사항으로서의 비용: 보안 및 규정 준수와 마찬가지로 비용을 비기능적 요구사항으로 보고, 비즈니스 초기부터 이를 아키텍처에 반영해야 합니다.
비즈니스 비용에 맞는 시스템 설계: 시스템은 수익 창출 요인을 중심으로 설계되어야 하며, 규모의 경제를 통해 시간이 지남에 따라 비용을 줄일 수 있어야 합니다.
타협과 균형: 아키텍처는 비용, 탄력성, 성능 등의 요소 간의 타협을 통해 균형을 맞추는 것이 중요합니다.
측정과 관찰: 중요한 지표를 측정하고 회사 모든 구성원이 볼 수 있도록 하여, 측정을 통해 비용을 통제하고 최적화해야 합니다.
지속적인 최적화: 비용 최적화는 지속적인 질문과 분석을 통해 이루어져야 하며, 작은 최적화가 누적되어야 큰 개선 효과를 볼 수 있습니다.
끊임없는 도전: 자만하지 말고 끊임없이 변화하고 탐구해야 비용 효율적인 대안을 찾을 수 있습니다. "우리는 이렇게 해왔다"는 위험한 생각을 버리고 새로운 방법을 모색해야 합니다.
AWS CTO의 연설 이후 이어서 우리나라 스타트업 기업 '인프랩(Inflab)' 이동욱 CTO의 이야기를 들어볼 수 있었는데요, AWS 서비스를 어떤 식으로 사용하는지, 다양한 서비스 중에서 상황과 비용 최적화에 적절한 서비스를 어떻게 선택하는지, 사업을 키워 나가는 과정에서 비용이 차지하는 부담을 어떻게 줄이고자 어떤 고민을 하고 어떤 방법을 도입했는지 들어볼 수 있었습니다. 가장 많은 비용을 사용하는 리소스는 무엇인지 지속적으로 기록하고 회고하며 비용을 절감하고 문제를 개선해 나갔다는 이동욱 CTO의 말을 통해 역시 기록의 힘은 어디에서나 통하는구나, 나도 기록을 멈추지 말아야지 생각했어요. 또 일정 시간만 운영하는 서비스의 경우에는 서버리스 서비스가 적절하지만, 24시간 가동될 필요가 있는 서비스는 서버리스보다는 직접 서버를 운영하는 것이 효율적일 수 있다는 이야기가 특히 흥미로웠습니다. AWS의 서버리스 컴퓨팅을 사용하면 서버 프로비저닝, 확장 및 관리의 필요없이 애플리케이션과 서비스를 구축하고 실행할 수 있어 유용한데요. 저는 AWS CCP 자격증 준비를 하면서 AWS Lambda, Fargate, DynamoDB, Kinesis 등 다양한 서버리스 서비스들의 종류와 특징에 대해 파악했었는데, 언제 어떤 식으로 서버리스 서비스를 선택해야 기업에 큰 이득이 될까 항상 궁금했었거든요. 평소 궁금했던 내용에 대한 답변이 되어서 이동욱 CTO의 연설이 특히 귀에 쏙쏙 들어왔습니다. 실제로 기업에서 아마존 웹서비스의 서비스를 어떤 기준으로 선택하고 활용하는지 사례를 통해 들어볼 수 있어서 좋았습니다.
[2] platform engineering
카카오페이증권의 조지훈 실장이 플랫폼 엔지니어링에 대해 발표했습니다. 강의에 따르면 플랫폼 엔지니어링은 협력과 자동화를 통해 사용자 경험을 향상시키고 조직의 생산성을 높이는 데 중점을 둔다고 합니다. 또 사용자와 제품의 관점에서 플랫폼을 디자인하고 개발하여, 비즈니스 경쟁력을 강화하고 확장할 수 있는 다양한 방법을 고려합니다. 특히 클라우드 엔지니어들은 다양한 구성원들과 협업을 통해 플랫폼을 만들어가는 과정을 공유하고, 인프라와 프로세스를 개선하며, 고객의 경험에 집착하며 신뢰를 얻어가는 과정을 즐겨야 한다고 말했습니다. 저는 현재 데이터 사이언스를 공부하며 데이터 사이언티스트로서 성장을 도모하고 있습니다. 하지만 소프트웨어 엔지니어링에도 큰 관심과 뜻이 있어서 고려사이버대학교 소프트웨어공학과에 편입해 공부를 병행하고 있어요. Linux OS, 소프트웨어 공학, 데이터 엔지니어링 등 다양한 분야를 탐구하며 엔지니어로서의 역량도 함께 키우고자 열심히 노력하고 있는데, 조지훈 실장님의 연설을 듣고 나서 데이터에 특화된 클라우드 엔지니어로서도 꿈을 펼쳐보고 싶다는 큰 욕심이 생겼습니다. 특히 저는 문제를 발견하고 정의하고 해결하는 과정을 정말 정말 즐기기 때문에, 고객의 관점에서 문제를 해결할 수 있는 플랫폼 엔지니어, 클라우드 엔지니어로서도 잘 해낼 수 있겠다는 생각이 들었습니다. 계획한 대로 AWS Certified Data Engineer Associate 자격증도 6월에 취득하고, 계속해서 관련 역량을 키워야겠다고 한 번 더 다짐했어요. 소프트웨어는 정말 공부를 하면 할수록 어쩐지 더 멀어지고 깊어지는 망망대해 같다는 생각이 들기도 하지만, 그래서 더 매력적이고 중독적인 분야인 것 같습니다.
[3] generative AI
이어서 생성형AI에 대한 연설이 이어졌는데요. AWS Nitro System architecture, Bedrock, Q, Partyrock 등 AWS가 제공하는 다양한 생성형 AI 서비스가 기업에 가져다줄 혁신과 발전, 성장에 대한 큰 자신감을 엿볼 수 있었습니다. 특히 Amazon Bedrock 서비스가 제일 흥미롭더라구요. 검색 증강 생성(RAG)을 위해 Amazon Bedrock의 관리형 지식 기반을 사용하거나 Amazon Bedrock 에이전트를 통해 workflow를 자동화하여 복잡한 과제에 대해 수많은 LLM을 사용할 수 있다는 부분이 인상적이었습니다. CCP 자격증을 공부하면서 배운 바에 따르면 Amazon Bedrock은 서버리스 서비스거든요. 기업이 인프라나 서버를 관리할 필요가 없을 뿐더러, 이미 익숙한 AWS 서비스를 사용하여 생성형 AI 기능을 애플리케이션에 안전하게 통합하고 배포할 수 있는 장점이 있다니, 내가 기업의 수장이고 생성형 AI 기술을 도입하고자 한다면 Bedrock을 써보지 않을 이유가 없을 것 같았어요. 해당 기조연설을 통해 저는 Bedrock에 대해 더 공부할 수 있는 데이터분석 강의를 오후에 듣기로 결정했습니다! 궁금한 게 생기면 바로바로 배워야죠! 기조 연설을 다 듣고난 후, 저는 AWS의 다양한 생성형 AI 기술을 직접 체험해보기 위해 체험 존으로 바로 달려갔습니다.
2. 체험존
[1] AWS 생성형 AI 체험
2024 AWS Summit Seoul에서는 AWS의 다양한 생성형 AI를 직접 체험해볼 수 있었습니다.
이 밖에도 즐거운 체험존이 많았고 다양한 체험에 참여했는데, 사람이 정말정말 많아서 모든 것을 다 찍고 기록하기가 어려웠습니다. 체험존에서는 AWS의 혁신적인 서비스의 극히 일부분만 체험할 수 있었음에도 불구하고 정말 즐거웠습니다. 재밌게 체험에 참여하는 사람들의 웃음소리와 열정적인 분위기가 아직도 기억에 선명합니다. (나도 이런 혁신에 참여할 수 있는 인재가 되길 바라며...)
[2] 기업 부스 체험
기업 부스는 다양하게 체험했는데, 기억에 남았던 서비스 위주로 회고를 작성해 보겠습니다.
설명을 들었던 많은 기업의 서비스 중에서 가장 기억에 남는 1가지를 꼽으라면 kt ds의 AI:ON-U 서비스를 꼽고 싶습니다. AI:ON-U(이하 AI온유)는 코딩이나 소프트웨어 지식이 없는 업무 담당자가 쉽게 생성형AI를 도입할 수 있도록 돕는 서비스 였는데요, 특히 GUI 환경에서 손쉽게 고객상담 챗봇 서비스를 제작하고 배포할 수 있는 예시를 들어 설명을 해주셨던 것이 아주 인상깊었어요. 담당하셨던 직원분께서 설명을 이해가 쏙쏙 잘되게 기깔나게 해주셔서 더더욱 흥미로웠던 것 같습니다. 게다가, kt ds의 AI온유 설명을 들은 이후에 데이터분석 강의(AWS 벡터 데이터베이스 사용 모범사례)를 이어서 들었더니, AI온유의 전체적인 서비스가 어떻게 구성되었는지 더욱 이해가 되고 말았습니다! 내 머릿속에 구체화되는 벡터 데이터와 그 흐름...!!! 검색 증강 서비스(RAG)와 벡터 데이터 베이스....!! (오버 죄송합니다) 챗봇 서비스를 도입하고 싶지만 AI 서비스 개발을 위한 지식과 노하우가 부족하고 전문 인력이나 인프라 구비가 어려운 비즈니스 구성원들에게 AI온유가 시간과 비용을 절감해줄 수 있겠다는 생각이 들었습니다. 제가 생각했을 때 이번 2024 AWS Summit Seoul이 가장 강조하는 3가지 - 비용 절감, 지속 가능성, 생성형 AI - 이 모든 관점에서 고객의 문제점을 해결해줄 수 있는 멋진 서비스라고 생각했어요. 만약 제가 럭키비키하게 해당 기업에 취업하게 된다면 해당 서비스를 구축하는 데 필요한 데이터베이스 관리 및 보안에 참여해 보고 싶습니다. 또, 서비스에 사용하는 다양한 LLM 모델의 API를 관리하는 코드도 작성해 보고 싶어요.
[3] 데이터분석 강의
벡터 데이터베이스 사용 모범사례
해당 강의에서는 생성형 AI에서 벡터 데이터베이스를 어떻게 사용할 수 있는지 그 방법과 모범사례를 통한 전략을 설명했는데요, 다른 많은 강의 중에서 해당 강의를 선택한 이유는 위에서 언급한대로 기조연설을 들으면서 Amazon Bedrock에 관해 큰 흥미가 생겼기 때문이었어요. 머신 러닝 모델을 구성하기 위해서는 굉장히 방대한 양의 데이터 수집과 학습이 필요하고 또 이를 위해 막대한 컴퓨팅 파워와 시간이 필요한데, 이를 서버리스로 관리해주는 서비스가 바로 Amazon Bedrock이거든요. 베드락의 큰 장점 중에 하나가 바로 기존 AWS 환경에 구축해 두었던 RDS, Aurora 등의 데이터베이스를 인터페이스를 통해 활용할 수 있는 것이라고 해서, 이 과정에서 벡터 데이터가 어떻게 활용되는지 자세히 알아보고 싶었어요. 그럼 본격적으로 강의 내용을 한번 쌈빡하게 정리해 보도록 하겠습니다.
[1] 생성형 AI 개요 및 데이터베이스의 역할
생성형 AI는 파운데이션 모델을 기반으로 합니다. Amazon Bedrock은 파운데이션 모델을 사용하여 생성형 AI 어플리케이션을 구축하고 확장할 수 있도록 돕는 서비스입니다. 서버리스이기 때문에 인프라나 서버를 관리할 필요가 없고, API를 사용하여 간단하게 개발을 할 수 있어요. 특히 검색 증강 생성(RAG) 기술을 이용하여 회사의 데이터와 상호작용할 수 있도록 FM을 구성할 수 있다는 것이 엄청난 장점인데요. 우리가 가지고 있는 파운데이션 모델에 어떤 질문을 한다고 가정했을 때, 아직 학습하지 않은 내용을 질문한다면, 파운데이션 모델은 우리가 원하는 답을 찾이 못할 가능성이 있습니다. 이런 단점을 보완하기 위해 파운데이션 모델에 더해 우리가 기존에 가지고 있는 Knowledge Base를 이용해볼 수 있는데요. 만약 Knowledge Base 안에 내가 궁금해했던 데이터가 마침 있다면, 파운데이션 모델과 연동해서 사용해서 원하는 답을 얻을 수 있겠죠. 이게 바로 검색 증강 생성(RAG)의 힘입니다. 즉, 우리 모델을 파인튜닝하거나 추가 학습시키지 않고도 벡터 데이터를 활용해 더 나은 기능을 구현할 수 있게 되는 것이죠. 벡터 임베딩이 사용되는 방법은 다음과 같습니다. Knowledge Base에 pdf 파일이 하나 있다고 가정해 봅시다. 이 파일의 데이터를 여러개의 청크로 나누어 아마존 타이탄과 같은 임베딩 모델에 던져줍니다. 타이탄은 이것을 분석해서 데이터를 벡터화하고, 이 벡터화된 데이터를 빠르게 재사용하기위해 RDS, Aurora와 같은 (벡터베이스 저장이 가능한) 데이터베이스에 저장을 합니다. 이후 사용자가 관련 내용을 검색했을 때, 검색한 내용 역시 벡터화해서 우리의 데이터베이스에서 벡터 서치를 실행하고, 그 결과를 파운데이션 모델에게 벡터로 전달해주게 되면, 그 모델은 마지막으로 자연어 처리를 한 값을 사용자에게 응답하게 되는 것이죠.
[2] 벡터 저장소로서의 PostgreSQL & pgvector 전략
먼저 PostgreSQL은 무료로 사용할 수 있는 오픈 소스 데이터베이스입니다. PostgreSQL은 다양한 데이터 타입과 인덱스 방식을 지원하는데, 확장 기능을 통해 새로운 기능을 손쉽게 추가할 수 있는 뛰어난 확장성을 자랑합니다. pgVector는 PostgreSQL의 확장 기능을 활용하여 벡터 데이터 저장, 인덱싱, 검색 등을 수행합니다. pgVector는 토스트(TOAST)를 활용한 데이터 저장 최적화 전략인 Storage 전략을 취합니다. TOAST(The Oversized-Attribute Storage Technique)란 보통 기준값(평균 8KB)보다 큰 데이터를 저장하는 메커니즘을 의미하구요. 데이터를 저장하는 최소의 단위를 8KB라는 페이지로 구성하고, 여기에 로우 단위로 데이터가 들어가며, 그 로우의 컬럼이 2KB가 넘어가는 경우에 이것들을 페이지 안에 인라인으로 저장하지 않고 토스트 테이블에 별도로 저장하게 해주는 기능- 정도로 생각하면 됩니다. 토스트를 잘 관리하기 위해서는 테이블의 스토리지 타입을 plain(토스트 없음)으로 고정시키던지, postgress 파라미터 중에서 min_parallel_table_scan_size을 사용하여 더 많은 병렬을 유도하는 방법이 있습니다. 참고로 컬럼 스토리지 타입은 4가지 인데, 토스트가 없는 Plain, 기본값으로 토스트가 있고 임계값이 2KB인 Extended, 임계값 초과 시 toast 테이블에 데이터를 저장하는 External, 테이블에 인라인으로 압축하여 저장하는 Main까지 해서 4개입니다. pgVector의 경우 Plain과 External을 주로 사용합니다. Storage 전략에서 더 나아가서 pgVector는 유사성 검색을 위한 효율적인 인덱싱을 위한 HNSW 전략, 클라우스 알고리즘을 활용한 인덱싱 방법으로 IVFFlat 전략, 마지막으로 ANN 쿼리를 위한 pgVector 필터링 전략을 취하고 있습니다.
[3] pgVector 로드맵
pgVector에 이제 HNSW용 병렬 구축 생성 기능이 추가되었으므로, 기존보다 더 빠르게 인덱스를 구축할 수 있는 방법이 제공될 것이라고 합니다. 추가적으로 벡터에 스칼라 속성을 결합하여 향상된 인덱스 기반 필터링이 가능하도록 기술 개발에 힘쓰고 있으며, 디멘젼당 더 많은 데이터 유형이 지원되도록 개발이 이루어지고 있다고 합니다.
[4] 강의 회고
복잡한 개념을 명확하게 설명해 주신 점이 정말 좋았습니다. 비록 모든 내용을 100% 이해하고 기록하진 못했더라도, Amazon Bedrock의 혁신성과 pgVector의 발전 방향성에 대해서는 충분히 이해하고 납득할 수 있었습니다.특히 벡터 임베딩과 RAG(Retrieval-Augmented Generation)과 같은 기술이 추가적인 파인튜닝 없이도 AI 모델을 개선하는 방법에 대한 구체적인 논의가 저에게는 매우 유익했습니다. 또 벡터 데이터를 저장하고 관리하기 위한 PostgreSQL 및 그 확장 기능인 pgVector에 대한 모범 사례 역시 저에게 도움이 되었는데, 이 부분에서 너무 집중하느라 메모를 많이 하지 못해 회고에는 해당 부분을 비중 있게 다루지 못해 아쉽습니다. 본 강의를 통해 (정말 궁금했던) Amazon Bedrock이 대규모 데이터셋과 복잡한 계산을 서버리스로 관리하는 방법에 대해 직관적으로 이해할 수 있었습니다. 이 강의에서 얻은 지식과 방향성을 토대로 앞으로 생성형 AI 및 벡터 데이터베이스 분야를 더 깊이 탐구하고 싶다는 욕심이 생겼어요. 그래서 학생 신분으로는 과연 Amazon Bedrock의 실용적인 응용 프로그램을 어떻게 접하고 탐구해볼 수 있을지 한번 고민해보고자 합니다.
[4] 보너스 tmi
선착순으로 런치 쿠폰 준다그래서... 부끄럽지만 AWS밥은 무슨 맛일까 너무 궁금해서 아침 7시에 코엑스에 도착했어요 (ㅋㅋㅋㅋㅋ) 8시 땡치자마자 바로 등록하고 런치쿠폰 받았는데, 알고보니 10~11시까지도 계속 나눠주시더라는 슬픈 전설이 있습니다...
기조연설 전까지 별마당도서관에서 국문이력서랑 영문이력서 열심히 수정해서 코엑스 링코에서 프린트해서 갔는데, 아쉽게도 기업 부스에 이력서를 하나도 못 드리고 왔어요. 제가 용기가 없던 이유 반, 뭔가 그럴 분위기가 아니었던 이유 반을 변명삼아 봅니다. 경력자들이 명함 넣고 가는 통은 종종 있던데 거기에라도 꽂아넣을까 고민했지만 결국 못했습니다... 흑흑.
AWS 자격증 소지자가 사용할 수 있는 작은 라운지에 무료 간식과 인형뽑기가 있었어요. CCP 자격증을 당당하게 보여드리고 과자랑 음료수를 야무지게 챙겼습니다. 정말 뿌듯한 순간이었어요... 같이 동행한 친구가 라운지 밖에서 저를 기다리고 있어서 인형뽑기는 안했는데 다음에는 친구도 꼭 자격증을 따서 함께 인형뽑기 줄을 설 수 있었으면 좋겠습니다!
참여했던 기업 부스중에 제가 인턴으로 지원했다가 서류 탈락했던 곳이 있었어요. 학생임에도 불구하고 친절하게 서비스 설명을 해주시고 '****에서 미래에 뵙겠습니다!' 라고 말씀해주셔서 은근한 위로가 되었어요. 해당 기업의 공고가 다시 보이면 자기소개서에 이 얘기를 꼭 써야겠어요.
이것으로 길었던 2024 AWS Summit Seoul 회고를 마치겠습니다. 만약 처음부터 끝까지 모두 읽어주셨다면 당신은 대단하고 멋진 사람이예요. 감사합니다.
7주차 월요일, 드디어 개인 EDA 프로젝트 발표가 있었는데요. 주제 구상 - 데이터 수집, 분석, 시각화 - 인사이트 도출 - 관련 논문 분석 - 모델링 후 논문 검증 - 인사이트 도출 - 발표자료 구성 - 그리고 이 모든 작업을 몇 번이고 되돌아 반복하는 일련의 과정을 통해, 정말 많은 것을 배우고 성장할 수 있었던 기회였습니다.
이번 포스팅에서는 개인 EDA 프로젝트를 준비하면서 스스로 기특하고 자랑스러웠던 점, 그리고 스스로 확인한 나의 강점을 먼저 작성해 보겠습니다. 그리고 이어서 개선할 점을 이어서 적어보겠습니다.
칭찬할 점
첫째, 끊임 없이 피드백을 찾아 나섰습니다.
저희 ASAC 강사님께서는 이번 개인 EDA 발표를 준비하는 25명의 동기들을 모두 혼자서 멘토링하시느라 정말 바쁘셨는데요. 다르게 말씀드리면, 이번 프로젝트에서 강사님 1분을 제외하고는 조언을 구할 다른 멘토가 단 한 분도 계시지 않았습니다. 강사님께서는 몸이 열 개라도 모자라 보이셨고 야근을 자주 하셨어요. 그렇게 원하는 만큼 피드백을 얻기 어려웠던 (나름 열악했던) 상황 속에서, 저는 계속해서 현직자들과 네트워킹을 시도하며 프로젝트에 대한 가이드를 스스로 찾아 나섰습니다. 주로 일일 세미나를 오셨던 강사분들께 부탁을 드렸는데요. 쉬는 시간에 냅다 노트북을 가지고 가서 프로젝트를 보여드리고 조언을 구했습니다. 아니면 이메일이나 링크드인으로 자기 소개를 보내고 강의에 대해 느낀점을 말씀드린 뒤 정중하게 피드백 부탁을 드렸습니다.
쉬운 일은 아니었습니다. 바쁘신 분들께 초면에 그런 부탁을 드린다는 게 생각보다 많은 용기가 필요했어요. 제가 부족한 만큼 정성스럽고 따뜻한 피드백보다는 타격감 있는 직설적인 피드백들을 주로 받게 되었고, 그래서 자존심도 속도 많이 상하기도 했는데요. 그래도 정말 감사한 마음으로 모두 수용했고, 피드백을 찾아 나서는 일을 절대 멈추지 않았습니다. 나 혼자였다면 몰랐거나 흐린눈 하며 내버려 뒀을 어설프고 엉성한 부분들을 열심히 뜯어고치고 보완하면서 프로젝트의 완성도를 올릴 수 있었습니다.
문제상황을 적극적으로 해결하고자 전문가에게 도움을 청할 용기를 낸 나 자신을 정말 칭찬하고 싶습니다. 이번 프로젝트를 통해네트워킹의 중요성을 다시한 번 확인했습니다. 사람들이 왜 협업을 통해 일을 진행하는지 알 수 있었던 좋은 기회였어요. 앞으로도 이렇게 스스로 배움을 찾아 나서는 적극적인 자세를 통해 더 많이 성장하고 발전하는 제가 되겠다고 다짐했어요.
둘째, 어려운 과제 속에서 포기하거나 타협하지 않았습니다. 원하는 목표를 달성할 수 있었던 가장 큰 이유였습니다.
저는 25명의 동기들 중에서 이번 개인 EDA 프로젝트에 유일하게 AI 모델링 작업을 포함하여 발표했습니다. 아직 머신러닝 수업을 듣기 전이었지만, 제가 데이터 사이언스와 엔지니어링을 통한 문제해결에 큰 뜻과 욕심이 있다는 걸 아시는 강사님께서 제가 원하는 방향으로 프로젝트를 수립하도록 적극적으로 도와주셨기 때문에 가능한 일이였습니다. 또, CNN을 통한 Image Classification이 프로젝트의 메인 소재였는데, 평소 열심히 Neural Network의 원리를 탐구하고 Tensorflow Keras나 PyTorch와 같은 프레임워크들을 적극적으로 연습하고 실습한 덕분에 원하는 대로 프로젝트를 준비할 수 있었습니다.
딥러닝 과정에서 원하는 목표 성능이 확보 될 때 까지 여러 방법으로 모델을 수정하고 학습시키고 평가하는 일을 수없이 반복했습니다. 마음처럼 일이 풀리지 않아 마음이 흔들릴 때마다 매번 잘 다잡으려고 노력했어요. 그렇게 복잡하지 않고 간단할 거라고 생각했던 것도 예상대로 진행되지 않는 것을 보면서 실무에서는 더 어려운 일이 많이 일어나겠구나 싶었습니다. 여하간, 힘들고 답답할 때마다 타협하지 않고 목표한 일들을 무사히 수행해낸 나의 집념에 박수를 보내고 싶습니다.
앞으로 더 열심히 공부하고 지식 수준을 높여서 더 어렵고 복잡한 모델도 학습시켜 보고 싶습니다. 인공지능은 정말 너무 어려운데, 어려운 만큼 또 너무 재밌어요. 현재 ASAC 과정에서 머신 러닝 모델링 방법들을 여러 가지 배우기 시작했는데요. 평소 몰두했던 인공신경망(Neural Network) 뿐만 아니라 다른 모델링 학습 법도 이렇게 다양했다니 매일이 놀라움의 연속이더라고요. 즐겁게 배우고 있어요. 언제나 새로운 것들을 proactive한 자세로 배우고 탐구하는 제가 되도록 하겠습니다.
개선할 점
데이터 분석의 전문성을 높이기 위해서는 통계학적 지식을 보완할 필요가 있음을 깨달았습니다.
이번 프로젝트는 주제의 특성상 저의 도메인 지식을 적극 활용할 수 있었던 덕분에 통계학적 접근이 크게 필요하지 않았다고 생각했는데요. 그럼에도 불구하고 통계학적으로 분석한 근거가 함께 수반되었다면 더 논리적인 프로젝트 진행이 가능했겠다는 아쉬움이 남습니다.
저는 지금 고려사이버대학교 소프트웨어공학과 학생으로 이번 3학년 1학기에 확률과 통계 수업을 듣고 있는데요, 수업 내용을 다시 한 번 정리하고 복습해서 다음 프로젝트에 꼭 적용해 보기로 했습니다. 또, 이번 여름 계절 학기에도 통계 관련 수업을 선택해서 연속적으로 수업을 듣기로 했습니다. 앞으로 통계학적 지식을 보충해서 나자신뿐만 아니라 다른 사람들 역시 데이터 기반의 의사결정을 내릴 수 있도록 돕는 데이터 전문가가 될 수 있도록 노력하겠습니다.
이것으로 첫 번째 프로젝트(개인 EDA) 에 대한 회고 작성을 마치도록 하겠습니다. 개인 프로젝트 깃허브 링크가 궁금하시다면 댓글을 달아주시거나 niceonesuri@gmail.com으로 연락주세요. 감사합니다.
2024년 5월 4일 (토)AWS CCP (Certified Cloud Practitioner) 자격증 시험에 응시해서 한 번에 합격했습니다 :-)
준비 이유, 공부 과정, 합격 후기 3가지 테마로 나누어 회고를 작성해 보고자 합니다.
1. 응시한 이유
현업에서 클라우드 기반의 업무를 하는 곳이 많다는 것을 알게 된 이후로 줄곧 클라우드에 대한 호기심을 가지고 있었습니다. 하지만 학교에서 일하던 저에게는 클라우드에 대한 기초지식도 경험도 전무했습니다. 갈수록 클라우드가 뭔지 점점 더 궁금했습니다. 그래서 배우기로 했습니다. 궁금한 게 있으면 배워버리면 그만 아니겠습니까?
가장 배우고 싶었던 건 아마존 웹서비스(AWS)였는데요. 아마존 웹서비스의 클라우드 환경에 대해 전반적인 지식을 습득하고, 어떤 기능과 서비스가 있는지 파악하고 싶었습니다. 그리고 CCP 자격증이 그러한 저의 목적에 가장 부합한다는 것을 알게 되었습니다.
1. Udemy 강의를 들으며 AWS 구조, 서비스, 기능 등에 대한 이해와 Hands-On 실습
제가 들은 강의는 <[NEW] Ultimate AWS Certified Cloud Practitioner CLF-C02> 입니다. 처음엔 '15시간이면 짧네'라고 생각하고 듣기 시작했는데요. 실제로 체감되는 강의 시간은 그보다 훨씬 길었습니다. 특히 저는 모든 실습을 따라했고 따로 정리까지 해가며 들어서 진도가 더 더뎠는데요. 강의를 다 듣는 데 꼬박 3주가 걸렸습니다. 다른 일이나 공부를 병행하지 않았다면 2주면 충분했을 것 같습니다.
말씀드린 대로 저는 자격증 취득 뿐만 아니라 정말 AWS에 대해 제대로 알고 싶었기 때문에 강의를 들었고, 대체적으로 만족합니다. 프랑스 액센트라던지 강사의 쩝쩝대는 소리 등이 썩 유쾌하지는 않았기 때문에 이 강사의 다른 강의를 또 듣진 않을 것 같습니다. 그래도 강의 구성이나 내용 면에서는 무척 만족하고 있어요. 강의를 완강한 이후로 내가 AWS에 어떤 서비스가 있고, 언제 어떤 서비스를 이용할 수 있을지 파악하고 있다는 자신감이 생겼습니다.
다만 강의가 영어로 진행되므로 영어에 대한 거부감이 있으시면 해당 강의를 비추드립니다. 또 저처럼 AWS 서비스에 대한 이해가 목적이 아닌 빠르게 자격증 취득만 목표로 하고 계신 분, 어느정도 기초 지식이 있으신 분들께서도 굳이 강의를 들으실 필요는 없을 듯합니다. 무엇보다 배울 의지가 없는 분들께서는 해당 강의를 절대 끝까지 완강하지 못하실 것이라고 생각합니다.
(*) 강의는 할인 가격으로 17,000원에 구매했습니다.
2. AWS Skill Builder 웹사이트의 AWS Cloud Practitioner Essentials Course를 반복 학습하며 서비스별 특징과 기능에 대한 이해 강화
스킬 빌더 웹사이트의 에센셜 코스는 CCP 준비하는 사람이라면 반드시 봐야 하는 필수 코스라고 생각합니다. 정말 추천합니다. AWS에서 준비한 만큼 설명이 아주 깔끔하고 친절하게 잘 돼있습니다.
"설명을 읽고 복습 -> 서비스별 중요 포인트 기능과 컨셉 암기 -> 확인 문제 풀면서 복습 -> 마지막 모의고사 풀면서 복습" 하는 과정을 3회독 반복하고 났더니, 시험을 통과할 수 있겠다는 자신감이 더욱 up up 되었습니다. 따로 유데미나 강의를 안 들으시는 분들께서는 반드시 에센셜 코스의 모든 내용을 숙지하고 암기하시면서 시험을 준비하시기 바랍니다.
아, 저는 영어로 봤는데요. 한국어 번역도 매끄럽게 잘 돼있는지는 모르겠습니다만, 영어 문장도 어렵지 않게 되어 있으니 한번 영어로 공부하는 것도 도전해 보시길 바랍니다.
3. Udemy 모의고사를 2회독하면서 이해가 부족한 점을 찾아서 보완
마지막으로 부족한 부분은 Udemy 모의고사<6 Practice Exams | AWS Certified Cloud Practitioner CLF-C02>를 여러 번 풀면서 보완했습니다. 1회독 할 때는 문제를 풀면서 모르는 개념을 찾아서 외워가면서 풀었구요, 오답노트를 따로 정리했습니다. 2회독 할 때는 실전 느낌으로 풀었습니다.좀 지저분한 문제들도 많긴 하지만 그래도 대체적으로 실전이랑 비슷한 느낌이라고 생각합니다. 1회독 할 땐 너무 어려운거 아냐? 싶었는데 2회독 하니까 적정 난이도로 느껴지더라고요. 유데미 모의고사를 70% 이상으로 패스할 수 있는 수준이라면 실제 시험도 무리 없이 합격하실 수 있을 거예요.
(*) 할인 가격으로 17,000원에 구매했습니다.
3. 합격 후기
시험이 끝나자마자 바로 합격/불합격 결과를 확인할 수 있어서 속이 무척 시원했습니다. 시험 당일 밤에 축하 합격 메일이 왔고, 성적표와 자격증 pdf를 다운받을 수 있었습니다. 이렇게 포트폴리오에 한 줄 더 추가할 수 있게 된 점이 무척 기쁘지만, 무엇보다도 클라우드 경험이 없었던 저에게 AWS라는 방대한 플랫폼을 이해하고 수많은 서비스를 파악할 수 있는 능력이 생겼다는 것이 정말 뿌듯합니다.
공부하면서 가장 궁금하고 써보고싶었던 서비스들을 몇 개 정리해 보면 다음과 같은데요.
Rekognition
Quicksight
DynamoDB
EMR
CloudTrail
Lambda, Eventbridge
위 서비스들을 맘껏 사용하고 다룰 수 있는 곳에 취직하면 얼마나 행복할까... 그런 생각을 해 봅니다. (ㅎㅎ)
마지막으로, 저는 이어서 AWS Certified Data Engineer - Associate 자격증을 준비하려고 합니다. 5월 말, 6월 초 취득을 목표로 하고 있습니다. 끊임없이 배우고 발전하는 스스로가 되겠다고 오늘도 다짐하며, 자격증 시험 합격 회고 작성을 마무리 하겠습니다.
지난 5주차에는 셀레니움을 이용해서 웹크롤링 하는 방법, 태블로 프로그램을 이용해 데이터 시각화하는 방법, pandas를 이용해서 데이터 정제 하는 방법을 다루었습니다. 셀레니움과 태블로를 저는 처음 사용해 봤기 때문에 해당 수업을 특히 집중해서 들었고 정말 재밌게 실습에 참여했습니다. 수업이 끝나고 따로 원하는 사이트를 정해서 혼자서 셀레니움 복습도 해 보고, 공공데이터를 받아 태블로 시각화도 복습해 보면서 감을 조금씩 익혔습니다. 네이버 쇼핑 데이터를 크롤링하다 차단을 당하는 웃지 못할 해프닝도 있었습니다. 다양한 방법을 동원해 봤는데 결국 안 풀리더라고요(^^;;;) 개인 프로젝트 주제로 네이버 쇼핑 데이터가 필요했었다면 큰 낭패를 보았을 뻔했습니다. 휴!
지난 주부터 드디어 본격적인 개인 EDA 프로젝트 준비에 돌입했습니다. 많은 동기들이 주제를 오래 고민했지만 저는 그중에서도 특히 갈피를 잡지 못해 많이 헤맸던 것 같습니다. 다른 사람들은 어떻게 주제를 선정하나 살펴보니, 먼저 본인이 취업하고 싶은 분야를 정하고, 그 분야에 어필할 수 있는 방향으로 주제를 세부화해 나가시더라고요. 예를 들면 나는 쿠팡에 취직을 하고 싶으니 쿠팡의 자체 브랜드에 관해 조사한다던지, 화장품에 관심이 많으니 화장품 성분과 리뷰의 상관관계를 조사한다던지 하는 것이죠. 저의 경우에는 '취업하고 싶은 분야'랄 게 딱히 없었기 때문에 문제가 되었습니다. 여기에도 관심이 있고 저기에도 관심이 있다고 할까요. 내가 모르는 새로운 어떤 분야에든 데이터 사이언티스트로 진출해서 열린 마음으로 일해보고 싶다!는 오픈 마인드였는데, 이게 개인프로젝트 주제 선정에는 도움이 되지 않더라고요.
결론부터 말씀드리면 저는 제가 지난 20대를 몸담아 바친 교육계와 관련된 주제를 선정하게 되었습니다. 사실 저는 이쪽 주제를 선정하는 것은 처음부터 약간 기피했습니다. 개인 EDA 프로젝트를 통해 완전히 새로운 분야에 진출하는 초석을 다질 욕심이 있었기 때문인데요. 프로젝트를 어느정도 완성해 가는 지금 생각해 보면 결국 제가 잘 아는 도메인을 선정한 것이 올바른 결정이었다는 생각이 듭니다. (물론 만약 특정 분야에 큰 관심이 있었더라면 그 분야를 연구하는 게 낫겠지만요.) 제가 잘 아는 분야인 만큼 연구의 방향성이 눈에 더 잘 보이기도 했고, 인사이트가 꼬리에 꼬리를 물고 확장되어감을 느낄 수 있었기 때문입니다.
저의 개인 프로젝트 흐름은 다음과 같습니다.
2022 개정 교육과정 분석, 관련 데이터 수집 분석, 관련 연구 논문 여러 개 분석, 직접 AL/ML 모델링 후 현황 연구 검증, 앞으로의 연구 방향성 제시
걱정까진 아니지만 그래도 아직 고민하고 있는 부분은, 다른 동기들의 수집 데이터가 대부분 구매 패턴 데이터, 후기 데이터 등 유저에 관련된 데이터들이더라고요. 저도 적당히 크롤링을 하긴 했지만 상대적으로 국가 문서와 연구 논문 분석이 메인을 이루기 때문에 이런 부분에서 데이터가 빈약해 보이지 않을까 하는 생각이 들었습니다. 또, 취업 측면에서 본다면 확실히 고객 관련 데이터를 분석하는 것이 기업의 매출 신장과 직결되기 때문에 더 어필될 것도 맞을 테고요. 주제에 필요한 데이터가 다르긴 하지만 그래도 약간의 조바심이 나는 것은 사실이기 때문에, 발표 전에 시간이 남으면 관련된 유저 데이터도 한번 검색해서 분석해보고자 합니다.
그래도 차별화 되는 점은 제 프로젝트에 인공지능 모델링을 직접 수행하고 연구 논문을 검증하는 과정이 포함되었다는 것인데요. 제가 알기론 다른 동기들 중에 딥러닝을 이번 개인 EDA 프로젝트 소재로 삼으신 분은 없는 걸로 알고 있습니다. 아직 아삭 과정에서 배우지 않은 파트이기도 하고요. 다만 저는 인공지능 엔지니어링 쪽에 관심이 많아 이전부터 독학을 해오고 있던지라 경험과 기본지식을 가지고 있는 상태였고, 강사님께서 딥러닝 쪽에 뜻이 있다면 이렇게 이렇게 해보자며 코칭도 해 주셔서, 큰 용기를 내어 프로젝트에 포함을 시키게 되었습니다. 그리고 아주 잘한 결정이라고 생각해요. 확실히 프로젝트가 빠른 성장에 도움이 됩니다. 주제에 관련된 국내외 논문을 이것저것 검색하고 직접 읽고 모델링을 해서 검증까지 해보게 되면서 크고 작은 산을 정말 많이 넘어야 했고, 남의 코드도 많이 들여다봐야 했거든요. 역시 사람은 고난과 역경을 극복하면서 발전하는 것 같습니다.
아, 생각보다 해외 연구 논문 읽는 게 재밌더라고요. 외국인 친구들이랑 가깝게 잘 지내고 영어 원서도 한 달에 한 권씩 읽고 강의도 유데미 해외강의로만 들으면서 영어공부를 꾸준히 한 것이 큰 도움이 되나 봅니다. 연구 논문에 나오는 많은 용어들 전부 평소에 제가 공부하면서 쓰고 익히던 것들이라 읽고 이해하는 데 막힘이 없어서 뿌듯했습니다. 취업할 때 이런 점을 잘 어필해 봐야겠습니다. 다들 영어 공부 열심히 하시면 언제든 이렇게 도움이 된다는 점! 기억하시고 꾸준히 공부하시면 좋겠습니다.
개인 프로젝트가 끝나면 AWS CCP 자격증 시험이 곧바로 있는데요, 그 자격증 시험이 끝나면 저는 Kaggle 대회 참여를 시작해보려고 합니다. 케글 케글 말로만 들었지 실제로 써본 적은 아직 없었는데 이번 프로젝트 준비하면서 정말 케글에 지겹도록...(ㅋㅋㅋㅋㅋㅋ) 많이 접속해야 했거든요. 어떤 식으로 사이트가 구성되고 운영되고 내가 써먹을 수 있는지 적당히 잘 알았어요. 동기들 중에 딥러닝에 관심이 있는 분이 계시다면 스터디를 구성해 보는 것도 좋은 방법일 것 같습니다.
벌써 4주 차 회고를 작성합니다. 4주차도 매일 1시간 30분 일찍 도착해서 아침공부를 하고, 9-6 수업을 듣고, 6-9 저녁공부를 하고 집에 갔습니다. 뿌듯합니다.
분명 첫주에 패딩을 입고 다녔었는데... 이 회고를 작성하고 있는 오늘(일요일)의 낮 최고 기온이 28도에 육박했습니다. 그래서 반팔 반바지를 입고 나가서 카공을 하고 왔어요. 후텁지근했지만 아직 습하지는 않아서 따뜻하고 공기가 바삭한 게 저는 참 좋았습니다. 매일 하는 게 공부밖에 없는 단조로운 일상을 보내다 보니, 이런 날씨 변화가 주변을 좀 더 돌아보고 한숨 돌리게 하는 것이 반가웠습니다.
이번 주에 처음으로 이력서라는 걸 작성했습니다. 임용고시에 합격한 교사는 교육청에서 알아서 발령을 내 주기 때문에 이력서나 자기소개서 같은 걸 작성할 필요가 없습니다. 그래서 경험이 전무했어요. 다행히 지난번에 들었던 이력서와 자기소개서 작성 특강 내용이 큰 도움이 되었습니다. 특강 오신 강사님께서 공유해주신 기본 템플릿을 참고해서 기본 이력서를 국문과 영문으로 하나씩 작성하고, 혹시 몰라 노션 페이지도 간단하게 제작을 했습니다. 생각보다 오랜 시간과 많은 노력을 들여야 했습니다.
항상 학생들이 쓴 글을 평가하고 학부모들이 제출한 신청서를 심사하고 분류하는 일을 하던 제가 이제는 저좀 뽑아주십사 서류를 써서 제출하는 입장이 된 것이 재밌습니다. 사람 일이 어떻게 될지 모른다는 걸 매일 체감합니다. 과연 내가 인사 담당자라면 나의 이력서를 보고 마음이 동할까? 하는 한편의 메타인지를 발동해 가며 최대한 나를 잘 표현하고자 노력했어요. 힘들었지만 재밌기도 했습니다. 저의 성장 과정에 대해 돌아보고 스스로의 강점과 단점에 대해 숙고해 보는 경험을 통해 앞으로 원하는 기업에 지원하기까지 무엇을 더 보충하고 발전시켜야 할 것인지 플랜을 세울 수 있었습니다.
아무래도 아직 완성한 프로젝트가 하나도 없다 보니 프로젝트 칸은 비워뒀어요. 생각은 하고 있었지만, 텅 빈 프로젝트란을 보니 제대로 된 프로젝트 뭐든 하나라도 있어야한다는 생각이 확 들더라고요. 지금까지 저는 데이터분석과 머신러닝에 필요한 각종 프레임워크에 익숙해지고 기술적인 능력을 키우는 데 집중을 하고 있었거든요. 공부는 계속하되 가능한 빨리 개인 프로젝트를 구체화기로 마음먹었습니다. 다만 프로젝트 주제를 정하는 일이 생각보다 어려운 게 걱정입니다. 동기들과 이야기해 보면 다들 관심 있는 분야 하나정도 가지고 있더라고요. 금융이면 금융, 게임이면 게임, 유통이면 유통, 그런 거 말이죠. 저는 딱히 하나의 분야에 꽂혀 있지는 않고, 데이터 사이언티스트로서 머신러닝과 딥러닝을 아우를 수 있는 멀티플레이어로 성장하고 싶다.. 뭐 그런 거시적인 목표만 있는 상태입니다. 그래서 주제 구체화가 더욱 막막한데요. 앉아서 머릿속으로 고민만 하면 답이 나오지 않는다는 걸 인생 경험으로 알고 있기 때문에 먼저 데이터 수집부터 이것저것 시작해보려고 합니다.
이번주에 수업에서 웹 크롤링 기법 여러가지를 배웠는데, 크롤링을 해본 적이 없던 저에게 정말 큰 도움이 되었습니다. 소위 노가다성 작업이었음에도 불구하고 생각보다 훨씬 더 재밌었어요. 어떤 식으로 블로그에 정리를 할까 하다가, 수업 내용을 그대로 정리해서 올리면 편하긴 하겠지만 남는 게 없을 것 같아서, 간단한 토이 플젝을 진행해 봤습니다. 연금복권 720+ 당첨 결과를 크롤링 후 정제해서 데이터프레임화하고 간단한 분석을 해보는 실습을 하고 과정을 정리해 포스팅했어요. 정말 재밌었고 복습이 쏙쏙 됐습니다. 역시 스스로 생각하고 작업한 내용을 글로 출력하면 배운 내용을 체화하고 내 것으로 만드는 데 정말 큰 도움이 되네요. 다음 주에는 셀레니움 프레임워크 사용하는 법을 배우는데 큰 기대가 됩니다.
다음 주 회고에서는 주제를 좀더 구체화해서 가지고올 수 있기를 기대하며, 다들 일교차와 냉방병 조심하시고 건강하세요.
집에서 편하게 쉬엄쉬엄 공부를 하다가 매일 강의실에 물리적으로 출퇴근을 하는 일이 쉬운 일은 아니었습니다만, 이쯤 되니 다행히도 몸이 잘 적응을 한 것 같습니다. 아무래도 지난 7년간 학교에 출퇴근하던 일에 비교하면 (비교할 수 없을 만큼) 훨씬 살만하네요. 학교에서 학생을 대하고 가르치는 일은 체력적, 정신적으로 굉장히 큰 에너지를 소모하는데요. 그에 비하면 지금은 그냥 방학 같아요. 내가 하고 싶은 공부를 원 없이 할 수 있는 환경과 자원이 지원된다는 게 감사할 따름입니다.
과정을 시작하면서 제 자신과 약속한 것이 한 가지 있어요. 바로 출퇴근하는 월요일부터 금요일까지는 반드시 아침에 일찍 일어나자는 것이었는데요. 저는 저에 대해서 꽤 잘 알거든요. 내가 원하는 시각에 망설임 없이 일어나서 하루를 시작할 수 있느냐 없느냐가 저의 그날 하루 전체 생산성을 결정합니다. 지금까지 쉬엄쉬엄 편하게 공부해 왔으니, ASAC 과정에 참여하는 6개월 동안만큼은 죽었다 생각하고 일찍 일어나기로 했어요. 그래서 저는 매일 아침 5시 40분에 기상합니다. 간단히 씻고 준비를 마친 다음 6시 15분-20분에 집을 나서 6시 28분 지하철을 탑니다. 다행히도 3주간 잘 지켜왔습니다. 앞으로도 잘 지킬 거예요.
집이 꽤 먼 편이라 목적지까지 환승 없이 약 45분 정도가 걸리는데요. 출퇴근 길에는 책을 읽습니다. 책 읽는 걸 너무 좋아합니다. 더 나아가 책 읽는 제 자신이 좋습니다. 책을 읽을수록 생각이 확장되고 더 나은 사람이 되는 것을 느껴서 꾸준히 읽고 기록하려고 노력하고 있어요. 데이터를 분석하고 통찰하고 관철할 수 있는 사람이 되는 데 독서도 분명 큰 도움이 될 것이라고 생각합니다. 그런데 요즘 같은 시기에 따로 시간을 내어 책을 읽기는 또 어렵다 보니, 대중교통에서 보내는 시간을 활용하는 거예요. 저도 책을 멀리하던 시절에는 지하철이나 버스에서 책 꺼내서 읽는 사람 보면 괴물 같고 그랬는데 말이죠. 막상 직접 해 보니 오히려 숏폼 영상보다도 더 즐겁고 시간도 더 잘 갑니다.
강의실에 도착하고 나면 7시 20-30분 사이가 되는데 그때부터 8시 50분까지 약 한 시간 조금 넘는 시간 동안 개인 공부를 합니다. 잠깐 쉬고 9시 10분부터 수업을 듣습니다. 6시에 수업이 끝나면 저녁을 먹고 8시까지 개인 공부를 합니다. 가끔 컨디션이 안 좋으면 7시 30분쯤 일찍 가고, 컨디션이 유독 좋으면 9시까지 공부를 합니다. 이렇게 말하고 보니 정말 공부에 미친 광인 같네요. 그래도 저도 사람이기 때문에 주말엔 늦잠도 좀 자고 맛있는 것도 먹고 맥주 한 잔 하기도 하면서 편히 지내고 있어요. 요즘 주말 공부 시간은 하루에 3-6시간 사이 정도인데 조금씩 늘려가려고 합니다.
수업에서 3주 차 초반까지는 파이썬 기본부터 심화 문법까지 리뷰를 하고 주요 알고리즘을 몇 가지 공부했습니다. 특히 저는 알고리즘 자체를 따로 배워 본 적이 따로 없었기 때문에 구현과 탐색 알고리즘을 배웠던 시간이 큰 도움이 되었어요. 강사님께서 여러 가지 실전 코딩테스트 문제들을 가지고 하나하나 설명을 해주시면서 알고리즘을 코테 문제에 어떻게 적용하는지 보여 주신 것이 참 좋았습니다. 덕분에 저도 자극을 받아서 블로그에 코딩 테스트 문제 풀이 방법을 작성해서 올리기 시작했는데요. 무언가 배웠을 때 그걸 남에게 설명할 수 있어야 진짜로 아는 것이라고 학생들한테 누누이 말하곤 했던 걸 이제는 스스로에게 되새고 있는 저를 보면서, 기분이 묘했습니다.
파이썬 과정이 끝나고 간단한 테스트가 있었습니다. 다행히 쉽게 느껴지는 문제들로 구성되어 있어 10분-15분 만에 빠르게 제출을 할 수 있었습니다. 다른 동기들에 비해 문제를 빠르게 해결한 편이었는데, 제가 특별히 잘나고 똑똑해서는 아닙니다. 블로그에 직접 정리하면서 반복하고 복습했던 스니펫들을 활용할 수 있는 문제가 정말 많이 나왔어요. 운이 좋았던 거죠. 공부한 것을 남에게 설명하기를 저는 블로그에 글을 쓰는 걸로 대신하고 있는데, 이게 정말 큰 의미가 있다는 걸 실감할 수 있었던 좋은 기회였습니다.
파이썬 과정이 끝나고는 짧고 콤팩트하게 MySQL을 배웠는데요. 저는 MySQL도 유데미 강의를 통해 한 번 훑고 왔기 때문에 강의 속도를 따라가는 데 큰 어려움이 없었습니다. 프로그래머스에서 MySQL 코딩테스트 문제도 제공하고 있거든요. 그걸 같이 풀면서 수업을 들으니 체화하는 데 훨씬 더 좋더라고요. MySQL이 무슨 대단한 알고리즘을 요구하는 언어는 아니기 때문에 엄청 어렵고 복잡하진 않더라도 이게 손 놓고 있으면 잊어버리기 십상이거든요. 꾸준히 놓지 않는 게 가장 중요하다고 생각되어서, 앞으로 프로그래머스 문제를 조금씩 야금야금 꾸준히 풀면서 리듬감을 유지해보려고 합니다.
만약 저의 회고를 참고하시고 다음 기수의 ASAC과정을 고려하고 계신 분이 계시다면, 반드시 파이썬과 MySQL의 기초 문법에 대한 (최소) 1회독을 끝낸 다음 지원을 하시라고 말씀드리고 싶습니다. 그게 정신건강에 좋습니다. 교육과정 자체가 노베이스 비기너를 위한 과정이 아닙니다. 굉장히 타이트한 교육과정이에요. 진도가 빠를 뿐만 아니라 난이도도 있습니다. 저는 비록 비전공자이기는 하지만 전공자에 뒤쳐지고 싶지 않아서 여러 가지 공부를 마친 다음 본 과정을 시작했기 때문에 아직은 수업을 따라가는 데 어려움이 없습니다. KDT 등록하면 알아서 어떻게든 되겠지- 와 같은 해이한 마음으로 시작하시면 크게 낭패를 보실 수 있다는 점을 반드시 숙지하시면 좋겠습니다.
그럼 4주 차도 맑은 눈의 광인 모드를 탑재하고 열심히 공부하고 돌아오겠습니다. 회고 읽어주셔서 감사합니다. :)
4월 4일 목요일 Zoom을 이용한 실시간 화상 온라인 방식으로 진행된 이은정 강사님의 <심장과 혈관 의학 분야에서의 인공지능과 데이터과학> 세미나에 참여했습니다. 이은정 강사님께서는 서울대학교에서 석박사 과정을 마치신 뒤 미국에서 가장 큰 병원 중 하나인 Mayo Clinic에서 Senior Data Science anlayst로 계시면서 다양한 의학 인공지능 모델을 개발하고 데이터과학을 연구하고 계신 멋진 분이셨습니다. 저는 현재 고려사이버대학교에서 최대영 교수님의 빅데이터 개론 수업을 듣고 있는데, 교수님께서 본 세미나에 참가할 수 있도록 초대해 주신 덕분에 좋은 기회로 참여할 수 있었습니다.
제 주변에 의학 관련 분야에 종사하는 지인이나 친인척이 몇 있습니다. 그래서 저는 평소 의학 분야에도 어느 정도 관심을 가지고 있었습니다. 특히 의료 분야에서 데이터의 중요성, 인공지능의 빠른 성장에 대해서는 익히 들어본 바가 있어 큰 호기심을 가지고 있었습니다. 그러나 의료 분야는 어쩐지 진입장벽이 있다고 느껴졌어요. 어디서부터 관련 도메인 지식을 수집해 나갈지 막막했습니다. 그렇게 멀게만 느껴지던 의학 도메인에 조금 더 가까워지는 계기가 되기를 바라며 강의를 듣기 시작하였습니다.
본론
(1)
먼저 강의는 미국의 심혈관 질환에 대한 통계 자료와 분석으로 시작하였습니다. 2016년 데이터를 기준으로 미국 인구의 약 절반이 고혈압을 가지고 있는 것으로 추정되며, 2035년까지 미국 인구의 약 45%가 심장 관련 질병 가지게 될 것으로 예상된다고 하는데요. 이를 뒷받침하는 자료로 미국에서는 성인 5명 중 오직 1명만이 적정한 양의 운동을 하고, 전자담배의 사용으로 흡연률이 치솟고 있는 등 다양한 통계를 함께 볼 수 있었습니다.
2022년 잠깐이나마 뉴욕에서 어학연수를 했던 기억을 떠올려 보았습니다. 뉴욕에는 확실히 한국보다 다양한 체형을 가진 사람들이 있었어요. 다양한 사이즈의 체형이 용납되는 개방적이고 자유로운 사회적 분위기가 저는 참 좋았던 기억이 있습니다. 지금 돌아보니 빅 사이즈 국민들의 건강 관리가 그만큼 중요한 과제가 될 수도 있겠다는 생각이 드네요. 이렇게 미국에서는 큰 사회적 이슈가 되고 있는 심혈관 질병 진단과 관리를 위해 인공 지능이 다양하게 개발되고 활용되고 있다고 합니다.
(2) - 1
다음으로 심혈관 질환을 위한 인공지능 모델 개발을 위한 데이터 자료에 관해 말씀해 주셨습니다. AI 트레이닝, 테스팅 데이터로 활용되는 가장 대표적인 데이터 자료 두 가지는 환자 기록과 검사 결과입니다. 환자 기록으로는 몸무게, 키, 혈압, 피검사, 환자 내원시 상담 내용 등이 있습니다. 검사 결과로는 ECG라고 불리는 심전도 검사 결과, 심초음파, 혈관조영상, 망막이미지 등이 있습니다. (심혈관 질병 관련)
요즘은 스마트 워치로도 간단하게 심전도 측정이 가능한 세상입니다. 이렇게 스마트 워치를 활용하여 측정한 심전도 자료 역시 인공지능 개발에 활용이 되기도 한다고 합니다. 물론 병원의 전문 장비를 이용한 측정 결과랑 비교하자면 신뢰도가 많이 떨어지기 때문에, 이렇게 신뢰도가 낮은 데이터를 가지고 모델 개발을 하면 그만큼 정확도가 떨어질 수밖에 없다고 하셨습니다. 그래도 집에서 간단하게 간이 방식으로 심전도를 측정하여 문제 상황을 조금이나마 예측하고 예방할 수 있다면 큰 도움이 되겠지요. 언젠가 병원의 전문 장비만큼 실력이 짱짱한 스마트 워치가 보급될 지도 모를 일입니다.
망막 이미지와 목소리에 관련해 말씀해 주신 부분이 굉장히 흥미로워 기억에 남는데요. 요즘은 망막 이미지 하나만으로도 나이, 성별, 흡연여부, 혈압 비만도 등의 건강 정보를 예측을 할 수 있는 수준으로 모델 개발이 이루어져 있다고 합니다. 굉장히 신기했어요. 또 목소리를 이용하여 심장 관련 진환을 예측을 할 수 있다고도 하셨습니다. 목소리라고 하면 기관지 컨디션이나 기분 정도만 짐작해볼 수 있는게 아니냐고들 생각하지만 목소리에는 예상 외로 몸에서 발생하는 이상 신호들이 잘 반영된다고 합니다. 생각보다 예측율이 높은 편이라고 해서 정말 신기했어요. 이렇게 상식을 뛰어 넘는 재밌는 모델링 연구 작업에 저도 참여할 수 있다면 얼마나 좋을지 기대가 되었습니다. 의료 도메인에도 꾸준한 관심을 가지고 포트폴리오를 구축해 나가 봐야 겠다는 욕심이 들었어요.
(2) - 2
다음으로 데이터를 활용해 어떤 모델을 개발할 수 있는지에 대해 말씀해 주셨습니다. 가장 큰 연구가 이루어지고 있는 분야는 바로 질병을 예측할 수 있는 모델 개발이라고 합니다. 가격이 비싼 혈관조영상 촬영 없이 상대적으로 저렴한심장 박동, 심초음파 검사 결과만으로 좌심방의 크기와 대동맥 판막 협착증을 예측하는 모델을 예시로 들어 주셨습니다. 초기에 잡아냈다면 미리미리 관리하여 쉽게 치료할 수 있었던 질병들을 뒤늦게 발견해서 큰 문제가 되는 경우가 많잖아요. 저희 외조모께서도 대장암을 초기에 발견하지 못해 결국 투병하시다가 2년만에 돌아가셨었거든요. 인공지능 모델을 통해 세계적으로 질병 예측의 시기가 앞당겨지고 정확성이 크게 증진될 수 있기를 바라는 마음입니다.
또 기존에는 상위 검사만으로 측정이 가능했던 수치들을 하위 검사로 측정 가능할 수 있도록 돕는 모델 개발에 관해서도 언급하셨습니다. 상위 검사는 검사 방법이 복잡한 대신 정확도가 높은 특징이 있습니다. 그만큼 비용이 높을 수밖에 없는데, 특히 미국의 악랄한 의료비에 대해서는 다들 잘 알고 계시지요. 대부분의 상위 검사들을 한국에서는 어렵지 않게 받을 수 있지만 미국에서는 그렇지가 못한 현실이라고 해요. 이렇게 상위 검사만으로 측정 가능했던 수치들을 하위 검사 결과로부터 예측해낼 수 있는 모델들을 개발하는 겁니다. 이게 보편화가 된다면 비용때문에 의료 서비스를 받지 못했던 사회적 약자들에게 커다란 도움이 되겠다는 생각을 했습니다. 저도 뉴욕에 있을 때 갑자기 엄청난 복통이 찾아와 응급실에 갔다가 아픈 것보다도 병원비를 걱정하느라 마음 고생을 했던 경험이 있거든요. 질 좋은 의료 서비스를 모두가 평등하게 받을 수 있는 세상을 만드는 데 저도 도움이 될 수 있으면 좋겠습니다.
그 밖에 인공지능 모델 개발을 위해 데이터 레이블링하는 작업에 큰 시간과 비용이 소요되는데, 이런 레이블링을 대신하는 모델을 역시 활발하게 개발이 이루어지고 있다고 알려 주셔서 흥미로웠습니다. 인공지능 모델 개발을 돕는 모델이라니! 미래에는 인공지능끼리 주르륵 체인을 이루면서 인간의 개입이 전혀 필요하지 않은 세상이 언젠가 오겠다는 귀엽고도 무서운 생각을 해 봤어요. 그 안에 나의 역할이 무언가 있기를 바랄 뿐입니다.
(3)
마지막으로 메이요 클리닉에서 개발하고 있는 인공지능 모델 예제를 몇가지 알려 주셨습니다. 간단히만 정리해 보겠습니다.
[1] 정상 심장 리듬에서 심방세동을 예측하는 모델
심방세동은 간헐적으로 발생하며 특이한 증상이 없는 경우가 많아서 진단에 어려움이 많다.
심방세동의 정확한 진단 및 예측을 위해서는 환자가 병원에 긴 시간 내원해야 한다. 대체로 환자가 24시간동안 몸에 리드줄을 부착하고서 수집한 데이터로 판단을 내리는 방식으로 진단이 이루어졌다고 한다.
메이요 클리닉에서 보관하고 있는 18만명이 넘는 환자들의 데이터, 65만개가 넘는 ECG 기록을 가지고 단시간 측정한 정상 리듬에서도 심방세동을 예측해낼 수 있는 인공지능 모델을 개발하였다.
기존의 진단이 여러 전문 인력의 수작업으로 이루어져 시간과 자원이 과하게 소모되었으나 이 과정들을 인공지능으로 대체할 수 있게 되면서 시간과 자원 비용을 크게 절약하게 되었다.
[2] 비대성 심근병증 (HCM) 분류
비대성 심근병증은 심장 근육이 비정상적으로 두꺼워져 형태가 변형되고 기능이 악화되는 질환으로, 특히 미국에서는 HCM으로 돌연사하는 프로, 아마추어 운동선수가 많아서 사회적 이슈라고 한다.
메이요 클리닉에서 저렴한 심장 박동 검사 결과만을 가지고 HCM을 예측할 수 있는 모델을 개발하였다. 심장 박동 검사는 비용이 저렴할 뿐만 아니라 다양한 시설에 보편화가 많이 되어 있어서 접근성이 무척 높은 하위 검사이다.
테스팅 어큐러시가 0.95 - 0.97으로 무척 높았는데, 미국 뿐만 아니라 다른 여러 나라들에서도 이벨류에이팅을 해 보니 역시 높은 어큐러시 결과가 나왔다고 한다.
[3] ECG(심전도)를 이용한 좌심실 이완기능 평가
좌심실의 이완 기능은 심장 기능 평가에 있어서 아주 중요한 사항이다. 좌심실 이완 시 높은 filling pressure는 다양한 심혈관 질환과 관련되는 악조건이다. 현재 미국에서 70세 이상의 노인의 70%가 불완전한 좌심실 이완 기능을 가지고 있다는 통계 결과가 있다고 한다.
좌심실 이완 기능 평가는 혈관조영상으로 판단하는 것이 가장 이상적이다. 그러나 혈관조영상 촬영은 굉장히 어렵고 복잡하며 비용이 높은 상위 검사이다. 이를 대체하기 위해 심초음파 결과를 이용하는 경우가 많은데, 정확성이 매우 떨어진다고 한다.
메이요 클리닉에서 ECG(심전도) 검사 결과를 통해 좌심실 이완 기능을 평가하는 인공지능을 개발하였다. 검사 결과로 Grade 1-2-3 세 단계의 등급을 매기게 되는데, 등급이 높을 수록 위험한 상태를 의미한다.
결론
이번 이은정 강사님의 세미나는 심혈관 질환의 예측과 진단에 데이터와 인공지능이 어떻게 활용되고 있는지 그 실제 사례를 알아볼 수 있는 무척 좋은 학습 기회였습니다. 평소 '미래에는 인공지능이 의사를 대체할 것이다!'는 무시무시한 이야기를 들어만 보았지, 실제로 병원에서 어떤 식으로 개발이 되고 활용이 되고 있는지 그 개별 사례를 알아보기가 쉽지는 않았거든요. 강사님께서 실제 사례와 경험을 토대로 강의해 주신 덕분에 앞으로 심혈관 질환 뿐만 아니라 다른 분야에서도 인공지능 적용 사례를 찾아보기가 수월해질 것 같습니다.
이런 의료 도메인에서의 인공지능의 개발은 질 높은 의료 서비스를 더 많은 사람들이 받을 수 있도록 돕습니다. 그만큼 사회적, 인도적으로 큰 의미가 있다고 생각해요. 과학 기술 발달의 바람직한 예라고 할 수 있겠죠. 특히 저는 초등교육에 제 20대 모두를 바쳤던 만큼 어린이와 청소년의 신체건강, 정신건강에 특히 큰 관심을 가지고 있는데요. 학생 개인정보 보호를 위해 자세한 사례를 여기에 세세히 밝힐 수는 없지만, 타고난 유전병으로 인해 자유로운 활동이 어려운 학생을 가르쳐 보았고, 신체적 장애를 가지고 있어 신체활동에 제약이 있는 학생도 가르쳐 보았고, 자폐 스펙트럼을 가지고 태어나 친구를 사귀기 어려워하는 학생도 가르쳐 보았습니다. 가정환경이 어려워 필요한 만큼 의료 서비스를 받지 못하는 친구도 있었는데 제가 도울 방법이 제한적이라 참 안타깝고 미안했었어요. 이렇게 다양한 어려움을 가지고 있는 학생들을 도울 수 있는 인공지능 모델에는 무엇이 있을지 앞으로 계속해서 고민해 보고, 관련 데이터를 찾아보고 분석해 보고자 합니다.
질의응답 시간에 이은정 강사님께 어린이를 대상으로 인공지능 모델을 개발해 본 경험이 있으신지 질문을 드렸었는데요. 어린이들은 신체적으로 어른과 무척이나 다르기 때문에 어른을 대상으로 개발한 모델을 어린이들에게 동일하게 적용하기는 어렵다고 하셨습니다. 따라서 영유아나 어린이를 대상으로 한 모델의 경우 성인을 대상으로 개발한 성공적인 모델을 가지고 수정 보완하여 만들어내는 경우가 많다고 하셨어요. 좋은 답변이 되었습니다. 추후에 시간을 내어 구체적인 사례를 찾아보기로 하였습니다.
마지막으로 이렇게 개발된 인공지능 모델이 완전히 전문인력을 대체하고 있는 상황은 아니라고 말씀을 해 주셨습니다. 의료진이 진단을 하고 판단을 내리는 데 근거가 되는 하나의 수단으로 인공지능 모델의 예측 결과를 활용하고 있다고 하셨어요. 데이터를 분석하고 모델을 개발할 줄 아는 능력 있는 데이터 사이언티스트는 이렇게 원하는 분야의 전문 인력과 협업할 수 있구나! 좋은 자극이 되었습니다. 열심히 노력해서 저 역시 이렇게 세상의 발전에 기여하고 다른 이들에게 영감이 되는 전문가가 되겠다고 다짐하며, 이번 세미나 리뷰를 마칩니다.
작년에 의원면직(사직)을 한 후 꽤 긴 시간이 흘렀습니다. 이제는 전 동료가 된 교사 친구들이 SNS에 올리는 새 학기 소식을 보면 '강 건너 불구경이 따로 없구먼' 하는 표정으로 흐뭇하게 미소를 짓게 됩니다.
나는 준비된 상태로 사직하지 못했습니다. 이 일을 그만두고 난 뒤의 미래에 대해서 꾸준히 고민했지만 답을 알 수 없었습니다. 결국 해답을 찾지 못한 채로 의원면직을 해 버렸습니다. 용기와 치기 사이, 무모와 대담 가운데 어딘가에 있었던 결정이었습니다. 지금 돌아보면 그때 열심히 고민만 했던 게 문제였습니다.
이전에 글 쓴 대로, 첫 3개월은 미친 듯이 수능 공부를 했습니다. 그땐 내가 할 수 있는 게 그것밖에 없었습니다. 어떠한 분야로 진출한다는 것은, 괜찮은 대학에서 관심 있는 학과를 전공하고 관련 분야로 취직한다는 것, 그게 내가 알고 있는 전부였기 때문입니다.
결과적으로 나쁘지 않은 성적을 받았음에도 대학에 가지 않았습니다. 누군가는 시간을 버렸다고 말할 수도 있겠습니다. 그렇지만 그동안 잊고 살았던 고등수학과 천문학을 공부하며 내가 논리와 알고리즘을 좋아하는 사람이라는 것을 알게 되었고, 소프트웨어공학 분야로 진출하겠다는 결심을 하게 됐고, 나는 반드시 해낼 수 있다는 자기 확신을 얻었습니다. 내가 만약 실리를 따져 가면서 수능 공부를 하지 않았더라면 그런 결심을 할 수 있었을까요.
나는 수능 다음날부터 파이썬 기초 문법을 시작으로 본격적으로 코드를 독학하기 시작했습니다. 비전공자도 개발을 배울 수 있는 콘텐츠는 세상에 넘쳐흐르고 있었습니다. 나의 생각과 논리가 코드로 고스란히 기록에 남는 일은 짜릿했습니다.
그러고 보니, 내가 교사 일을 왜 좋아했는지도 다시금 돌아보게 되었습니다. 학교 현장은 학생에 관한 수많은 데이터의 정글입니다. 초등교사는 흘러 넘치는 학생들의 데이터를 수집하고 분석하고 통찰하며 학급을 이끌고 교육과정을 운영해야 합니다. 그중에서도 나는 특히 학생을 이해하는 일을 잘해서 학생과 학부모들에게 인기가 좋았습니다. 모든 일에는 원인과 결과가 있다는 나의 원칙이 있었기 때문에 가능한 일이었습니다. 어른의 시각에서 이해하기 어려울 수도 있었던 아이들의 행동들을 나는 늘 이해했습니다. 그 일이 어렵지 않았습니다. 아이들의 크고 작은 갈등해결은 생각보다 간단합니다. 데이터를 수집하고 분석하여 의미 있는 결과를 도출하는 일과 다름없어요. 내가 할 일은 별게 없습니다. 귀를 기울이고 원인과 결과를 파악한 다음 교육자, 보호자, 어른으로서 나의 생각을 뽑아내 조언합니다. 아이들은 자신의 이야기에 귀를 기울이고 이해하는 어른이 있다는 사실 하나만으로도 반성하고 성장하더라고요. 그런 아이들을 보면서 제가 오히려 배우곤 했습니다.
교육과정과 학습목표, 성취기준을 분석하고 창의적으로 수업을 구성하여 이끌어가는 일도 좋았습니다. 초등학교 담임에게는 학급 교육과정 운영의 자율성이 주어지는 편입니다. 나는 내 입맛대로 학급을 이끌어 나가는 일이 즐거웠습니다. 아이들의 수업 태도와 참여도를 능동적으로 관찰 평가하면서 수업을 개선하고 새로운 교수 학습 기법을 적용해 보는 등 다양한 시도를 멈추지 않았습니다. 나의 수업은 학생들 사이의 대화로 넘쳐흘렀습니다. 내가 가르친 학생들은 요즘 같은 삭막한 시대에 꼭 필요한 의사소통 역량을 조금은 배워갔을 것입니다.
비록 새로운 가치와 성장을 찾아 학교를 떠나게 되었으나 교사로 일하는 동안 정말 행복했어요. 말장난같이 들릴 수 있겠지만 내가 만약 학교에서 일하지 않았다면 학교를 떠날 일도 없었겠지요. 나는 도전과 실패에 대한 두려움을 떨치고 학교를 떠나기로 결정한 스스로가 이제는 자랑스러워요. 그리고 학교를 떠날 수 있도록 나에게 가르침을 준 학생들에게 고맙습니다.
제목에 진로를 결정했다고 썼지요. 나는 데이터 사이언스와 AI 엔지니어링 분야에 뜻을 품었습니다. 처음에는 모두가 그렇듯 웹개발을 위주로 공부를 시작했는데, 궁금한 분야를 파고 파고 파다 보니 여기까지 도착했습니다. 지금은 텐서플로우 코드와 함께 딥러닝을 공부하는 데 몰두하고 있습니다. 처음엔 이것이 외계어가 아니면 뭐란 말인가, 싶을 만큼 어렵고 막막했어요. 그런데 어려운 만큼 결국엔 이해하고 소화해 냈을 때의 쾌감은 이루 말할 수 없을 만큼 짜릿합니다. 나는 이게 정말 재밌어요. 엄청난 재능이 있는 것 같지는 않은데, 30대에는 여기에 내 모든 걸 쏟아봐도 좋겠다는 생각이 들 만큼의 열정이 있어요.
작년에 수능 준비를 하면서 수학 선택 과목으로 미적분을 열심히 공부했었거든요. 간당간당하게 1등급도 받았었고요. 그때 미적분을 공부해 둔 게 딥러닝을 공부하는 지금 도움이 되네요. 어떤 도전이든 나에게 손해 될 것은 없다는 것을 다시금 확인합니다.
또 재밌는 건, 제가 이번에 사이버대학에 편입을 했어요. 작년에 수능까지 봐 놓고서 사이버대학에 들어가다니 웃기지요? 독학으로 공부를 하다 보니 전공자들은 학부에서 어떤 것들을 배우는지 궁금했거든요. 나중에 혹시 공대 대학원에 진학해서 석사과정을 밟을 수도 있으니까 공학 학사를 따 두면 도움도 될 것 같았고요. 하지만 오프라인 대학을 다니는 기회비용을 감당하고 싶진 않았기 때문에 사이버대학교 3학년으로 편입을 했어요. 이번 학기에는 수업 4개를 듣는데, 수업 하나하나가 기대했던 것 이상으로 알차서 정말 만족하고 있습니다.
특히 빅데이터 개론을 들으며 학문적 기반을 다지고, 데이터와 인공지능을 다룰 때 정말 정말 중요한 통계학 수업을 들으며 부족했던 수학 지식을 보충할 수 있는 게 좋습니다. 실무에 필요한 코드 작성은 내 취향에 맞게 독학하고, 거기다 조금만 시간을 더 내어 집에서 간편히 대학 수업을 들을 수 있다니, 정말 편리하고 행복합니다. 내가 만약 네임밸류에 집착하며 오프라인 대학을 고집했다면 이렇게 시간을 알뜰히 활용할 수 없었을 거예요. 배움에는 왕도가 없습니다.
이전에 말한 것처럼 해외 진출에 대한 열망은 아직도 건재합니다. 그런데 조금 바뀐 점이 있다면, 지금 당장 해외로 무조건 나가고 말겠다는 생각은 사라졌습니다. 일단 열심히 공부하고 배울 생각입니다. 좋은 기회가 온다면 국내 기업에서도 경력을 쌓고 싶어요. 그런 다음 나가도 늦지 않을 것 같습니다. 아니면 글로벌하게 일할 수 있는 외국계 기업에 취업하는 것도 좋겠지요. 글로벌 역량을 키우기 위해 모든 독학은 영어 콘텐츠로 진행하고 있습니다. 강의 하나를 들어도 영어로 된 강의를 보고, 책 하나를 봐도 원서로 봅니다. 조금 더 기본기가 탄탄해지면 논문 리딩과 분석도 해보려고 합니다.
말은 뻔지르르하게 했지만, 사실 저는 그냥 공부하고 있는 백수입니다. 그렇지만 지금 행복합니다. 언제든 취업은 하겠지요. 그게 올해가 되든 내년이 되든 지금은 내가 할 수 있는 것에 집중하려고 합니다. 열심히 공부하고 적극적으로 기록하고 있습니다. 브런치에도, 앞으로 더 자주 글을 쓰겠습니다. 의원면직을 고민하는 많은 교사들, 또 직무전환을 고려하는 많은 직장인들에게 저의 이야기가 조금이나마 위로가 되었으면 좋겠습니다.
또 찾아올게요! 감사합니다.
[붙임]
11월 말부터 3월까지 4달 동안 공부한 것들을 순서대로 정리해 봅니다.
파이썬 기본 문법
파이썬 Flask 라이브러리
HTML, CSS, Boostrap5
Git, Github
자바스크립트
MySQL
정보처리기사 필기(합격)
파이썬 Numpy, Pandas, Matplotlib, Seaborn 라이브러리
Linux 커맨드라인
R
OPIC AL / TOEIC 970
프로그래머스/해커랭크 코딩테스트 문제해결 (현재진행 중, 아직 많이 부족해요)
고려사이버대학(편입) - 확률과 통계, 소프트웨어공학, 빅데이터개론, 파이썬 강의 수강 중
파이썬 Tensorflow와 함께 Neural Network 이론 학습 (현재진행 중, 많이 부족하지만 즐겁게 하고 있습니다.)
의원면직을 결심하고 나서 나에게 주어진 가장 큰 과제는 이후 행로에 대해 방향을 잡는 것이었습니다. 그 큰 틀이 세워져야 세부적인 계획도 세울 수 있을 테니까요. 내가 원하는 것은 무엇인가, 나는 어떤 사람인가를 꾸준히 탐색하려고 노력했습니다. 부모님과 대화도 주기적으로 했고, 스스로를 돌아보기도 했으며, 전문가의 상담을 받기도 했어요.
나는 올해 대학수학능력시험에 응시했습니다. 갑자기 수능이라니, 뜬금없어 보일 수 있겠지만 지금 내가 할 수 있는 최선은 수능이라고 판단이 되었어요.
학교 일은 재밌었지만 공교육은 교사 개인의 노력의 결과가 눈에 수치화되지 않으며 그에 따라 보상도 받을 수 없는 구조여서 이과적 성향이 짙은 나에게는 충분한 동기부여가 되지 않았습니다. 무능력에 따른 책임을 고스란히 내가 모두 떠안아야 한대도 상관없으니 앞으로는 내 성향에 맞는 이공계나 과학 분야의 일을 선택하고 싶었어요.
또 학교가 답답했던 나는 더 넓은 세상에서 살고 싶었습니다. 기회가 온다면 반드시 해외로 진출할 수 있는, 또 내가 그런 기회를 만들어갈 수 있는 직업을 갖고 싶었어요. 학교에서는 영어를 아무리 잘해봤자 결국 원어민 뒤치다꺼리나 하게 되었던 게 큰 불만이었고, 짧지만 강렬했던 뉴욕 생활을 통해 글로벌 인재로 거듭나고 싶은 욕구도 커져 있었거든요.
그래서 그게 뭔지 잘은 모르겠지만 일단 수학 과학을 할 줄 알아야 뭐든 할 수 있지 않을까 싶었습니다. 그래서 수능 공부를 하면서 고등 수학 과학을 리마인드도 하고 내가 어떤 과목을 왜 흥미로워하는지 살펴도 보기로 했어요. 만약 수능 점수가 기대 이상으로 잘 나온다면 내가 동물을 좋아하니 수의대를 가면 어떨까? 하고 막연하게 생각하기도 했습니다. 어릴 때부터 컴퓨터 프로그램 다루는 걸 너무 좋아하고 잘했어서 소프트웨어 공학에도 관심이 있었습니다.
세 달간 매일 15시간씩 수능 공부를 했어요. 수능 대신 소프트웨어 개발 공부를 할까 고민도 했지만, 수능은 때와 시기가 있으니 수능이 우선이었습니다. 11년 만에 돌아간 수능판은 완전히 달라져 있어서 정말 너무너무 낯설었어요. 그렇지만 적응하는 데 여유 부릴 시간도 없어 닥치는 대로 미친 듯이 공부만 했습니다.
수의대 얘기가 나왔으니 말인데, 나는 살면서 공부를 못해본 적은 없습니다. 그러나 나는 자기 객관화가 잘 되어 있는 사람입니다. 내가 정시로 메디컬을 노리기엔 참 애매하고 부족한 사람이라는 걸 잘 알아요. 게다가 10년 동안 손 놓고 있던 공부를 두세 달 공부해서 전국 1% 안에 들 수 있을 리가요. 그럼 결국 안 될 일이니 적당히 공부했냐 하신다면 그건 또 아닙니다. 그와 상관없이 모든 걸 쏟았어요. 칼같이 매일 여섯 시에 일어났고 밥 먹을 시간도 아껴가며 공부에 매진했습니다. 나를 테스트하고 싶었어요. 앞으로 몇 년 더 수능에 도전하며 수의대 진학을 노릴 것인가? 막상 건드려보니 수학 과학에 흥미도 능력도 없으므로 이공계 진출은 포기하고 기획이나 마케팅 등 새로운 분야를 탐색할 것인가? 다 떠나서, 새로운 분야에 뛰어들어 공부할 의지와 열정이 있기는 한가? 머릿속을 맴도는 수없는 질문에 스스로 답하고 싶었어요. 나는 이번 입시를 통해 짧고 굵고 빠르게 판단하기로 했습니다.
성적은 괜찮고도 아쉬웠습니다. 미적분과 영어에서 1등급을 받았습니다. 근의 공식도 잊어버려서 중학교 수학부터 출발해야 했던 걸 생각하면, 그리고 투자한 기간과 대비하면 현실적으로 괜찮은 결과였습니다. 부모님께서는 기대 이상의 성적을 보시곤 기뻐하셨습니다. 내가 아쉬워서 재도전할 거라고 생각하셨을 거예요. 근데 말이죠.... 공부하는 동안 모든 과목 중에서 생명과학 공부가 정말 더럽게 싫었어요. 재미도 없었어요. 그러니 수의대에 가겠다고 이 짓을 몇 년 더 하고 싶지도 않았어요. 몇 년 더 공부한다고 꼭 붙을 수 있는 곳도 아니고 말이죠. 명예롭고 안정적인 전문직을 가지고 싶다고 스스로를 설득하고 싶지 않았습니다.
나를 가장 즐겁게 했던 과목은 수학과 지구과학이었습니다. 고등학생 때 지구과학을 선택하지 않았던 터라 스스로도 놀랐습니다. 우주과학 공부가 그렇게 재밌더라고요. 나는 확실히 깔끔하게 떨어지는 논리와 계산, 알고리즘이 좋았습니다. 그러니 소프트웨어로 가야겠다고 결론지었어요. 이렇게 후회나 미련 없이 깔끔하게 판단을 내릴 수 있었던 건 누구보다 열심히 했기 때문입니다. 매일 6시에 일어나 밥 먹을 시간도 아껴가며 15시간씩 공부한 세 달이 전혀 아깝지 않았습니다. (아, 그리고 우주과학은 관련 서적을 찾아 읽고 다큐멘터리와 영화도 찾아보는 등 계속해서 취미로 즐기고 있습니다.)
그래서 수능 다음날 아침부터 바로 개발 공부를 시작했습니다. 국비지원제도 덕분에 요즘 너도 나도 개발에 뛰어들었다가 중도 포기하는 사람이 참 많은 것을 잘 알고 있습니다. 하지만 지난 세 달 동안 미친 듯이 공부에 매진하는 스스로를 보면서... 나는 분명 개발 공부도 열심히 꾸준히 할 수 있겠다는 자기 확신을 얻었습니다. 그 덕분에 도전을 시작할 수 있었어요. 지금은 책과 인터넷 강의를 통해 독학으로 입문 기초를 닦으면서 어떤 개발 분야가 나에게 맞을지 찬찬히 알아보고 있는 중으로, 백엔드도 재밌고 프런트엔드도 재밌어서 풀스택으로 가야 할지 등등 이런저런 즐거운 고민을 하고 있습니다. 또 수능 점수가 괜찮으니 늦깎이 새내기(일명 헌내기)로 입학을 해서 학위를 따 볼지, 아니면 4년을 다 다시 다니기는 좀 너무하니 편입을 또 준비해야 할지와 같은 고민도 하고 있습니다.
앞으로는 개발자가 되기 위해 고군분투하는 과정을 틈틈이 브런치에 기록하도록 하겠습니다. 세상의 모든 도전은 아름답습니다. 그리고 도전하는 나는 아름답습니다. 나는 나를 응원해요. 세상의 모든 도전하는 사람들에게 응원과 격려의 메시지를 전해 봅니다.
일을 관둔다고 했을 때 모든 사람이 공통적으로 물었습니다. 학교 일이 그렇게 안 맞아요? 그러면 나는 답했습니다. 아뇨, 일은 정말 재밌었어요. 배운 것도 많고요. 더 이상 애들을 못 본다고 생각하면 마음도 아프고 많이 아쉽기도 해요. 그런데 여기서 평생 일할 생각은 없을 뿐이에요.
학교가 끔찍이 싫은 것도 애들과 학부모를 상대하는 일이 적성에 더럽게 안 맞는 것도 아니었습니다. 내가 마주한 가장 큰 문제의식은 앞으로 학교에서의 내 모습이 그려지지 않는다는 것이었어요. 나는 학교에서라면 먼 미래는커녕 당장 5년 뒤의 가까운 미래에조차 원하는 게 없었거든요. 승진을 해서 관리자(교감, 교장)가 되고 싶지도 않았고, 대학원에서 교육학을 연구해서 석박사를 따고 싶지도 않았고, 그렇다고 장학사가 되거나 교육청으로 진출해서 공교육 체계 수립에 기여하고 싶은 마음도 없었어요. 계속 고민했습니다. 그렇다면 나는 여기서 앞으로 어떻게 성장할 것인가?
우리나라 학교는 나뿐만 아니라 그 누구에게도 열정을 불태울 수 있을 만한 공간이 아닙니다. 교사가 시간과 노력을 아무리 투자해도 따라오는 보상이 고작 개인적 만족감쯤에 그치고 말기 때문이에요. 신규 발령을 받고 1-2년만 일해도 쉽게 깨달을 수 있습니다. '학교는 열심히 하면 손해를 보는 곳'이라는 사실을. 안타까운 현실이에요. 만약 나에게 결혼과 출산, 육아가 인생의 큰 목표였다면 이야기가 달랐을 지도 모르겠습니다. 학교는 분명, 기혼자에게는 굉장히 메리트가 있는 직장입니다. 나는 확고한 비혼인은 아니긴 합니다만 가정을 일구는 걸 인생에 꼭 이뤄야 할 과업으로 여기진 않습니다.
<프렌즈>의 레이첼이 센트럴 퍼크의 웨이트리스를 때려치운 덕분에 원하는 패션 일을 하며 행복해질 수 있었던 것, 기억 하시나요?
30대를 눈앞에 둔 지금 나에게 필요한 것은 목표의식과 도전의식을 심어주고 성장할 수 있는 새로운 환경인 것 같습니다. 조금 더 나의 열정을 불태우게 만드는 일을 하고 싶어요. 부끄럽지만 그게 무엇인지는 아직 확실히 하지 못했습니다. 아무것도 정해진 바 없이, 심지어 꼭 하고 싶은 다른 일을 확정하지도 못한 채로 의원면직을 저질렀어요. 누군가는 나를 멍청하다고 생각할 수도 있겠지만 이상하게 후회는 안 돼요.
다음 편으로는 일을 그만둔 젊은 공립 초등교사의 장래 고민, 나의 적성과 새로운 커리어 방향을 뒤적이는 글을 써보도록 하겠습니다.