본문 바로가기

데이터분석7

ASAC 빅데이터 & AI 5기 | 8-10주차 회고 (+ 머신러닝 팀 프로젝트 발표와 디벨롭) 6-9주차는 머신러닝 팀프로젝트와 발표가 있었던 주간이었습니다. 저희 조는 이라는 주제로 프로젝트를 진행했고, 발표 이후 디벨롭 과정을 거쳐 라는 새로운 주제로 다가오는 7월 학회 발표를 준비하고 있습니다.지난 개인 EDA 프로젝트 발표 이후 작성한 회고와 마찬가지로 이번 팀 프로젝트 회고 역시 잘한 점과 개선할 점을 중점적으로 작성해 볼텐데요. 개인 프로젝트와 조금 다르게 이번 포스팅에서는 팀 프로젝트를 진행하면서 어떤 문제상황이 있었는지, 그리고 부족했던 점을 어떻게 개선했는지를 중점적으로 적어보도록 하겠습니다. 1. 문제의식저희 조는 유투브 뷰티 광고 영상의 메타데이터를 수집해서 조회수, 좋아요 수, 댓글 수로 구성된 '반응률'이라는 마케팅 지표를 예측하는 프로젝트를 진행했는데요. 뷰티 업계와 광고.. 2024. 6. 3.
ASAC 빅데이터 & AI 5기 | 6, 7주차 회고 (+ 개인 EDA 프로젝트 준비와 발표) 7주차 월요일, 드디어 개인 EDA 프로젝트 발표가 있었는데요. 주제 구상 - 데이터 수집, 분석, 시각화 - 인사이트 도출 - 관련 논문 분석 - 모델링 후 논문 검증 - 인사이트 도출 - 발표자료 구성 - 그리고 이 모든 작업을 몇 번이고 되돌아 반복하는 일련의 과정을 통해, 정말 많은 것을 배우고 성장할 수 있었던 기회였습니다. 이번 포스팅에서는 개인 EDA 프로젝트를 준비하면서 스스로 기특하고 자랑스러웠던 점, 그리고 스스로 확인한 나의 강점을 먼저 작성해 보겠습니다. 그리고 이어서 개선할 점을 이어서 적어보겠습니다.칭찬할 점첫째, 끊임 없이 피드백을 찾아 나섰습니다.저희 ASAC 강사님께서는 이번 개인 EDA 발표를 준비하는 25명의 동기들을 모두 혼자서 멘토링하시느라 정말 바쁘셨는데요. 다르게.. 2024. 5. 11.
ML | 캐글 Kaggle 신용카드 데이터 EDA + 모델링 실습 오늘 포스팅에는 유명한 Kaggle 신용카드 사기 감지 데이터셋(Credit Card Fraud Detection)을 가지고 데이터 전처리/분석/머신러닝을 하는 과정을 기록할 것입니다. 데이터 EDA를 진행하고 적절한 전처리를 해준 후 머신러닝 모델링을 수행하고 성능 지표를 비교하는 일련의 과정을 전부 담을 예정인데요, 의식의 흐름대로 작성할 예정이라 중간 중간 Tmi도 많고 삽질하는 내용까지도 필터링 없이 기록할 것임을 미리 알려드립니다. 1. 데이터 불러오기, 컬럼/결측치/데이터 타입 확인https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud/data Credit Card Fraud DetectionAnonymized credit card transacti.. 2024. 5. 10.
EDA | 서울특별시 공중화장실 02 _ 태블로를 이용해 시각화하기 지난 글에서 서울특별시 공중화장실 공중데이터를 판다스 데이터프레임으로 만들고 간단히 정제작업을 해 보았는데요. 정제한 데이터프레임을 가지고 태블로를 이용해서 아주 간단히만 시각화 작업을 진행해 보았습니다. 대시보드 구성 방법 서울시의 25개 구별 공중화장실 수 합계를 계산하여 그 수를 비교할 수 있도록 시각화했습니다. 대시보드의 왼쪽에는 지도를 배치하여 화장실의 수를 원의 크기와 색깔로 직관적으로 파악할 수 있도록 구성했습니다 지도를 확대하면 보이지 않는 레이블을 모두 확인할 수 있어요. 화장실 수가 많을수록 원의 크기가 큽니다. 화장실 수가 많을수록 원의 색깔이 진합니다. 대시보드의 오른쪽에는 가로막대그래프를 배치하여 수치별로 좀더 직관적인 비교가 가능하도록 구성했습니다. 오른쪽의 비교 파라미터를 이용.. 2024. 4. 17.
EDA | 서울특별시 공중화장실 01 _ pandas를 이용한 공공데이터 정제, 전처리하기 서울시 공중화장실 공공데이터를 가지고 아주 간단한 데이터 시각화, 분석 실습을 해 보려고 합니다. 먼저 이번 포스팅에는 파이썬 pandas 라이브러리를 이용해서 데이터 전처리 작업한 것을 간단히 정리해 보았습니다. 데이터 시각화, 분석은 태블로 프로그램을 이용하여 마친 뒤 다음 포스팅에 이어서 올리도록 하겠습니다. https://data.seoul.go.kr/dataList/OA-1370/S/1/datasetView.do 열린데이터광장 메인데이터분류,데이터검색,데이터활용data.seoul.go.kr 사용한 데이터 링크입니다. 1. pandas : 필요없는 컬럼 삭제, 인덱스 지정import pandas as pd t = pd.read_csv("toilet.csv", engine='python', enco.. 2024. 4. 16.
웹크롤링 | 연금복권720+ 당첨 데이터 분석해보기 (파이썬 requests, BeautifulSoup)  파이썬 requests, BeautifulSoup 라이브러리를 이용한 웹크롤링 후 데이터분석 실습을 해보았습니다 :-) 연금복권720+은 제가 한달에 2-3회정도 꾸준하게 구매하는 최애 복권인데요. 슬프게도 지금까지 제대로 당첨된 적은 단 한번도 없지만, 앞으로도 저는 꾸준히 구매를 할 예정인 아주아주 매력적인 복권입니다. 1등에 당첨이 되면 (세전) 700만원을 매월 20년동안 수령할 수 있어요. 동행복권 온라인 사이트에서 간단히 온라인 구매를 할 수도 있구요. 1등 번호는 온라인 1명, 오프라인 1명 총 2명이 당첨될 수 있습니다. 자세한 복권 구조는 동행복권 홈페이지를 참고해 보시구요. 복권의 경우 통계를 공부해보신 분들께는 아주 친숙한 소재이실텐데요. (저는 아닙니다.ㅋㅋㅋ) 동행복권 사이트에.. 2024. 4. 13.