본문 바로가기

데이터사이언스6

딥러닝 | VGGNet 논문 리뷰 VGGNetVGGNet(Visual Geometry Group Network)은 2014년 1000개의 이미지 클래스를 분류하는 이미지넷 이미지 인식 대회에서 준우승을 한 모델입니다. 옥스포드 대학의 연구팀 VGG에 의해 개발되었다고 하는데요. 이번 포스팅에서는 VGGNet 논문에서 중요한 내용을 살펴보고 직접 코드화하는 과정을 정리해 작성해 보겠습니다.논문 링크 : https://arxiv.org/pdf/1409.1556VGG의 핵심 장점은 다음과 같습니다.1. convolution의 depth를 깊게 구성2. 연산량을 획기적으로 줄여 좋은 성능 확보3. 깊은 레이어 구조를 통해 Activation function을 여러 번 집어넣어서 비선형성을 더 많이 확보왜 이런 장점이 있는지 논문 내용과 함께 살.. 2024. 5. 30.
ML | 캐글 Kaggle 신용카드 데이터 EDA + 모델링 실습 오늘 포스팅에는 유명한 Kaggle 신용카드 사기 감지 데이터셋(Credit Card Fraud Detection)을 가지고 데이터 전처리/분석/머신러닝을 하는 과정을 기록할 것입니다. 데이터 EDA를 진행하고 적절한 전처리를 해준 후 머신러닝 모델링을 수행하고 성능 지표를 비교하는 일련의 과정을 전부 담을 예정인데요, 의식의 흐름대로 작성할 예정이라 중간 중간 Tmi도 많고 삽질하는 내용까지도 필터링 없이 기록할 것임을 미리 알려드립니다. 1. 데이터 불러오기, 컬럼/결측치/데이터 타입 확인https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud/data Credit Card Fraud DetectionAnonymized credit card transacti.. 2024. 5. 10.
ML | 파이썬 scikitlearn XGBoost 래퍼 클래스 - XGBoostClassifier 사이킷런의 프레임워크와 연동할 수 있는 전용 XGBoost 래퍼 클래스에는 분류용 XGBoostClassifier, 회귀용 XGBoostRegressor이 있습니다. 래퍼 클래스는 다음과 같은 장점을 가지고 있습니다.사이킷런의 기본 estimator를 그대로 상속해 만들었기 때문에 fit()과 predict()만으로 학습과 예측이 가능합니다.GridSearchCV, Pipeline 등 다른 사이킷런의 다른 유틸리티를 그대로 함께 사용할 수 있습니다.기존의 다른 프로그램의 알고리즘으로 XGBoost 래퍼 클래스를 사용할 수도 있습니다. https://smartest-suri.tistory.com/40 ML | 파이썬 XGBoost API 사용하여 위스콘신 유방암 예측하기XGBoost란?트리 기반의 앙상블.. 2024. 5. 8.
ML | 파이썬 XGBoost API 사용하여 위스콘신 유방암 예측하기 XGBoost란?트리 기반의 앙상블 학습에서 가장 각광받고 있는 알고리즘 중 하나로, 캐글(kaggle) 등 경연 대회에서 입상한 많은 데이터 사이언티스트들이 XGboost를 사용하면서 널리 알려지게 되었습니다. 대체로 분류에 있어서 뛰어난 예측 성능을 보이는 특징을 가지고 있습니다. XGboost는 GBM에 기반하고 있는데요. GBM보다 빠르게 학습이 가능하고 오버핏팅 규제 부재 문제 등을 해결한다는 장점이 있다고 합니다. 그 밖에도 Tree pruning이 가능하여 더 이상 긍정 이득이 없는 분할을 가지치기 해서 분할 수를 더 줄이는 추가적인 장점, 자체 내장된 교차 검증 기능, 결손값을 자체 처리할 수 있는 기능 등의 장점도 가지고 있습니다. XGBoost API 학습을 위해 위스콘신 유방암 데이터.. 2024. 5. 8.
EDA | 서울특별시 공중화장실 02 _ 태블로를 이용해 시각화하기 지난 글에서 서울특별시 공중화장실 공중데이터를 판다스 데이터프레임으로 만들고 간단히 정제작업을 해 보았는데요. 정제한 데이터프레임을 가지고 태블로를 이용해서 아주 간단히만 시각화 작업을 진행해 보았습니다. 대시보드 구성 방법 서울시의 25개 구별 공중화장실 수 합계를 계산하여 그 수를 비교할 수 있도록 시각화했습니다. 대시보드의 왼쪽에는 지도를 배치하여 화장실의 수를 원의 크기와 색깔로 직관적으로 파악할 수 있도록 구성했습니다 지도를 확대하면 보이지 않는 레이블을 모두 확인할 수 있어요. 화장실 수가 많을수록 원의 크기가 큽니다. 화장실 수가 많을수록 원의 색깔이 진합니다. 대시보드의 오른쪽에는 가로막대그래프를 배치하여 수치별로 좀더 직관적인 비교가 가능하도록 구성했습니다. 오른쪽의 비교 파라미터를 이용.. 2024. 4. 17.
세미나 리뷰 | 심장과 혈관 의학 분야에서의 인공지능과 데이터과학(Mayo Clinic 이은정) 주제 : 심장과 혈관 의학 분야에서의 인공지능과 데이터과학 일시 : 2024년 4월 4일 (목) 20:00 - 21:10 강사 : 미국 Mayo Clinic 이은정 서론 4월 4일 목요일 Zoom을 이용한 실시간 화상 온라인 방식으로 진행된 이은정 강사님의 세미나에 참여했습니다. 이은정 강사님께서는 서울대학교에서 석박사 과정을 마치신 뒤 미국에서 가장 큰 병원 중 하나인 Mayo Clinic에서 Senior Data Science anlayst로 계시면서 다양한 의학 인공지능 모델을 개발하고 데이터과학을 연구하고 계신 멋진 분이셨습니다. 저는 현재 고려사이버대학교에서 최대영 교수님의 빅데이터 개론 수업을 듣고 있는데, 교수님께서 본 세미나에 참가할 수 있도록 초대해 주신 덕분에 좋은 기회로 참여할 수 .. 2024. 4. 5.