Python/코딩 실습 9

시계열은 처음이라 (제주도 특산물 가격 예측 AI 경진 대회)

이번 보아즈 미니 플젝2에 우리는 '제주도 특산물 가격 예측 AI 경진 대회'에 나갔다. 상위 10프로 가능했을거 같긴 한데 문턱에서 끊겼다. 그래도 새로운 것을 많이 알게 되어서 이 정도면 만족이다. 성능을 업그레이드 하기 위해 우리가 집중한 방식은 3가지에만 집중했다. 전처리 피처 엔지니어링 좋은 모델 사용 이 3가지에 집중했다. 그 중 많은 내용을 다 다룰 수 없으니, 핵심 idea인 피처 엔지니어링 ,전처리에 대해 요약해 볼 예정이다. 구성 1. 문제 정의 EDA -> 어떤 문제가 있는지? 2. 문제 해결 피처 엔지니어링 전처리 3. 추가로 무엇을 하려고 했는지? 모델 앙상블 (품목 별 학습 (xgb), 회사 별 학습(xgb), 전체 학습 앙상블. (autogluon timeseires)) Met..

결측치 leakage 없이 트리 예측 모델로 보간 (MICE 보간 사용 X)

얼마 전 범준이형과 함께 HD 현대 AI Challenge 대회에 나갔다. 초반에는 열심히 했지만, 후반에 여러 이슈들이 많아서 일주일동안 전혀 집중하지 못했다. 그래도 대회를 준비하는 과정 중 새롭게 알게 된 방식들이 많아 몇가지 작성한다. *수정 의료 데이터 셋 대회에서 알게 되었는데, 이미 사이킷런에 결측치들 쉽게 학습시키고 예측값으로 보간하는 방법이 있었음;; MICE 보간이라고 (나는 몰랐지.. ) CF. 참고 하세요 (MICE 보간) MICE imputation - How to predict missing values using machine learning in Python - Machine Learning Plus MICE Imputation, short for 'Multiple Imput..

데이콘 기본 ML 대회에서 알게 된 것들 (왕초보편)

얼마 전, 혼자 추석 동안 열린 데이콘 추석 맞이 추석 선물 수요량 예측 AI 경진 대회에 참여했다. 처음하는 대회여서 진짜 무엇을 해야할지 몰랐고, 공부하면서 ML에도 다양한 방식들이 많았다는 것들을 깨달았다. 추석때는 생각도 안하고 놀다가 마지막에 2일 정도 열심히 했는데, 시간 부족도 있었지만 기본적으로 내 실력이 너무 부족했다.. 총 351명 참여 중 PRIVATE 65등을 했다. 학습도 짧은 시간만 했고, 전처리도, 데이터에 대한 이해도도, 떨어져서 당연한 결과고 오히려 운이 좋았다고 생각한다. 다음 번 대회에는 조금 더 준비하여 상위 10퍼센트 찍으려고 할 것이다. 1. 내가 집중한 Point 2. 대회를 준비하면서 알게된 것 3. 대회 참여 중 알게된 유용 코드나 모델 (CSV 파일 처리, ..

[1일 1 캐글] 군집화 실습 - Customer Segmentation(with 파이썬 머신러닝 완벽가이드)

이번 시간에는 Online Retail Data Set 데이터를 갖고 고객 세그먼테이션 정의와 기법을 통해 군집화 실습을 진행할까 한다. 파이썬 머신러닝 완벽 가이드에 있는 내용을 참고하긴 했지만, 전반적인 코드 보지 않고 내가 직접 구현했기 때문에 비효율적일 수 있다. 목차 data exploration data preprocessing R, F, M Application data scaling kmeans Evaluation 1. 데이터 탐색과 전처리(exploration, preprocessing) 먼저 데이터 셋을 불러온다 1 StockCode : 제품 코드 2 Description : 제품 설명 3 Quantity : 주문 제품 건수 4 InvoiceDate: 주문 일자 5 UnitPrice :..

[1일 1 캐글] 당뇨병 위험 분류 예측 경진대회(데이콘) EDA 분석 part1

정형 데이터 마이닝 방법이고 분류 방법을 이용한다. 데이터를 확인해보자. Pregnancies : 임신횟수 Glucose : 포도당 농도 BloodPressure : 혈압 SkinThickness : 피부두께 Insulin : 인슐린 BMI : 체질량지수 DiabetesPedigreeFunction : 당뇨병 혈통 기능 Age : 나이 Outcome : 당뇨병 여부(0: 발병되지 않음, 1: 발병) df.info()를 확인한 결과 결측값이 없음을 알았다. EDA 탐색적 데이터 분석(시각화) 먼저 ID칼람은 index와 비슷한 값을 가지고 의미 없으니 삭제한다. 1. df.columns을 이용하여 데이터 프레임의 칼람들만 뽑는다. 2. 이후 리스트로 만들어 나중에 시각화를 위해 for문을 사용할때 수월하게..

[1일 1 캐글] Default of Credit Card Clients Dataset, PCA 이용

1일 1 캐글 프로젝트 첫 날이다. 첫날은 간단한 것부터 시작하려고 한다. 위의 데이터에서 상관 분석을 통해 상관 관계를 시각화 하고, 그것을 바탕으로 상관도가 높은 부분은 PCA분석으로 차원을 축소하려고 한다. 목차 데이터 간단 탐색 상관 분석(with sns 히트맵) 차원축소, PCA(ADsP 내용 복습) 모델 성능 평가 먼저 데이터 셋을 로드한다. 많지 않아 보이겠지만 칼람만 25개이다. 먼저 ID는 불필요해 보이니, 제거를 한다. 이후 drop함수를 이용하여 타겟과 피처들을 나눈다. (tip ! : X_features예시와 같이 데이터 프레임에서 타겟값만 drop하고, inplace = False로 지정하면 쉽게 분리할 수 있다.) 그리고 피처의 이름이 너무 복잡하여 헷갈린다. 이름을 알아보기 쉽..

1일 1 캐글 프로젝트 시작(feat. 머신러닝)

머신러닝 분류와 회귀에 대해 어느정도 알게 됐다. 그래도 아직 진짜 많이 부족하다.. 머신러닝 강의와 책을 통해 어느정도 습득을 했는데, 더욱 실력을 업그레이드 하는 방안이 필요했다. 이론만 알고 실제 코드 구현은 어려웠다. 그래서 작은 실습 문제여도 매일 당분간은 1일 1캐글 문제를 분석할 생각이다. 매일 티스토리에 글을 작성하지는 못하겠지만 주기적으로 방문하여 현재 상황을 기록해야겠다. 혹시나 보시다가 틀리거나 더 좋은 방향이 있으면 다양한 피드백을 해주시길 바란다.

[Pandas 데이터 전처리 100문제 실습] (Grouping part) #44~55

저번 Pivot에 이어서 오늘은 판다스 전처리 Grouping에 대한 문제를 풀어보려고 한다. 문제를 제공해 주시는 분은 동일하게 Data Manin분의 데이터 학습 자료를 이용하겠다. (앞서 피벗 테이블에 대해 배웠다. 동일하게 그룹바이도 하나의 데이터 프레임이다. 식이 길어 어렵게 느껴지지만, 피벗과 동일하게 하나씩 인자를 정해주면 쉽게 해결 할 수 있을거 같다.) Grouping 문제풀이 [사용 데이터: 뉴욕 airBnB : https://www.kaggle.com/ptoscano230382/air-bnb-ny-2019 DataUrl = ‘https://raw.githubusercontent.com/Datamanim/pandas/main/AB_NYC_2019.csv’] #44 문제풀이: 실행 전에 ..

[Pandas 데이터 전처리 100문제 실습] (Pivot part) #83~86

이번 카테고리는 데이터 분석 중 80%시간 과정을 차지하는 판다스 데이터 전처리 연습을 할 것이다. 시작 전, 구글링을 통해 전처리 100문제를 올려놓은 좋은 사이트를 들어간다. (제 자료는 아니고, DataManin분께서 직접 만드신 자료입니다.) 이번 전처리 100문제 실습 파트에서는 위의 링크에서 문제들을 직접 풀어보고, 설명하는 내용이 될 거 같다. 코딩을 잘하지 않아서, 비효율적이고, 오류가 발생할 수 있으니, 직접 링크를 들어가서 공부하는 것을 추천한다. 먼저, 최근에 배운 Pivot에 대한 문제를 먼저 풀겠다. Pivot 문제 풀이 [사용 데이터 : 국가별 5세이하 사망비율 통계 : https://www.kaggle.com/utkarshxy/who-worldhealth-statistics-2..