전체 글 35

시계열은 처음이라 (제주도 특산물 가격 예측 AI 경진 대회)

이번 보아즈 미니 플젝2에 우리는 '제주도 특산물 가격 예측 AI 경진 대회'에 나갔다. 상위 10프로 가능했을거 같긴 한데 문턱에서 끊겼다. 그래도 새로운 것을 많이 알게 되어서 이 정도면 만족이다. 성능을 업그레이드 하기 위해 우리가 집중한 방식은 3가지에만 집중했다. 전처리 피처 엔지니어링 좋은 모델 사용 이 3가지에 집중했다. 그 중 많은 내용을 다 다룰 수 없으니, 핵심 idea인 피처 엔지니어링 ,전처리에 대해 요약해 볼 예정이다. 구성 1. 문제 정의 EDA -> 어떤 문제가 있는지? 2. 문제 해결 피처 엔지니어링 전처리 3. 추가로 무엇을 하려고 했는지? 모델 앙상블 (품목 별 학습 (xgb), 회사 별 학습(xgb), 전체 학습 앙상블. (autogluon timeseires)) Met..

서평: 1년 안에 AI 빅데이터 전문가가 되는 법 (심화편)

블로그에 작성할까 하다가, 데이터 분석 부분 책이니 티스토리에 작성한다. 이 책은 내가 데이터 분석을 처음 시작 했을 때 읽었던 책이다. 그땐 진짜 무슨 소린지 하나도 모르겠어서 대충 뭘 해야할지만 파악하고 덮었던 책인데, 다시 읽어보니 내용이 이해가 된다. 요즘 방향성을 자꾸 잃고, 무엇을 해야할지 진짜 감이 안 잡혀서 다시 읽어봤다. 2년 전 책이지만, 참고해서 로드맵을 세우면 좋을 거 같은 책이다. 추천 독자 - 데이터 분석을 이제 시작하는 분들 - 초급자 - 무엇부터 해야할지 모르겠는 분들 자격증, 수학 공부 방식, 딥러닝, 머신러닝 등등 로드맵을 한 눈에 볼 수 있다는 점이 정말 좋은 거 같다. 책을 보고 간단한 초보용 로드맵을 작성해봤다. 책에서는 더 많은 것들을 알려주지만, 그건 일단 이것들..

카테고리 없음 2023.11.03

결측치 leakage 없이 트리 예측 모델로 보간 (MICE 보간 사용 X)

얼마 전 범준이형과 함께 HD 현대 AI Challenge 대회에 나갔다. 초반에는 열심히 했지만, 후반에 여러 이슈들이 많아서 일주일동안 전혀 집중하지 못했다. 그래도 대회를 준비하는 과정 중 새롭게 알게 된 방식들이 많아 몇가지 작성한다. *수정 의료 데이터 셋 대회에서 알게 되었는데, 이미 사이킷런에 결측치들 쉽게 학습시키고 예측값으로 보간하는 방법이 있었음;; MICE 보간이라고 (나는 몰랐지.. ) CF. 참고 하세요 (MICE 보간) MICE imputation - How to predict missing values using machine learning in Python - Machine Learning Plus MICE Imputation, short for 'Multiple Imput..

데이콘 기본 ML 대회에서 알게 된 것들 (왕초보편)

얼마 전, 혼자 추석 동안 열린 데이콘 추석 맞이 추석 선물 수요량 예측 AI 경진 대회에 참여했다. 처음하는 대회여서 진짜 무엇을 해야할지 몰랐고, 공부하면서 ML에도 다양한 방식들이 많았다는 것들을 깨달았다. 추석때는 생각도 안하고 놀다가 마지막에 2일 정도 열심히 했는데, 시간 부족도 있었지만 기본적으로 내 실력이 너무 부족했다.. 총 351명 참여 중 PRIVATE 65등을 했다. 학습도 짧은 시간만 했고, 전처리도, 데이터에 대한 이해도도, 떨어져서 당연한 결과고 오히려 운이 좋았다고 생각한다. 다음 번 대회에는 조금 더 준비하여 상위 10퍼센트 찍으려고 할 것이다. 1. 내가 집중한 Point 2. 대회를 준비하면서 알게된 것 3. 대회 참여 중 알게된 유용 코드나 모델 (CSV 파일 처리, ..

2023 50회 SQLD 자격증 취득과 공부법 (꿀팁 많음)

한달 동안 티스토리 글을 못 올렸다.. 최근 자격증 준비도 그렇게 발제해야 할 부분도 너무 많고 여행 계획도 너무 많았다..(핑계긴 합니다..) 핑계는 여기까지 하고, 이번 글을 클릭한 이유가 분명히 자격증 취득을 목표로 하는 사람들이기 때문에 진짜 꿀팁들 많이 준비했으니까 끝까지 봐주세여:) 총점은 82 결과 전까지 예측할 수 없었는데, 붙어서 다행 ㅎㅎ서론 SQLD 자격증 공부는 약 3주 공부했다. 일정이 많아서 주말에는 공부를 못했고, 집중해서 효율적으로 전혀 하지 못했다. 약 13일정도 남았을때 부터 본격적으로 시작한 것 같다. (나올 부분만 공부한다면 2주도 가능할거 같긴하다.) 기존 ADsP처럼 효율적인 공부를 못했고, 막 공부를 해서 후회가 남는 시험이었다. 하지만 공부를 제대로 못했어도, ..

자격증 2023.09.12

Autoencoder

서론 최근에 보아즈 멘토 멘티 수업에서 U-Net 논문을 읽고 공부를 했다. 그리고 나서 Autoencoder 공부하니 이해가 더 잘되는 기분이다. (유사한 점이 많다.) 신기한게 vgg paper 논문 공부때도 그렇고, 정말 필요한 부분을 공부할 수 있고, 연관성 높은 부분이 많아서 정말 좋다. CV 분야는 이번에 처음 공부하는데, 재밌어서 미니 플젝도 CV한다. 보아즈 잘 들어간 듯 쨌든 이번 시간에는 Autoencoder에 대해 설명하겠다. 목차 Autoencoder 기본 개념 Autoencoder 사용 이유 Autoencoder 탐구 PCA와의 비교 먼저 결론부터 말하자면, 머신러닝 비지도 차원 축소 기법인 PCA와 유사점이 많다. (차원 축소를 목표) key point ! 를 살펴보자. 비지도 ..

딥러닝 2023.08.05

CNN(Convolutional Neural Network)

이번 시간에는 대표적인 cv 알고리즘인 CNN에 대하여 설명할 것이다. 최근에 보아즈 멘토 멘티 수업 중 vgg paper내용이 끝난 후, 함께 정리할겸 글을 작성해 보았다. 기초적인 내용들은 이미 충분한 자료가 많으니, 다루지 않을 것이고, 학습할때 한번쯤 지나쳤을만한 내용들을 위주로 설명을 하겠다. 먼저 목차부터 보자. 목차 CNN의 기본 구성 Convolution의 이해(receptive field, feature maps) max pooling FC layers(완전 연결망) 이렇게 구분할 수 있다. CNN의 기본 구성 CNN이전 ANN(Artificial neural network)부터 복습을 해보자. ANN: 가장 기본적인 인공 신경망이다. 나의 티스토리 글에 있는 내용 대부분이 이러한 인공 ..

딥러닝 2023.07.31

Difference of data sampling method (mini batch vs bagging model)

안녕하세요. 이번 시간에는 마지막 세번째 시간 mini batch와 bagging 알고리즘의 데이터 샘플링 방식의 차이를 공부하겠다. 신경망 학습을 하다가 비슷한듯 비슷하지 않은 미니 배치와 배깅알고리즘을 정리하면서, 다시 한번 샘플링 차이를 이해하는 시간이 되었다.. 목차는 다음과 같다.목차mini batch와 bagging 알고리즘데이터 샘플링 방식의 차이중심극한 정리와 배깅 알고리즘 bagging의 이해 배깅 알고리즘은 앙상블 알고리즘 중 하나이다. 모델링에서 배깅의 핵심 방식을 요약하면,부트스트래핑단일 알고리즘 적용보팅(hard or soft)이것으로 요약할 수 있다.전체 데이터(모집단) 중 중복을 허용한 뽑기(부트 스트래핑) 방식으로 여러개의 샘플 데이터들을 만든다.여러 개의 샘플 데이터의 서브..

딥러닝 2023.07.12

Loss function 정리(MAE, MSE, RMSE)

오늘도 저번 시간과 동일하게 Loss function을 정리하려고 한다. 저번 시간에는 분류에서 주로 사용되는 Cross - entropy와 Negative log likelihood loss에 대해 배웠다. cf. Loss function 정리 (Cross entropy, Negative log likelihood) 오늘은 Loss function에 대하여 학습을 진행할 것이다. Loss function으로 미분이 가능하게 만들어, 학습에 판단 지표로 만든다는 것은 알겠는데, 각각 무슨차이인지 몰랐다. 이번 학습을 통해 조금 더 l hyeong1197.tistory.com 이번에는 회귀에서 사용되는 MAE(mean absolute error), MSE(mean squared error), RMSE(Ro..

딥러닝 2023.07.12

Loss function 정리 (Cross entropy, Negative log likelihood)

오늘은 Loss function에 대하여 학습을 진행할 것이다. Loss function으로 미분이 가능하게 만들어, 학습에 판단 지표로 만든다는 것은 알겠는데, 각각 무슨차이인지 몰랐다. 이번 학습을 통해 조금 더 loss function에 가까워졌다. 추가로 미니 배치와 배깅 알고리즘을 정리하며 이해의 폭을 넓힐 예정이다. 전체 목차 MAE vs MSE vs RMSE Cross entropy vs Negatinve log likehood loss 미니 배치 vs 배깅 알고리즘 정리 세부 목차 최대 우도법? Negative log likelihood Cross entropy Negative log likelihood vs Cross entropy 최대 우도법(likelihood) 복잡한 수식보다 핵심적..

딥러닝 2023.07.10