일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- yolo
- TCP
- Faster R-CNN
- yolov3
- 서포트벡터머신이란
- pytorch project
- SVM 이란
- Object Detection
- RCNN
- 논문분석
- SVM margin
- cs231n lecture5
- self-supervision
- support vector machine 리뷰
- svdd
- CS231n
- Deep Learning
- pytorch
- darknet
- Computer Vision
- EfficientNet
- DeepLearning
- 데이터 전처리
- fast r-cnn
- computervision
- CNN
- cnn 역사
- pytorch c++
- SVM hard margin
- libtorch
- Today
- Total
목록전체 글 (94)
아롱이 탐험대
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다 Linear Classification SVM (Support vector Machine)은 binary classifier를 만드는 것이 목적이다. 각 알고리즘마다 분류를 만드는 절차가 다르기 때문에 아래 예시와 같이 경계면의 형태가 다르다. 우리가 아는 NN은 비선형 분류다. 오늘 알아볼 SVM은 기본적으로 선형 모형이다. $$ S=((x_{1} ,y_{1}), ..., (x_{n}, y_{n}))\in X \times \{-1,+1\} $$ 학습 데이터 $X$는 i.i.d.이고, 샘플링 되었다고 가정한다. 우리는 $n$개의 데이터 셋을 가지고 있고, binary classification..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. Kernel-based learning의 기본적인 개념에 대해 알아보자. Shatter 만약 2차원 평면에 점이 1개가 있다고 하자. 기준선을 기준으로 왼쪽이면 흰색, 오른쪽이면 파란색이라고 하면 점 1개는 아래와 같이 총 2가지 경우의 수를 갖는다. 만약 점이 2개라고 하면 다음과 같은 경우의 수를 갖는다. 모두 파란색, 흰색 또는 각 흰색, 파란색 총 4개의 가짓수를 갖는다. (모든 점은 독립) 점이 3개면 다음과 같이 8개의 경우로 나눌 수 있다. 만약 점 4개면 어떻게 될까? 점이 4개인 경우에는 xor problem으로 인해 직선 1개로는 분류를 할 수 없다. Shatter를 할 수..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. Isolation Forest Isolation forest의 motive는 기본적으로 이상치 데이터는 소수의 데이터로 구성이 되어있다고 생각하고, 이 데이터들은 특정한 속성 값들이 정상 범주의 데이터보다는 매우 다른 속성 값들을 가질 것이라는 가정을 하고 있다. 따라서 input data에 대해 isolation을 할 수 있는 tree를 만들 수 있다면, 이상치 데이터는 isolation이 쉬울 것이고, 정상 데이터는 isolation을 시키는 것이 어려울 것이다. 위 plot에서 파란색 $x_{i}$는 정상 데이터이고, $x_{0}$는 이상치 데이터이다. 우리는 각 데이터를 고립시키는 트..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. SNE (Stochastic Neighbor Embedding) SNE에서는 local distance를 보존하는 것이 local이 아닌 객체에 대한 distance보다 중요하는 것이 핵심이다. LLE에서는 정해진 개수의 이웃들 간의 weight를 찾고, 이를 저 차원으로 축소하였다. LLE에서는 이웃의 변화가 없었다. SNE에서는 객체 두 쌍의 거리가 local인 것을 확률적으로 결정한다. 이 말은 가깝게 있는 객체뿐만이 아니라, 조금 더 멀리 있는 객체들도 확률적으로는 낮을 뿐이지 뽑힐 수도 있다는 것이다. 1개의 data point가 다른 data point를 이웃으로 뽑는 것을 확률로..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. ISOMAP ISOMAP은 MDS 절차 중 변환 이전에만 다른 알고리즘이다. PCA와 MDS는 계산적으로 효율적이고, global optima를 찾을 수 있다. 하지만 선형 방법론의 단점 중 하나는 원래 데이터가 선형이 아니면 데이터를 파악하기가 힘들어진다. 만약 MDS나 PCA를 적용하면 3차원에서 최단 거리를 사용하기 때문에 부정확하다. 이 말은 선형 알고리즘을 사용하면 A에서 점선과 같이 부정확한 distance를 찾는다는 뜻이다. 우리는 청록색 직선과 같은 결과를 원한다. 이를 하려면 A에서 B로 graph 형태로 변환한다. 그리고 나서 가까운 이웃들을 따라가다 보면 목적지에 도달하게..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. MDS의 목적은 D차원 공간 상에 객체들이 존재할 때, 이 객체들의 distance가 저차원에서도 최대한 많이 보존되도록 하는 축을 찾는 것이다. MDS에서 데이터들의 특징은 개별적인 객체들의 거리이고, 이 거리들을 보존하는 것이 최종 목표이다. PCA vs MDS 1. Data PCA는 다차원에 존재하는 $N$개의 object가 데이터이다. $(N \times D)$ MDS는 해당하는 객체들 사이의 유사도 또는 비 유사도를 측정할 수 있는 지표가 데이터이고, 이는 $N \times N$ metrix로 구성된다. 2. Purpose PCA는 원 데이터의 분산을 최대한 보존하는 bases를 찾..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. 차원 축소의 목적은 특정한 머신 러닝 모델을 만들기 위해 특성을 보존하면서 compact 한 데이터를 유지하는 것이다. 이전 챕터까지는 변수 선택에 대해 알아보았고, 이번 챕터부터는 변수 추출에 대해 알아보자. 변수 추출의 목적은 데이터의 속성을 최대한 보존하는 방향으로 새로운 변수들을 생성하는 것이다. 주성분 분석의 목적은 서로 직교하는 기저를 찾는 것이다. 즉, 원 데이터의 분산을 최대한 보존하는 기저를 찾는 것에 초점을 잡는다. 주성분 분석을 하면 원 데이터보다 차원은 무조건 작아져야 한다. 위 그림과 같이 만약 데이터가 있고, PC (Principal Component)가 2개라고 할..
본 포스트는 고려대학교 산업경영공학부 강필성 교수님의 Business Analytics 강의를 정리한 내용입니다. Meta-heuristic 유전 알고리즘은 이전 FS, BE, SS 알고리즘보다는 시간이 조금 더 소요되지만, 성능은 더 높다. 이 알고리즘은 meta-heuristic 기반이고, 이는 굉장히 복잡한 문제들에 대해 trial과 error를 해결해가면서 효율적으로 solution을 찾는다. 이 접근법을 기반으로 만들어진 알고리즘은 neural network, ant colony algorithm, particle swarm optimization 등이 있다. 이러한 알고리즘들은 자연에서 motive가 되어 연구되었다. Genetic Algorithm 유전 알고리즘에서 가장 중요한 3가지 ste..