IT/[Everyday]Coding39 gradient descent 와 stochastic gradient descent 차이 the difference between gradient descent (GD) and stochastic gradient descent (SGD) 간략하게 알아보겠다. 두가지 모두 parameter set을 error function이 가장 작아지도록 수정하는 것이다. 큰 차이점으로 먼저 GD(gradient descent)는 전체 샘플들을 반복적으로 업데이트(수정)한다.반면에 SGD(stochastic gradient descent)는 훈련 셋에서 하나의 샘플만을 반복적으로 업데이트 한다. 그래서 트레이닝 샘플이 커지게 되면 GD를 사용하는 것은 시간이 오래 걸리고 RAM에서 수용할 수 없게 될 수 도 있다. 왜냐하면 매번 iteration될 때마나 전체적인 셋을 계산하기 때문이다. 하지만 SGD는 .. 2014. 12. 19. 딥러닝_Neural Network_backpropagation neural network에서 에러를 줄이기 위해 지속적으로 weight와 bias를 학습한다. 이 전 글에서 weight를 optimizing 하는 방법으로 backpropagation 을 사용한다고 했다. backpropagation을 하기 전에 weight와 bias를 어떻게 조절하는지 알아보겠다. 그 방법으로 gradient descent algorithm을 사용한다고 한다. 여기서 gradient descent algorithm은 자세히 다루지 않겠다. inputs이 들어오고 weight와 bias 연산을 거쳐서 ouput이 나오게 된다. 우리는 알고있는 Desired 값과 Guessed 값을 비교해서 에러를 찾는다.*Desired 값: 이미 우리가 알고 있는 값 (나와야 하는 값)*Guesse.. 2014. 12. 19. 딥러닝_Neural Network_멀티 퍼셉트론 하나의 퍼셉트론에 여러개의 inputs을 받았다. 지금까지 본 것은 하나의 뉴런이라고 할 수 있다. 뉴럴 네트워크가 뜨는 이유는 이러한 뉴런이 여러개가 네트워크를 이루기 때문이다. 하지만 퍼셉트론에는 문제가 있는데 선형 구분가능(linearly separable)문제가 있다. 선형 구분 가능(linearly separable)은 다차원 공간에 분포한 두 집단이 하나의 다차원 평면(hyper plane)으로 구분 가능함을 의미한다. - d위키백과 선형 구분 가능한 문제선형 구분 불가능한 문제리니어 세퍼레이블 문제는 왼쪽에 보이는 그림과 같이 하나의 선으로 두 부분으로 구분할 수 있는 것이다. 하지만 오른쪽 그림과 같이 하나의 선으로는 white&black으로 구분할 수 없는 문제가 생긴다. (XOR pro.. 2014. 12. 19. 딥러닝_Neural Network_퍼셉트론3 지금까지 한 방법은 우리가 이미 알고 있는 답을 input값으로 뉴럴 네트워크에 넣고 값을 예측했다. 이러한 방법을 지도학습(supervised learning) 이라고 한다. 간단하게1. 지도학습(supervised learning): 우리가 이미 알고있는 훈련데이터로부터 뉴럴 네트워크가 이것을 정확하게 판별하는지 시도하는 것이다. 예를 들어, 얼굴인식으로 보면, 훈련데이터로 정확한 얼굴 모양과 이름 등 데이터를 가지고 뉴럴 네트워크를 학습시킨다. 그 후에 데이터를 넣어서 답을 구한다. 이 답이 가지고 있는 훈련데이터와 맞는지, 정확하게 예측했는지 아닌지를 판별한다. 그리고 에러를 조정하 나간다. 2. 자율학습(unsupervised learning): 이것은 우리가 알지 못하는 데이터들을 가지고 기계.. 2014. 12. 19. 이전 1 2 3 4 5 6 7 ··· 10 다음 반응형