차례:
- 감독 학습
- 실수는 벌칙이 추가 되었기 때문에 (비용, 시간 상실, 후회, 통증 등) 배움을 돕고, 어떤 코스가 다른 코스보다 성공 가능성이 적음을 알려줍니다. 보강 학습의 흥미로운 예가 컴퓨터가 비디오 게임을 직접 배우는 경우입니다. 이 경우, 응용 프로그램은 적을 피하면서 게이머가 미로에 갇히게하는 등 특정 상황의 예를 알고리즘에 제시합니다. 이 응용 프로그램은 알고리즘이 취하는 행동의 결과를 알 수있게하며, 학습이 위험하다는 것을 발견하고 생존을 추구하는 것을 피하면서 발생합니다. Google DeepMind가 오래된 Atari의 비디오 게임을 재생하는 보강 학습 프로그램을 어떻게 만들 었는지 살펴볼 수 있습니다. 비디오를 시청할 때 프로그램이 처음에는 어색하고 미숙 한 방법을 알아 차 리지 만 챔피언이 될 때까지 훈련을 통해 꾸준히 향상됩니다.
비디오: 공통역량 도출 프로세스 2024
감독 학습
- 감독되지 않은 학습
- 강화 학습
- 감독 학습
감독 학습
은 알고리즘이 예제를 통해 학습 할 때 발생합니다 새로운 예제가있을 때 올바른 응답을 나중에 예측하기 위해 숫자 값이나 클래스 또는 태그와 같은 문자열 레이블로 구성 될 수있는 데이터 및 관련 대상 응답 감독 방식은 실제로 교사의 감독하에 인간 학습과 유사합니다. 선생님은 학생이 암기해야 할 좋은 모범을 보여 주며, 학생들은이 구체적인 예에서 일반적인 규칙을 도출합니다.
무 감독 학습
는 알고리즘이 관련 응답없이 일반 예제에서 학습하여 알고리즘 자체에서 데이터 패턴을 결정하기 위해 알고리즘을 떠날 때 발생합니다. 이 유형의 알고리즘은 클래스 또는 새로운 일련의 상관되지 않은 값을 나타내는 새로운 기능과 같은 다른 데이터로 데이터를 재구성하는 경향이 있습니다. 그들은 인간에게 데이터의 의미에 대한 통찰력과 감독 된 기계 학습 알고리즘에 대한 새로운 유용한 입력을 제공하는데 아주 유용합니다.
강화 학습
강화 학습
은 무 감독 학습에서와 같이 레이블이없는 예제로 알고리즘을 제시 할 때 발생합니다. 그러나 알고리즘이 제안하는 솔루션에 따라 긍정적이거나 부정적인 피드백을 가진 예제를 동반 할 수 있습니다.강화 학습은 알고리즘이 결정을 내려야하는 응용 프로그램과 연결됩니다 (따라서 제품은 감독되지 않은 학습에서와 같이 설명이 아닌 규범 적입니다). 인간 세계에서 시행 착오를 통해 배우는 것과 같습니다.