2021-04-09-Fri-StudyKR
Apr 9, 2021
»
studyKR
GEO Diff
C
# include <sys/socket.h>
int setsockopt(int socket, int level, int option_name, const void *option_value, socklen_t option_len)
//생성된 소켓에 속성값을 변경하는 함수
int getsockname(int socket, struct socketaddress *address, socketlength * addresslength)
//socket descriptor 할당된 자신의 address(주소)를 얻습니다.
------------
RL
MDP를 모를 때 밸류 평가하기
보상함수와 전이 확률을 모른다.
1. Monte-Carlo
작은 MDP를 다루기 때문에 테이블 룩업 방법론, 즉 테이블을 만들어서 테이블에 값을 기록해놓고
그 값을 조금씩 업데이트하는 방식으로 진행된다.
액션을 했을 때, 보상을 받음
A. 테이블 초기화
N(s) = s를 총 몇번 방문 했는가, 한번 방문할 때마다 1씩 더해준다
V(s) = 해당 상태에서 경험했던 리턴의 총합을 기록
B. 경험 쌓기
s0,a0,r0,s1,a1,r1,s2,a2,r2....sT
C. 테이블 업데이트
모든 상태에 대해 업데이트
D. 밸류 계산
경험 쌓기와 테이블 업데이트를 충분히하고
각 상태의 밸류에 대한 근사치
= V(s) / N(s) = 리턴의 합 / 방문 횟수