2021-04-09-Fri-StudyKR

» studyKR

GEO Diff

C

# include <sys/socket.h>
int setsockopt(int socket, int level, int option_name, const void *option_value, socklen_t option_len)
    //생성된 소켓에 속성값을 변경하는 함수

int getsockname(int socket, struct socketaddress *address, socketlength * addresslength)
    //socket descriptor 할당된 자신의 address(주소)를 얻습니다.

------------

RL

MDP를 모를 때 밸류 평가하기

보상함수와 전이 확률을 모른다.
1. Monte-Carlo
    작은 MDP를 다루기 때문에 테이블 룩업 방법론, 즉 테이블을 만들어서 테이블에 값을 기록해놓고
         그 값을 조금씩 업데이트하는 방식으로 진행된다.
    액션을 했을 때, 보상을 받음

    A. 테이블 초기화
        N(s) = s를 총 몇번 방문 했는가, 한번 방문할 때마다 1씩 더해준다
        V(s) = 해당 상태에서 경험했던 리턴의 총합을 기록
    B. 경험 쌓기
        s0,a0,r0,s1,a1,r1,s2,a2,r2....sT
    C. 테이블 업데이트
        모든 상태에 대해 업데이트
    D. 밸류 계산
        경험 쌓기와 테이블 업데이트를 충분히하고 
            각 상태의 밸류에 대한 근사치 
                = V(s) / N(s) = 리턴의 합 / 방문 횟수