[R코딩] 행렬에서 통계량과 각 원소의 편차 (sweep)
sweep 함수는 통계량과 각 원소의 차이를 반환해줍니다. 디폴트가 '차이'이고, 다른 계산값도 가능합니다. sweep(행렬, 방향, 통계량, FUN="-") FUN은 어떤 연산을 할지 결정합니다. 디폴트는 - 입니다. 각 원소에서 통계량을 빼는 것입니다. 예를 들어봅시다. 행렬을 하나 정의합시다. > m=matrix(1:12,3) > m [,1] [,2] [,3] [,4] [1,] 1 4 7 10 [2,] 2 5 8 11 [3,] 3 6 9 12 sweep 함수를 이용하여 각 원소에서 행렬의 최댓값을 빼봅시다. 이때는 방향이 따로 없기 때문에 1이나 2를 입력해도 결과가 동일합니다. > sweep(m,1,max(m)) [,1] [,2] [,3] [,4] [1,] -11 -8 -5 -2 [2,] -10 ..
2020. 12. 25.
[R코딩] 서브그룹 평균을 각 원소 값으로 반환 (ave)
사용 형식 : ave(종속변수, 독립변수(범주형)) 반환 결과 : 벡터 아래와 같은 데이터프레임이 있다고 합시다. A,B,C 반 학생의 수학점수입니다. > dt=data.frame(score=c(75,73,79,83,85,92,99,100,72,83),class=c('A','A','A','B','B','B','C','C','C','C')) > dt score class 1 75 A 2 73 A 3 79 A 4 83 B 5 85 B 6 92 B 7 99 C 8 100 C 9 72 C 10 83 C 각 반별로 따로 평균을 구하고, 각 값을 해당 평균값으로 바꾸고 싶습니다. 이럴 경우 사용하는 함수가 ave 함수입니다. > ave(dt$score,dt$class) [1] 75.66667 75.66667 75...
2020. 12. 25.
[R코딩] 서브그룹의 통계량을 구해주는 by 함수
사용 형식 : by(종속변수, 범주형 독립변수, 적용함수) 출력 결과 : by형 객체 아래와 같은 데이터프레임이 있다고 합시다. A,B,C 반 학생의 수학점수입니다. > dt=data.frame(score=c(75,73,79,83,85,92,99,100,72,83),class=c('A','A','A','B','B','B','C','C','C','C')) > dt score class 1 75 A 2 73 A 3 79 A 4 83 B 5 85 B 6 92 B 7 99 C 8 100 C 9 72 C 10 83 C 각 반별로 따로 평균을 구하고 싶다고 합시다. 이런 경우 사용하는 함수가 by 함수입니다. 아래와 같이 사용합니다. > by(dt$score,dt$class,mean) dt$class: A [1] ..
2020. 12. 25.
[R코딩] 서브그룹의 통계량을 구해주는 aggregate 함수
사용 형식 : aggregate(종속변수, by=범주형 독립변수, 적용함수) 출력 결과 : 데이터프레임 범주형 독립변수는 리스트 형태로 입력합니다. 예를 들어봅시다. 아래와 같은 데이터프레임이 있다고 합시다. A,B,C 반 학생의 수학점수입니다. > dt=data.frame(score=c(75,73,79,83,85,92,99,100,72,83),class=c('A','A','A','B','B','B','C','C','C','C')) > dt score class 1 75 A 2 73 A 3 79 A 4 83 B 5 85 B 6 92 B 7 99 C 8 100 C 9 72 C 10 83 C 각 반별로 따로 평균을 구하고 싶다고 합시다. 이런 경우 사용하는 함수가 aggregate 함수입니다. 아래와 같이 ..
2020. 12. 25.
[R] apply/ lapply/ sapply/ tapply/ mapply 함수 한눈에보기
함수이름 예시 역할 apply apply(x,1,mean) - 행렬, 배열, 데이터프레임에 사용 - 행방향 또는 열방향으로 함수 일괄 적용 lapply lapply(x,mean) - 리스트에 적용 - 리스트 형태로 결과 반환 - 행렬, 벡터에도 적용가능한데 의미는 없음 sapply sapply(x,mean) - 리스트에 적용 - 행렬 형태로 결과 반환 - 행렬, 벡터에도 적용가능한데 의미는 없음 tapply tapply(vec,fac,mean) - 입력된 벡터를, 요인 수준에 따라 함수 적용 mapply mapply(rep,times=4,li) - 사용할 함수의 input이 여러개인 경우 사용 - 나머지는 sapply 와 동일(리스트에적용) - 행렬, 벡터에도 적용가능한데 의미는 없음 1. apply 함..
2020. 12. 24.
[R코딩] 한 벡터를 정렬 할 때, 그 순서로 다른 벡터 정렬하기
한 벡터를 크기 순으로 정렬할 때, 연관된 다른 벡터도 함께 정렬해야하는 경우 사용하는 방법입니다. 예를들어봅시다. X는 수학점수, Y는 사람이름이라고 합시다. X=c(62,82,95,51) Y=c("tim","marry","kate","bob") X를 내림차순으로 정렬할 때, Y도 X를 따라 정렬되게 하고 싶은 상황입니다. sort 함수에 index.return 옵션을 TRUE로 설정하면 아래 값이 반홥됩니다. > sx=sort(X,decreasing=TRUE,index.return=TRUE) > sx $x [1] 95 82 62 51 $ix [1] 3 2 1 4 ix는 기존의 index가 정렬 된 후 어느 위치에 오게되었는지를 알려줍니다. 이 index를 이용하여 두 함수를 정렬합시다. 우리가 의도한..
2020. 12. 22.
[R코딩] 행렬을 열 방향으로 연결 (cbind)
R행서 행렬을 열 방향(좌->우)으로 연결할 때는 cbind함수를 사용합니다. 두 행렬이 열방향으로 연결되려면 두 행렬의 행의 크기가 같아야합니다. 두 행렬을 정의해봅시다. > m1=matrix(1:6,2) > m1 [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 > m2=matrix(1:4,2) > m2 [,1] [,2] [1,] 1 3 [2,] 2 4 cbind 함수를 이용하여 연결해봅시다. > cbind(m1,m2) [,1] [,2] [,3] [,4] [,5] [1,] 1 3 5 1 3 [2,] 2 4 6 2 4
2020. 12. 21.
[R코딩] 행렬을 행 방향으로 연결 (rbind)
두 행렬을 행 방향(위->아래)으로 연결할 때는 rbind 함수를 사용합니다. 두 행렬을 정의해봅시다. 행 방향으로 연결하려면 두 행렬의 열의 크기가 같아야 합니다. > m1=matrix(1:6,2) > m1 [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 > m2=matrix(1:9,3) > m2 [,1] [,2] [,3] [1,] 1 4 7 [2,] 2 5 8 [3,] 3 6 9 rbind 함수를 이용하여 연결해봅시다. > rbind(m1,m2) [,1] [,2] [,3] [1,] 1 3 5 [2,] 2 4 6 [3,] 1 4 7 [4,] 2 5 8 [5,] 3 6 9
2020. 12. 21.
[R기초] 매칭된 원소를 찾는 match 함수
아래와 같은 두 벡터가 있습니다. A=c(20,40,100) B=c(10,20,30,40,50,60) A에 들어있는 원소가 B에 있는지 확인해봅시다. 20 -> B의 두번째 자리 40 -> B의 네번째 자리 100 -> B에 없음 위와 같은 연산을 하는 함수가 있습니다. match 함수입니다. 사용해봅시다. > A=c(20,40,100) > B=c(10,20,30,40,50,60) > match(A,B) [1] 2 4 NA
2020. 12. 20.
[R 코딩] 리스트를 데이터프레임으로 만드는 stack 함수
stack 함수를 이용하면 리스트를 데이터프레임으로 만들 수 있습니다. 왜 리스트를 데이터프레임으로 바꾸는지, 어떻게 바뀌는지는 예제를 통해 이해할 수 있을것입니다. 단, 벡터나 factor가 들어있는 리스트만 가능합니다. 예를들어 한국,미국,영국 세 나라에서 다섯사람씩 모였고 이들의 나이를 리스트레 저장했다고 합시다. > li=list(kor=c(23,42,66,36,72),us=c(11,16,25,66,73),uk=c(16,5,34,25,12)) > li $kor [1] 23 42 66 36 72 $us [1] 11 16 25 66 73 $uk [1] 16 5 34 25 12 위 리스트에 stack 함수를 적용한 결과는 아래와 같습니다. > stack(li) values ind 1 23 kor 2 4..
2020. 12. 16.
[R코딩] 여러 값을 갖는 시계열 생성 (다변량 시계열)
날짜별로 복수의 값을 갖는 시계열을 생성하는 방법입니다. 행렬을 이용하여 정의하면 됩니다. 먼저 행렬을 하나 정의합시다. > mat=matrix(rnorm(30),10,3) > mat [,1] [,2] [,3] [1,] -0.176291735 0.3323575 -0.6542597 [2,] -0.928060332 -0.5374235 0.7382477 [3,] -0.003182761 1.7133234 0.9095766 [4,] 1.459855751 -1.0273686 1.7733747 [5,] 0.057111027 -2.1042541 0.7851097 [6,] -0.411653367 0.5216750 1.4261827 [7,] -0.381249441 -1.0180405 -1.0944751 [8,] -0.18..
2020. 12. 13.