insert, update, delete를 수행할 경우 row단위로 묶어서 빠르게 처리를 해줄 수 있어서 효율적이다. 반면 모든 사람의 평균 나이처럼 특정 컬럼에 대한 집계가 필요한 경우는 필요없는 컬럼에 대한 read도 하게 되므로 비효율적이다.
즉, rowstore는 OLTP에 좀 더 적합하다.
colomnstore는 다음과 같이 열 단위로 저장하는 것을 말한다.
Jho
Kim
Park
male
male
female
27
29
30
seoul
특정 컬럼(들)에 대한 집계가 필요할 시 필요한 컬럼들이 담긴 디스크 블록들만 읽을 수 있으므로(즉 disk I/O가 감소) 효율적이다. 또한 각 블록들이 가지고 있는 값들은 같은 타입이기 때문에 큰 압축률을 기대할 수 있다는 장점도 있다. 반면 insert, update, delete 수행시 적절한 위치를 찾기 위해 모든 데이터를 순회하므로 비효율적이다. 예를 들어, insert를 할 경우 새로운 레코드의 각 컬럼 값들이 삽입될 적절한 위치를 찾는 과정이 필요하다.
이때, 현재 members, sales, menu에 다음과 같이 데이터들이 적재돼있다고 하자.
1. members
2. sales
3. menu
주어진 문제
각 고객들이 구입한 첫 물건은?
sales 테이블에는 각 회원들이 특정 물품을 구입한 날에 대한 데이터들이 적재돼있으니, 이 테이블에서 적절한 쿼리를 활용해볼 수 있을 것이다. 이 때 처음 물품을 구매한 날짜에 여러 물품을 구매했다면, 해당 물품들의 정보를 모두 출력해야 한다.
풀이1 : GROUP BY를 활용한 접근
sales테이블에 있는 구매한 물품들에 대한 상세정보는 sales와 menu의 product_id들을 INNER JOIN을 걸어 알아낼 수 있다. 그러나 회원별로 가장 처음 구매한 물품들에 대한 정보만 필요하다. sales에서 customer_id로 GROUP BY를 걸고, 그 안에서 MIN함수를 통해 가장 낮은 order_date를 뽑아내면 다음과 같이 회원별로 물품을 처음 구매한 날짜를 추출할 수 있다.
SELECT customer_id, min(order_date)
FROM sales
GROUP BY customer_id;
위 결과를 WHERE절에서 활용, sales테이블에서 다음과 같이 회원별로 해당 날짜에 대한 데이터들을 추출 가능하다.
SELECT *
FROM sales
WHERE (customer_id, order_date) in (
SELECT customer_id, min(order_date)
FROM sales
GROUP BY customer_id
);
그러나 위 결과에서 4, 5번 레코드를 보면 중복되는 레코드들임을 알 수 있다. C는 2021년 1월 1일에 3번 물품을 2번 구매했기 때문에 이런 결과가 생기는 것이다. 따라서 다음과 같이 DISTINCT를 걸어줘서 중복을 제거할 수 있다.
✅ DISTINCT
: SQL에서 중복된 값을 제거하여 결과 집합에서 고유한 값을 반환하는 데 사용되는 키워드. DISTINCT 뒤에 2개 이상의 컬럼을 사용하면, 해당 컬럼들로 구성되는 조합들에 대한 중복을 제거하는 식으로 동작한다.
(즉, 아래 예제에서는 customer_id, order_date, product_id로 이뤄지는 조합에서 중복이 없어진다)
SELECT DISTINCT customer_id, order_date, product_id
FROM sales
WHERE (customer_id, order_date) in (
SELECT customer_id, min(order_date)
FROM sales
GROUP BY customer_id
);
이제 menu와 INNER JOIN을 걸어 다음과 같이 처음 구매한 물품의 상세정보를 뽑아낼 수 있다.
SELECT DISTINCT customer_id, order_date, sales.product_id, product_name, price
FROM sales
INNER JOIN menu ON sales.product_id = menu.product_id
WHERE (customer_id, order_date) in (
SELECT customer_id, min(order_date)
FROM sales
GROUP BY customer_id
);
쿼리를 좀만 다듬으면(사실 SELECT절에서 필요한 정보만 뽑도록 하면), 다음과 같이 회원 아이디와 상품명만 추출 가능하다.
SELECT DISTINCT customer_id, product_name
FROM sales
INNER JOIN menu ON sales.product_id = menu.product_id
WHERE (customer_id, order_date) in (
SELECT customer_id, min(order_date)
FROM sales
GROUP BY customer_id
);
풀이 2 : PARTITION BY를 이용한 접근
그러나 이 문제는 PARTITION BY를 이용해서도 풀 수 있다.
✅ PARTITION BY?
: 특정 그룹 내에서의 집계 또는 순위를 매길 때 사용하는 함수.
(집계함수 : MIN, MAX, SUM 등을 말함)
(순위함수 : ROW_NUMBER, RANK 등을 말함)
🧐 GROUP BY와의 차이점?
: GROUP BY, PARTITION BY 모두 특정 컬럼을 기준으로 레코드들을 그룹핑한다는 공통점이 있다. 그러나 GROUP BY는 그룹핑되는 과정에서 레코드들의 상세 정보들이 없어지는 반면(레코드들이 집약되기 때문), PARTITION BY는 그룹핑돼도 레코드들의 상세 정보가 남아있게 된다.
sales테이블에 대해 회원별로 구매 횟수를 알고 싶다고 할 때, GROUP BY와 PARTITION BY에 대한 다음 결과를 비교해보면 더욱 잘 이해할 수 있다.
1) GROUP BY로 그룹핑해서 계산하는 경우
SELECT customer_id, count(*) as purchased_count
FROM sales
GROUP BY customer_id;
sales 테이블이 갖고 있던 레코드들이 나오는게 아니라, 집계 결과만 나오는 모습을 확인 가능하다. 만약 order_date나 product_id를 SELECT에서 찍어서 보려고 하면, 1055 ERROR가 난다 (GROUP BY가 사용된 경우, GROUP BY로 그룹핑할 때 사용된 컬럼만 SELECT에서 명시가 가능하기 때문)
2) PARTITION BY로 그룹핑해서 계산하는 경우
SELECT customer_id, count(*) OVER (PARTITION BY customer_id) as purchased_count
FROM sales;
sales테이블이 갖고 있는 레코드들이 살아있음을 확인할 수 있다. SELECT절에서도 order_date, product_id컬럼값을 뽑아낼 수 있으며 에러가 나지 않는다.
SELECT customer_id, order_date, product_id, count(*) OVER (PARTITION BY customer_id) as purchased_count
FROM sales;
RANK순위 함수와 ORDER BY를 사용하면 그룹핑된 섹션 내에서 order_date를 기준으로 다음과 같이 순위를 매길 수 있다.
SELECT
customer_id,
order_date,
product_name,
RANK() OVER (PARTITION BY customer_id ORDER BY order_date) as order_date_rank
FROM sales
INNER JOIN menu ON sales.product_id = menu.product_id;
그룹핑된 각 섹션 내에서 order_date값이 같으면 같은 rank가 매겨진다. RANK와는 달리 DENSE_RANK를 사용하면 동일한 등수가 발생해도 다음번 등수는 이전 등수 + 1이 된다.
위 결과를 WHERE절에서 활용, order_date_rank가 1인 레코드만 추출하면 원하는 결과를 가져올 수 있다.
WITH ranked_date as (
SELECT
customer_id,
order_date,
product_name,
RANK() OVER (PARTITION BY customer_id ORDER BY order_date) as order_date_rank
FROM sales
INNER JOIN menu ON sales.product_id = menu.product_id
)
SELECT DISTINCT customer_id, product_name
FROM ranked_date
WHERE order_date_rank = 1;
더 적합한 방식은?
위에서 소개한 GROUP BY와 PARTITION BY 모두 같은 결과를 뱉는다. 그러면 둘 중 어느 것이 좀 더 "적합"할까? 어느 것이 더 효율적으로 동작하는가? 지금은 sales테이블에 데이터가 끽해야 15개 남짓이지만, x억개 있는 상황이라면 뭐가 더 나을까?
x : 원래 초기 유닉스 시스템에선 사용자 암호가 이쪽에 저장됐으나, 현재 사용자 암호는 /etc/shadow에 있다(해쉬된 형태로)
UID : 사용자들에게 할당되는 고유한 ID 번호
GID : 그룹 ID로, 리눅스에서 사용자는 무조권 한 개 이상의 그룹에 소속돼있다.
설명 : 사용자의 실명, 부서명 같은 것들
홈 디렉토리 : 해당 사용자 계정에 할당된 홈 디렉토리 경로 (ex: /home/jofe 등)
로그인 쉘 : 사용자의 로그인 쉘을 지정(로그인 후 켜지는 쉘)
/etc/shadow 파일
사용자 암호에 대한 정보를 별도로 관리하는 파일이다. 전지전능한 root께서만 읽고 쓸 수 있으며 shadow그룹은 읽기만 가능하다. 다음과 같은 구조다.
유저명:암호:최종변경일:MIN:MAX:WARNING:INACTIVE:EXPIRE:Flag
유저명 : 말 그대로 유저 이름
암호 : 해쉬된 형태의 암호가 있다
최종 변경일 : 1970년 1월 1일을 기준으로 최종 변경된 날을 표기
MIN : 비밀번호 변경 주기를 의미(암호 변경 후 사용해야 하는 최소 기간)
MAX : 비밀번호를 사용가능한 최대 기간. 즉 유효 기간이라 생각하면 됨
WARNING : 암호가 만료되기 x일 전부터 알려주겠다 할 때 x에 해당
INACTICE : 암호가 만료된 후에도 이 값으로 지정된 날수 동안은 로그인 가능(마지막으로 삶을 돌아보는 시간..)
EXPIRE : 사용자 계정이 만려되는 날짜(1970년 1월 1일 기준)
Flag : 향후 사용할 목적으로 비워둔 항목
참고로 암호의 경우 단순히 해쉬된 암호만 띡하니 있지 않고, 사용된 해쉬 알고리즘의 타입(MD5, SHA)와 salt값도 동봉돼있다. 비번을 해쉬할 때 단순히 비밀번호만 해쉬하는게 아니라 랜덤하게 만들어낸 salt값을 함께 해싱하는데, 이를 통해 유저 A, B가 똑같은 평문 비밀번호를 사용해도 salt값이 달라서 전체적인 해쉬 값은 다른 걸 가지게 된다. 보안에도 용이한 셈.
/etc/group 파일
각 그룹들의 정보가 저장된 파일. 참고로 각 사용자마다 기본 그룹이라는게 있는데, /etc/passwd에 사용자별로 가지는 gid가 바로 그것이다.
그룹명:x:GID:그룹 멤버
그룹명 : 말 그대로 그룹 이름
x : 그룹의 암호 저장(그룹 암호는 newgrp 커맨드로 자신이 속하지 않은 그룹으로 전환할 때 필요함)
GID : 그룹을 식별하는 고유 번호
그룹 멤버 : 해당 그룹에 속하는 멤버들의 을 쉼표로 구분해서 이 영역에 표기
/etc/gshadow 파일
그룹 암호가 저장된 파일
그룹명:그룹 암호:관리자:그룹 멤버
그룹명 : 말 그대로 그룹 이름
그룹 암호 : 암호화된 그룹 암호
관리자 : 그룹의 암호나 멤버를 바꿀 수 있는 사용자 계정. 여러 개면 쉼표로 구분
그룹 멤버 : 그룹에 속한 멤버들의 계정명. 쉼표로 구분함
리눅스에서 사용자 계정 추가하기
1. useradd 커맨드 활용
기본적으론 "useradd 유저명"을 통해 사용자 계정 생성 가능
-u, -g 등의 옵션을 붙여 UID나 GID 등을 직접 지정하는 것이 가능하다.
정말 아무것도 없이 계정만 생성해주므로, 비밀번호 등은 별도로 설정해줘야 한다
2. adduser 커맨드 활용
기본적으론 "adduser 유저명"을 통해 사용자 계정 생성 가능
-uid, -gid 등의 옵션을 붙여 UID, GID 등을 직접 지정하는 것이 가능하다.
생성 시 비밀번호 등도 입력받게끔 만들어져있다.
비슷하게, groupadd커맨드를 통해 기존에 없던 그룹 생성도 가능하며, -g 등의 옵션을 곁들여 GID지정도 가능하다.
리눅스에서 사용자 계정 수정하기 - usermod 커맨드 활용
usermod [옵션] [유저명]
-u, -g 등의 옵션으로 UID, 기본 그룹 등의 수정이 가능하다. -aG옵션을 통해 해당 유저를 sudo등의 그룹에 넣을 수도 있다.
비슷하게, groupmod커맨드를 통해 그룹의 GID등을 수정가능하다.
리눅스에서 사용자 계정 삭제 - userdel 커맨드 활용
userdel [옵션] [유저명]
-r 옵션을 줘서 홈 디렉토리도 삭제할 수 있고, -f옵션을 통해 해당 사용자가 로그인 중이어도 강제 삭제가 가능하다.
비슷하게, groupdel커맨드를 통해 그룹을 삭제할 수 있다.
리눅스에서 소속 그룹 변경하기 - newgrp 커맨드 활용
newgrp [그룹명]
말 그대로 사용자가 작업시 현재 소속 그룹을 기본 그룹이 아닌 다른 그룹으로 바꿀 때 사용하는 커맨드다.
UID vs EUID
UID : 실제 유저의 ID다.
EUID : 유효한 사용자 ID로, 현재 명령을 누구 권한으로 수행하고 있는가에 해당하는 개념이다. 즉, UID가 a인 상태에서 커맨드를 실행했을 때 EUID는 a가 아니라 b가 될 수도 있다.
Remote Dictionary Server의 줄임말로, key-value 구조의 비정형 데이터를 저장하고 관리하기 위한 오픈 소스 기반의 NoSQL DB다. 타 DB처럼 디스크에 데이터를 저장하는게 아닌 메모리에 데이터를 저장하는 인-메모리 DB이며, 메모리를 통한 빠른 속도 때문에 Cache 용도로 많이 활용되지만 그 외에도 Message Broker나 Streaming engine으로서의 역할도 맡을 수 있다.
Message broker로 쓰인다는 것의 의미 : 분산 시스템에서 메시지 전달 및 이벤트 처리를 관리하기 위한 중요한 역할을 하는 소프트웨어 컴포넌트로 활용된다는 것
Streaming engine로 쓰인다는 것의 의미 : 스트림(Streams)라고 불리는 자료 구조를 활용해 실시간 데이터 처리를 위한 목적으로 활용된다는 것
레디스에서 고가용성을 확보하는 방법
1. Stand alone (No HA)
Redis 서버 1대로 아키텍처를 구성하는 방법을 말하며, 해당 서버가 다운되면 인생 끝나는 것이므로 고가용성이 보장되지 않는다. 서버가 다운될 시 AOF 또는 snapshot을 사용해 재시작한다.
AOF : Append Only File의 줄임말로, Redis의 변경 사항을 기록하는 파일을 말한다. Redis 서버에 새로운 명령(조회는 제외)이나 데이터 변경이 발생하면, 해당 명령 또는 변경 내용을 AOF 파일에 연속적으로 추가한다. 이는 변경 사항을 로그로 남기는 방식이다.
snapshot : 특정 시점에 메인 메모리에 있는 모든 레디스 데이터를 디스크에 쓴 것, 즉 일종의 백업을 말한다.
2. 이중화 (a.k.a Master & Slave, Half HA)
Redis 서버 2대로 아키텍처를 구성하는 것을 말하며, Slave는 Master의 데이터를 실시간으로 전달받아 보관한다. Master가 다운될 시 Slave를 FailOver시킬 수 있으나 수동으로 직접 해줘야 한다. Slave를 하나가 아닌 여러 개를 둘 수도 있다.
3. 이중화 + 센티널 (HA, 무중단 서비스 가능)
Master & Slave 구성에 센티널(Sentinal)을 추가해서 각 서버를 감시하도록 하도록 하는 아키텍처를 구성하는 것을 말한다. 센티널은 Master를 감시하고 있다가 Master가 다운되면 Slave를 Master로 승격시킨다. Redis Client(즉 Application)은 새로운 Master로 접속해서 서비스를 계속한다. 센티널은 데이터 처리는 담당하지 않으며, 센티널 자체가 다운되는 상황을 고려해 일반적으로 3대의 센티널을 운용한다.
센티널이란 : Master와 Slave들을 감시하고 있다가 Master가 다운되면 이를 감지해서 관리자의 개입없이 자동으로 Slave를 Master로 올려주는 감시자(보초)를 말한다. 즉 센티널은 감시, 자동 장애조치(Automatic FailOver)의 역할을 하며 알림(FailOver될 때 관리자한테 메일 보내던가 하는..)의 역할도 맡을 수 있다.
4. 레디스 클러스터 (HA)
샤딩(sharding)을 사용하여 복수의 Redis노드에 데이터를 분할하는 방식으로 아키텍처를 구성하는 것을 말한다. Master가 3대라면, 전체 데이터를 3대에 나누어 저장하는 것이다. (100개가 있다면 1번에 33, 2번에 33, 3번에 34개 이런 식으로). 데이터들의 key에 hash함수를 멕인 값에 따라 어느 Master 서버로 데이터를 둘지 결정하게 된다. 각 Master 서버가 데이터 처리 뿐만 아니라 센티널 역할도 같이 수행하며, 최소 3대의 Master 서버가 필요하다.
샤딩을 통해 데이터들을 분할해서 각 Master 서버에 저장하기 때문에 하나의 서버라도 다운되면 데이터 유실이 생기지 않을까라는 생각을 할 수 있으나, 위 그럼처럼 클러스터를 구성하면 아무리 Master들이 다운되도 하나의 서버만 살아있다면 정상적인 운용이 가능하다.
클러스터 방식을 통해 여러 대의 서버가 하나로 묶여 마치 1개의 시스템처럼 동작하게 되며, 여러 서버에 데이터를 분산하여 저장하기 때문에 부하를 여러 대의 서버로 분산시키므로 더 빠른 속도로 사용자에게 서비스를 제공할 수 있게 된다.
샤딩(Sharding)이란 :대량의 데이터를 처리하기 위해 여러 개의 데이터베이스에 분할하는 기술 즉 DBMS안에서 데이터를 나누는 것이 아니라 DBMS 밖에서 데이터를 나누는 방식임에 유의하자.
클러스터 vs 센티널
우선 둘 다 고가용성을 챙길 수 있다. 그러나 클러스터는 확장성이 있는 반면, 센티널은 확장성이 없는 아키텍처다. 또한 클러스터는 센티널에 비해 빠른 액세스 속도를 보일 수 있다. 반면 센티널은 클러스터에 비해 배포 및 관리가 용이하다. 따라서, 일반적으로 중소 정도의 규모라면 센티널을, 수평적 확장이 필요한 대규모의 경우는 클러스터를 추천한다고 한다.