데이터 비식별화 처리과정 및 용어 정의
비식별화와 관련되 개념, 용어, 비식별화 기법의 분류에 대해 기술
또한 다양한 비식별화 기법과 비식별화 과정을 제시
용어 정의
□ 가명(pseudonym)
o 데이터 주체에 대한 식별자를 대체하기 위해 데이터 주체에 대해 생성된 별도 고유 식별자
□ 가명화(pseudonymization)
o 데이터 주체의 식별자를 가명으로 대체하여 해당 데이터 주체의 신원을 숨기는 비식별 기법
□ 간접 식별자(indirect identifier)
o 데이터 세트 내 또는 외부에 있는 다른 속성과 함께 특정 운영 환경에서 데이터 주체를 고유하게 식별하게 하는 속성
□ 고유 식별자(unique identifier)
o 데이터 세트에서 데이터 주체를 골라 내는 데이터 세트 내 속성
□ 공격자(adversary)
o 데이터 세트에서 하나 이상의 개인을 식별하려고 시도하는 개인 또는 단체
□ 난수화 기법(randomization technique)
o 속성 값이 새로운 값으로 무작위 적으로 변경되도록 속성 값을 수정하는 비식별 기법
□ 데이터 세트(data set)
o 데이터 모음
□ 데이터 주체(data principal)
o 데이터와 관련된 실체
□ 등가 클래스(equivalence class)
o 특정 속성 집합에 대해 동일한 값을 갖는 데이터 세트에서 레코드의 집합
□ 레코드(record)
o 단일 데이터 주체에 관한 속성의 집합
□ 배포 모델(release model)
o 데이터 세트의 수신자에게 접근 권한이 제공되는 방식
□ 마스킹(masking)
o 데이터 주체의 직접 식별자를 제거하거나 가명 또는 암호 값으로 바꾸는 프로세스
□ 마이크로데이터(microdata)
o 개별 데이터 주체와 관련된 레코드로 구성된 데이터 세트
□ 매크로데이터(macrodata)
o 총합 데이터로 구성된 데이터 세트
□ 민감 속성(sensitive attribute)
o 운영 환경에 따라 속성 값의 노출, 속성 값의 존재, 또는 어떤 데이터 주체와 연관을 가능하게 하는 잠재적 재식별 공격으로부터 특화되고 높은 수준의 보호를 받을 가치가 있는 데이터 세트에서 속성
□ 변수(variable)
o 속성 집합을 나타내는 데이터 세트의 열의 값
□ 비식별화(de-identification)
o 일련의 식별 데이터와 데이터 주체 간의 연관성을 제거하는 프로세스
□ 비식별화 과정(de-identification process)
o 일련의 식별 속성과 데이터 주체 사이의 연관을 제거하는 과정
□ 비식별화 기법(de-identification technique)
o 정보가 개별 데이터 주체와 연관 될 수 있는 정도를 줄이기 위할 목적으로 데이터 세트를 변형하는 방법
□ 비식별화된 데이터 세트(de-identified dataset)
o 비식별화 과정의 결과로 나타난 데이터 세트
□ 속성(attribute)
o 고유 특성
□ 순열(permutation)
o 값을 수정하지 않고 데이터 세트의 레코드 전반에 걸쳐 선택된 속성의 값을 재정렬하는 비식별 기법
□ 식별자(identifier)
o 특정 데이터 처리 환경에서 데이터 주체의 고유 식별을 가능하게 하는 데이터 세트 내 속성들의 집합
□ 식별 속성(identifying attribute)
o 특정 데이터 처리 환경에서 데이터 주체를 고유하게 식별하는 데 기여할 수 있는 속성의 데이터 세트
□ 신원 노출(identity disclosure)
o 데이터 주체의 신원을 올바르게 할당하게 하는 재식별화 이벤트
□ 연결(linking)
o 데이터 주체에 관한 레코드를 별도의 데이터 세트에서 동일한 데이터 주체에 관한 레코드와 연결시키는 행위
□ 연결성(likability)
o 데이터 주체에 관한 레코드를 별도 데이터 세트에 존재하는 동일한 데이터 주체에 관한 레코드와 연관시킬 수 있는 데이터 세트에 대한 속성
□ 일반화(generalization)
o 선택된 속성에 포함된 정보의 정확성을 줄이는 비식별 기법
□ 일방향 해시 함수(one-way hash function)
o 암호화된 값에서 입력 데이터를 다시 생성하는 것이 사실상 불가능한 암호화 매핑 함수
□ 잡음 부가
o 선택된 속성의 값에 임의의 값을 추가하여 데이터 세트를 수정하는 비식별 기법
□ 전수 공격(brute force attack)
o 가능한 모든 조합을 시도하는 시행 착오적 공격
□ 준 식별자(quasi identifier)
o 데이터 세트에서 다른 속성과 함께 고려될 때 데이터 주체를 선택하는 데이터 세트 내 속성
□ 재식별(re-identification)
o 비식별된 데이터 세트의 데이터를 원래 데이터 주체와 연관시키는 과정
□ 재식별 공격(re-identification attack)
o 재식별을 목적으로 공격자가 비식별 데이터에 대해 수행하는 행위
□ 재식별 위험(re-identification risk)
o 재식별 공격이 성공할 위험
□ 직접 식별자(direct identifier)
o 특정 운영 환경 내에서 데이터 주체의 고유 식별을 가능하게 하는 속성
□ 차등 프라이버시(differential privacy)
o 특정 데이터 주체가 입력 데이터 세트에 나타나는지 여부에 무관하게, 통계 분석의 출력 확률 분포가 지정된 값보다 작게 다르도록 보장하는 공적 프라이버시 측정 모델
□ 총계 데이터(aggregated data)
o 정보 주체의 그룹을 나타내는 데이터 (예, 그룹의 통계적 특성의 모음)
□ 추론
o 하나 이상의 속성 값을 사용하거나 외부 데이터 소스를 상호 연관시킴으로써 무시할 수 없는 확률로 알려지지 않은 정보를 추론하는 행위
□ K 익명성
o 데이터 세트의 각 식별자에 대해 적어도 k 개의 레코드를 포함하는 대응 등가 클래스가 존재하는 것을 보장하는 공식적 프라이버시 측정 모델
□ L 다양성
o 선택된 속성에 대해 각 등가 클래스가 최소 L 개 이상의 잘 표현된 값을 가지도록 보장하는 공식적 프라이버시 측정 모델
□ T 유사성
o 등가 클래스에서 선택된 속성의 분포와 전체 테이블에서 이 속성의 분포 사이의 거리가 임계 값 T 이하가 됨을 보장하는 공식적 프라이버시 측정 모델
컨설팅 : ISMS-P, ISO27001, GDPR, PCI-DSS
취약점 진단 및 모의 침투
개인정보 비식별화 솔루션