2020년 4월 19일 일요일

데이터 비식별화 처리과정 및 용어 정의



데이터 비식별화 처리과정 및 용어 정의 

비식별화와 관련되 개념, 용어, 비식별화 기법의 분류에 대해 기술
또한 다양한 비식별화 기법과 비식별화 과정을 제시



용어 정의

□ 가명(pseudonym)
o 데이터 주체에 대한 식별자를 대체하기 위해 데이터 주체에 대해 생성된 별도 고유 식별자


□ 가명화(pseudonymization)
 o 데이터 주체의 식별자를 가명으로 대체하여 해당 데이터 주체의 신원을 숨기는 비식별 기법


□ 간접 식별자(indirect identifier)
 o 데이터 세트 내 또는 외부에 있는 다른 속성과 함께 특정 운영 환경에서 데이터 주체를 고유하게 식별하게 하는 속성


□ 고유 식별자(unique identifier)
 o 데이터 세트에서 데이터 주체를 골라 내는 데이터 세트 내 속성


□ 공격자(adversary)
 o 데이터 세트에서 하나 이상의 개인을 식별하려고 시도하는 개인 또는 단체


□ 난수화 기법(randomization technique)
 o 속성 값이 새로운 값으로 무작위 적으로 변경되도록 속성 값을 수정하는 비식별 기법


□ 데이터 세트(data set)
 o 데이터 모음


□ 데이터 주체(data principal)
 o 데이터와 관련된 실체


□ 등가 클래스(equivalence class)
 o 특정 속성 집합에 대해 동일한 값을 갖는 데이터 세트에서 레코드의 집합


□ 레코드(record)
 o 단일 데이터 주체에 관한 속성의 집합


□ 배포 모델(release model)
 o 데이터 세트의 수신자에게 접근 권한이 제공되는 방식


□ 마스킹(masking)
 o 데이터 주체의 직접 식별자를 제거하거나 가명 또는 암호 값으로 바꾸는 프로세스


□ 마이크로데이터(microdata)
 o 개별 데이터 주체와 관련된 레코드로 구성된 데이터 세트


□ 매크로데이터(macrodata)
 o 총합 데이터로 구성된 데이터 세트


□ 민감 속성(sensitive attribute)
 o 운영 환경에 따라 속성 값의 노출, 속성 값의 존재, 또는 어떤 데이터 주체와 연관을 가능하게 하는 잠재적 재식별 공격으로부터 특화되고 높은 수준의 보호를 받을 가치가 있는 데이터 세트에서 속성


□ 변수(variable)
 o 속성 집합을 나타내는 데이터 세트의 열의 값


□ 비식별화(de-identification)
 o 일련의 식별 데이터와 데이터 주체 간의 연관성을 제거하는 프로세스


□ 비식별화 과정(de-identification process)
 o 일련의 식별 속성과 데이터 주체 사이의 연관을 제거하는 과정


□ 비식별화 기법(de-identification technique)
 o 정보가 개별 데이터 주체와 연관 될 수 있는 정도를 줄이기 위할 목적으로 데이터 세트를 변형하는 방법


□ 비식별화된 데이터 세트(de-identified dataset)
 o 비식별화 과정의 결과로 나타난 데이터 세트

□ 속성(attribute)
 o 고유 특성


□ 순열(permutation)
 o 값을 수정하지 않고 데이터 세트의 레코드 전반에 걸쳐 선택된 속성의 값을 재정렬하는 비식별 기법


□ 식별자(identifier)
 o 특정 데이터 처리 환경에서 데이터 주체의 고유 식별을 가능하게 하는 데이터 세트 내 속성들의 집합


□ 식별 속성(identifying attribute)
 o 특정 데이터 처리 환경에서 데이터 주체를 고유하게 식별하는 데 기여할 수 있는 속성의 데이터 세트


□ 신원 노출(identity disclosure)
 o 데이터 주체의 신원을 올바르게 할당하게 하는 재식별화 이벤트


□ 연결(linking)
 o 데이터 주체에 관한 레코드를 별도의 데이터 세트에서 동일한 데이터 주체에 관한 레코드와 연결시키는 행위


□ 연결성(likability)
 o 데이터 주체에 관한 레코드를 별도 데이터 세트에 존재하는 동일한 데이터 주체에 관한 레코드와 연관시킬 수 있는 데이터 세트에 대한 속성


□ 일반화(generalization)
 o 선택된 속성에 포함된 정보의 정확성을 줄이는 비식별 기법


□ 일방향 해시 함수(one-way hash function)
 o 암호화된 값에서 입력 데이터를 다시 생성하는 것이 사실상 불가능한 암호화 매핑 함수


□ 잡음 부가
 o 선택된 속성의 값에 임의의 값을 추가하여 데이터 세트를 수정하는 비식별 기법


□ 전수 공격(brute force attack)
 o 가능한 모든 조합을 시도하는 시행 착오적 공격


□ 준 식별자(quasi identifier)
 o 데이터 세트에서 다른 속성과 함께 고려될 때 데이터 주체를 선택하는 데이터 세트 내 속성


□ 재식별(re-identification)
 o 비식별된 데이터 세트의 데이터를 원래 데이터 주체와 연관시키는 과정


□ 재식별 공격(re-identification attack)
 o 재식별을 목적으로 공격자가 비식별 데이터에 대해 수행하는 행위


□ 재식별 위험(re-identification risk)
 o 재식별 공격이 성공할 위험


□ 직접 식별자(direct identifier)
 o 특정 운영 환경 내에서 데이터 주체의 고유 식별을 가능하게 하는 속성


□ 차등 프라이버시(differential privacy)
 o 특정 데이터 주체가 입력 데이터 세트에 나타나는지 여부에 무관하게, 통계 분석의 출력 확률 분포가 지정된 값보다 작게 다르도록 보장하는 공적 프라이버시 측정 모델


□ 총계 데이터(aggregated data)
 o 정보 주체의 그룹을 나타내는 데이터 (예, 그룹의 통계적 특성의 모음)


□ 추론
 o 하나 이상의 속성 값을 사용하거나 외부 데이터 소스를 상호 연관시킴으로써 무시할 수 없는 확률로 알려지지 않은 정보를 추론하는 행위


□ K 익명성
 o 데이터 세트의 각 식별자에 대해 적어도 k 개의 레코드를 포함하는 대응 등가 클래스가 존재하는 것을 보장하는 공식적 프라이버시 측정 모델


□ L 다양성
 o 선택된 속성에 대해 각 등가 클래스가 최소 L 개 이상의 잘 표현된 값을 가지도록 보장하는 공식적 프라이버시 측정 모델


□ T 유사성
 o 등가 클래스에서 선택된 속성의 분포와 전체 테이블에서 이 속성의 분포 사이의 거리가 임계 값 T 이하가 됨을 보장하는 공식적 프라이버시 측정 모델 




컨설팅 : ISMS-P, ISO27001, GDPR, PCI-DSS 
취약점 진단 및 모의 침투
개인정보 비식별화 솔루션

보안솔루션 공급
070-7867-3721, ismsbok@gmail.com



댓글 없음:

댓글 쓰기