[논문 리뷰] 몰래카메라를 악용한 2차 범죄 대응을 위한 디지털포렌식 조사 방법론

2024. 2. 8. 16:21논문 리뷰/보안-디지털포렌식

*본 글의 모든 내용, 그림, 표 출처는 논문 원문에 있습니다.
https://www-dbpia-co-kr.libproxy.dankook.ac.kr/pdf/pdfView.do?nodeId=NODE11144244

https://www-dbpia-co-kr.libproxy.dankook.ac.kr/pdf/pdfView.do?nodeId=NODE11144244

www-dbpia-co-kr.libproxy.dankook.ac.kr

[출처] 신지호, 최현표, 박광선. (2022). 몰래카메라를 악용한 2차 범죄 대응을 위한 디지털포렌식 조사 방법론. 디지털포렌식연구, 16(3), 102-114.


연구 목적 : 
몰래카메라를 이용한 디지털성범죄 수사 사례를 분석하고 디지털 수사 시 피해자에 대한 2차 범죄를 예방하기 위한 디지털포렌식 조사 방법(피의자로부터 압수한 몰래카메라 영상에 음성 데이터가 존재하는 경우 이를 텍스트로 변환하고 피의자 소유의 디지털 매체에 존재하는지 조사) 제안
CSR(CLOVA Speech Recognition)를 활용한 POC 도구를 개발하고 실험하여 제안한 포렌식 조사 방법 검증
범죄의 예방과 유사 범죄방지를 위한 추가적인 법률 적용에 대해서도 논함 -> 디지털성범죄 수사 시 실무적으로 활용 가능


POC (Proof of Concept) : 기존 시장에 없었던 신기술을 도입해보기 전에 이를 입증학 위해 사용하는 것
STT(Speect to Text) : 음성인식의 한 분야로서 사람의 음성언어를 컴퓨터의 해석으로 문자데이터로 변환하는 처리
SSD(Solid Straight Drive) : 데이터를 반도체에 저장하는 드라이브. 열과 소음이 없고, 데이터 처리 속도가 빠르다
파싱(Parsing) : 문장이 이루고 있는 구성 성분을 분해하고 분해된 성분의 위계 관계를 분석하여 구조를 결정하는 것(=데이터를 분해 분석하여 원하는 형태로 조립하고 다시 빼내는 프로그램을 말함)
API(Application Programming Interface) : 고유한 기능을 가진 모든 소프트웨어를 나타냄. 인터페이스는 두 애플리케이션 간의 서비스 계약
Okt(Open-source Korean text processor) : 트위터에서 개발한 트위터 한국어 처리기에서 파생된 오픈 소스 한국어 처리기


본 연구에서 제안할 디지털포렌식 조사 방안
1) 피해 영상의 데이터 포맷 구조를 파악하고 영상에서 음성이 저장되는 영역의 확인을 통해 음성정보가 저장되어있는지 조사한 뒤 음성 데이터를 추출
2) 추출한 음성 데이터를 텍스트 변환하고, 변환된 텍스트 데이터 중 명사 형태소를 키워드로 추출
3) 추출된 키워드가 범죄자의 저장장치에 존재하는지 검색하여 추가 범행 여부를 확인

음성정보 기반 디지털포렌식 조사과정을 도식화한 것

실험 환경 및 도구 개발 

*python 개발 환경하에 ffmpeg, KoNLPy, CSR(CLOVA Speech Recognition) API를 이용

실험 환경

ffmpeg :
Michael Niedermayer의 주도하에 개발되고 있는 미디어 포맷 변환도구
모든 동영상, 음악, 사진 포맷들의 디코딩과 인코딩을 목표로 개발되어 LGPL(Lesser General Public License)과 GPL(General Public License) 라이선스 기반 오픈소스 프로젝트에 의해 제공
CSR(CLOVA Speech Recognition) :
Naver에서 개발하여 REST API로 제공하고 있는 HTTP 기반의 API로, 인식에 사용할 언어 설정값과 음성 데이터를 입력받고 그에 맞는 인식 결과를 텍스트로 반환하여 도출
CSR의 입력 음성데이터 포맷은 MP3, AAC, AC3, OGG, FLAC, WAV를 지원
=>위의 라이브러리들을 이용해 python의 코드를 이용하여 Con2Keys.py(Conversation to Keywords) POC 도구를 개발

코드의 수행과정을 도식화한 것

실험 결과

*MP4 파일의 구조분석에 사용한 샘플 비디오 파일 대상으로 진행
1) ffmpeg 라이브러리를 이용하여 MP4 파일에서 mdat 영역에 저장되어있는 오디오 데이터를 추출하여 이를 50초 단위의 MP3로 저장
2) HTTP 방식으로 추출한 mp3 파일을 CSR에 전송하여 JSON 형식의 STT 결과를 반환받음
3) 한국어 문장으로 구성된 STT 결과를 재차 Okt 라이브러리를 이용하여 형태소분석을 통해 명사 추출
4) 위에서 추출한 명사를 txt 형식으로 저장

사람이 이해할 수 있는 내용 바탕으로 Con2Keys에서 추출된 단어 중애서 중복 단어를 제외한 28개의 단어의 정확도를 분석한 결과 이 표와 같이 STT 처리 과정에서 정확한 한글 표기에 대한 한계가 존재함을 파악 가능

한계 및 향후 연구

한국어의 경우 초성/중성/종성이 하나의 글자를 이루고 있으며 정확한 띄어쓰기도 어려울 뿐만 아니라 여러 가지 법칙 때문에 충분한 의미 전달은 이루어지지만 정확한 한글 표기는 어려운 경우가 다수를 이룸
->범죄 환경과 유사한 환경에서 생성된 음성 데이터에 대한 딥러닝 학습이 이루어질 필요가 있음

결론

-실제 범죄 수사과정에서 수사관이 대량의 몰래카메라 동영상 파일에 음성이 녹음되었는지 모두 확인하는 것은 실무적으로 한계를 가짐
-음성이 녹음되었다하더라도 녹음된 음성 내용이 피의자의 컴퓨터에 저장되었는지 모두 확인하는 것 또한 불가능
=>몰래카메라 영상에서 음성을 분리하고 주요 키워드를 추출하여 범죄자가 소지한 저장매체를 다시 조사한다면, 피해자의 대화내용을 악용한 공갈이나 협박과 같은 2차 범죄예방에 도움이 될 것으로 보임