안녕하세요! 서울대학교 한국사회과학자료원 서포터즈 DataBee🐝입니다.
그 동안의 DataBee Story에서는 양적 자료 위주로 분석을 진행해왔는데요. 오늘은 특별히 '질적 자료'를 처음으로 꺼내 보려고 합니다. 그 중에서도 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012> 데이터를 활용해, 통계 수치 너머에 있는 국제결혼가정 청소년들의 생생한 목소리를 군집화를 통해 구조적으로 파악해 보겠습니다.
이를 위해 HDBSCAN 알고리즘을 통해 파편화된 발화를 의미 있는 클러스터로 응집시키고, 그 결과를 UMAP 시각화, 대표 문장 추출, TF-IDF 키워드 분석이라는 세 가지 입체적인 방식으로 정밀하게 풀어내는 과정을 담았습니다.
이어지는 2편에서는 이러한 기술적 분석에서 나아가 클러스터링 된 데이터를 '디아스포라 이론'이라는 사회과학적 틀로 해석하며 경계에 선 청소년들의 정체성을 인문학적으로 엮어낼 예정이니, 추후 업로드 될 2편도 많은 관심 부탁드립니다!
그럼 지금부터 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012> 데이터를 활용해, 다문화 가정 청소년들의 인터뷰 발화가 데이터 과학의 렌즈를 통해 어떻게 군집화되는지 그 구체적인 분석 결과를 함께 확인해 볼까요?
| 데이터 소개: 국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012

이번 분석에서 활용할 자료는 성균관대학교 사회복지학과 김기현 교수님이 수행하신 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012>입니다. 해당 데이터는 다문화가정 청소년들이 한국 사회에서 겪는 심리사회적 경험과 민족정체성이 형성되는 과정을 '근거이론'으로 깊이 있게 탐색하기 위해 수집되었는데요. 서울, 경기, 전라 지역에 거주하는 13~18세의 국내 출생 및 중도 입국 청소년 17명을 대상으로 반구조화된 면접을 진행하여, 정체성에 대한 고민부터 스스로 내린 정의, 그 과정에서 마주한 갈등과 혼란까지 아이들의 생생한 목소리를 풍부하게 담고 있는 귀한 자료입니다. 이번 포스팅에서는 해당 질적 자료에 대해 클러스터링 작업을 진행하여 다문화 가정 청소년들이 자신의 민족정체성을 어떤 맥락에서, 어떤 주제적 축을 따라, 어떤 방식의 발화 패턴으로 구성해 나가는지 탐색해 보고자 하였습니다.
| 분석 파이프라인 개요
다음으로는 이번 클러스터링 분석의 개괄 파이프라인을 설명해드리도록 하겠습니다.

전체 파이프라인을 살펴보자면, 먼저 PDF 인터뷰 전문을 Q&A 단위로 분절하여 문맥을 보존한 'qa_pairs'를 구축하는 것으로 시작됩니다. 이후 한국어에 특화된 SBERT 모델로 텍스트를 고차원 의미 벡터로 변환하고, UMAP을 통해 데이터의 핵심 구조를 유지하며 차원을 축소했습니다.
이를 바탕으로 HDBSCAN 알고리즘을 적용해 인터뷰 데이터 내 유의미한 클러스터를 형성하고 UMAP 시각화로 구조를 확인하였습니다. 마지막으로 TF-IDF 기반의 클러스터별 핵심 키워드 선정과 중심점(Centroid)에 가장 인접한 대표 문장 추출을 병행하여, 각 클러스터의 핵심 인사이트를 도출하였습니다.
| 데이터 전처리
이제 개별 파이프라인의 구성 단계를 자세히 살펴보도록 하겠습니다.

질적 연구 자료인 PDF 질문지에서 유의미한 데이터를 추출하기 위해 가장 먼저 공들인 작업은 바로 '문맥의 복원'이었습니다. 먼저, pdfplumber 라이브러리를 활용해 pdf로부터 텍스트를 로드한 뒤, 정규표현식으로 불필요한 메타데이터를 깔끔하게 제거하는 과정을 거쳤는데요.
특히 단순히 답변만 따로 떼어 분석할 경우 "네"나 "그냥요" 같은 짧은 발화들이 가진 본래 의미가 붕괴되는 문제가 발생하기 때문에, 질문(Q)과 답변(A)을 하나의 분석 단위인 'qa_pairs'로 결합하는 파이싱 로직을 구현했습니다. 이렇게 질문과 답변을 묶어 의미가 완결된 발화 블록을 생성함으로써, 데이터 과학적 접근 속에서도 질적 연구의 핵심인 '문맥 보존의 원칙'과 해석의 타당성을 충실히 지키고자 하였습니다.
| 임베딩 & 차원축소


다음으로는 임베딩 및 차원축소 단계입니다. 먼저, 본격적인 분석을 위해 전처리를 마친 발화(qa_pairs)를 컴퓨터가 이해할 수 있는 숫자 형태의 임베딩 데이터로 변환하였습니다. 이때 Sentence-BERT(SBERT) 모델을 사용하여 각 발화를 고차원 의미 공간에 정교하게 배치했는데요. 특히 SBERT는 문장 단위의 의미적 뉘앙스를 잘 포착하기 때문에, 한국어 특유의 미묘한 문맥과 발화 속 뉘앙스까지 정밀하게 반영할 수 있어 해당 모델을 사용하게 되었습니다.
이렇게 SBERT 모델을 통과한 데이터는 무려 768차원에 달하는 방대한 정보량을 가지지만, 이 상태로 군집화를 진행하면 이른바 '차원의 저주(Curse of Dimensionality)'에 빠지게 됩니다. 공간의 차원이 높아질수록 데이터 간의 거리 차이가 무의미해져, 기계가 유의미한 패턴이나 군집을 찾아내기 어려워지기 때문입니다. 이를 해결하고자 UMAP(Uniform Manifold Approximation and Projection)를 활용하여 768차원의 데이터를 5차원으로 압축하는 차원 축소 단계를 진행하였는데요. UMAP은 고차원 공간에 흩어진 발화 간의 미세한 유사성(Local structure)뿐만 아니라 데이터 전체의 거시적인 맥락(Global structure)까지 저차원 공간에 훼손 없이 보존할 수 있다는 장점이 있어, 차원 축소에 적절한 방법론입니다
| 클러스터링

이후 클러스터링 단계에서는 군집 수를 미리 정하지 않아도 데이터의 밀도에 따라 자연스럽게 그룹을 찾아내는 HDBSCAN 알고리즘을 적용했습니다. 정성적 인터뷰 데이터의 특성상 발화자마다 주제의 밀도가 상이하고 정형화되지 않은 서사가 복잡하게 얽혀 있기 때문에, 군집의 형태를 미리 규정하지 않고 데이터 스스로의 구조를 포착하며 이상치(Noise)를 효과적으로 분리하는데 HDBSCAN 모델이 효과적입니다. HDBSCAN의 파라미터를 설정하는 과정에서는 인터뷰 대상자마다 전체 발화량에 편차가 존재함을 고려하여 군집을 구성하는 최소 데이터 기준을 단일한 고정값으로 일괄 적용하지 않고 대신 각 대상자의 전체 발화 규모에 비례하도록 동적 파라미터를 설정하였습니다.

군집화 수행 후, 도출된 결과의 객관적 타당성을 검증하기 위해 두 가지 정량적 평가지표를 산출하였는데요. 첫째는 '노이즈 비율(Noise Ratio)'로, 전체 데이터 중 유의미한 군집에 묶이지 못하고 배제된 발화의 비율을 의미하며, 둘째는 'DBCV(Density-Based Clustering Validation)'로, 밀도 기반 군집 내부의 결속력과 군집 간 경계의 명확성을 평가하는 지표입니다. 전체 17명의 인터뷰 대상자에 대한 기초 통계량 분석 결과, 평균 노이즈 비율은 약 11.0%(최대 28.0%)으로 나타나 과도한 데이터 유실 없이 대부분의 발화가 안정적으로 군집에 포함되었음을 확인하였습니다. 한편 평균 DBCV 스코어는 0.128(최대 0.612)로 산출되었는데, 이는 분석의 해석 가능성을 극대화하기 위해 파라미터를 보수적으로 조정한 의도적 결과로, 의미 없는 짧은 추임새들이 인위적으로 묶여 수학적 밀도 점수만 높아지는 현상을 방지하고자 하였습니다.
| 클러스터링 결과 시각화(umap)
다음으로, HDBSCAN 알고리즘을 통해 도출된 의미 군집들 간의 관계를 한눈에 시각화 해보겠습니다. 이를 위해 앞서 군집화를 위한 데이터 차원 축소 단계에서 활용했던 UMAP 알고리즘을 시각화 도구로 다시 적용하였는데요. 앞선 UMAP이 기계학습 모델(HDBSCAN)이 군집의 밀도를 잘 파악할 수 있도록 방대한 고차원 데이터를 최적의 다차원으로 압축하는 '수학적 전처리' 과정이었다면, 이번 시각화 단계에서의 UMAP은 이미 도출된 군집들의 위상적 구조를 사람의 눈으로 직관적으로 확인할 수 있도록 '2차원 평면 위에 정교하게 투영'하는 역할을 수행합니다.

UMAP 시각화의 실행 결과 중 대표적인 몇몇 예시를 위의 카드뉴스에 제시하였는데요. 이 2차원 지도 위의 점 하나는 인터뷰 분석의 최소 단위인 발화 블록(qa_block)을 의미하며, 점들이 서로 가깝게 모여 있을수록 유사한 맥락이나 주제를 공유하는 발화임을 뜻합니다. 이처럼 UMAP 시각화는 파편적으로 흩어져 있던 개별 클러스터들 사이의 의미적 거리를 공간적으로 재구성함으로써, 질적 데이터 속에 내재된 구조적 맥락을 직관적으로 파악할 수 있도록 돕는 데 핵심적인 가교 역할을 합니다.
| 클러스터별 대표문장 추출
HDBSCAN을 통해 샘플별 각각의 클러스터를 추출하였다면, 이번 단계에서는 어떤 발화 맥락을 대표하는지 보다 직관적으로 이해하기 위해 클러스터별 대표문장 추출을 진행하였습니다. 대표문장은 해당 클러스터에 속한 모든 발화의 임베딩 중심점(centroid)과 가장 가까운 문장을 선택하는 방식으로 결정하였는데요.
여기서 임베딩 중심점이란 군집 내에 존재하는 모든 발화 벡터들의 산술 평균값을 의미합니다. 이는 다차원 의미 공간 내에서 해당 군집을 구성하는 수많은 목소리의 '공통된 중력 중심'이자, 군집의 정체성을 가장 잘 요약하는 통계적 의미를 갖는 지점이라고 할 수 있겠습니다.

위 그림에 제시된 출력 결과는 최종적으로 확정된 파라미터 설정을 통해 도출된 클러스터의 대표문장 중 하나를 발췌한 것으로, 예시로 제시된 14번 샘플의 대표문장들은 해당 클러스터들이 한국 학교생활에서의 낯선 또래 문화, 사회적 편견과 차별 경험, 그리고 이중 문화적 정체성에 대한 복합적인 감정 서사가 중심이 되어 형성된 발화 묶음임을 나타냅니다.
이 클러스터에는 한국 학생들의 학업 중심적인 문화에 대한 당혹감(대표문장: “한국 애들은 공부만 하나 봐… 시험기간 되면요… 애들 말 걸면요… 다 싫어해요.”), 타자화된 시선으로 인해 겪은 내면의 상처(대표 문장: “딱 이렇게 보면요, 차별… 다 사람인데 왜 이렇게 차별하는지 모르겠어요.”), 그리고 두 국가 사이에서 느끼는 양가적 감정과 유학 생활에 대한 자부심(대표 문장: “외국 와서 공부한다는 게… 애들이 부러워하기도 하고 저도 자랑스러워요.”)이 함께 포함되어 있습니다.
물론, 대표문장이 클러스터 내부의 내용을 완전히 대변하지 못하고 대화의 머뭇거림이나 단편적인 문맥을 잡아내는 경우(대표 문장: “아 그래, 또 좋은 점 있어? 한국 사람이기도 하고 중국 사람이기도 해서? 지혜는… (머뭇) 생각 안 나요…”)도 있으나, 수많은 발화가 공유하는 통계적 의미적 중력의 중심을 선명하게 나타낼 수 있다는 점에서 의의를 가집니다.
| 클러스터별 키워드 추출(TF-IDF)
HDBSCAN을 통해 추출된 각 클러스터가 어떤 발화 맥락을 대표하는지를 살펴보는 또 다른 방법으로는 TF-IDF 분석을 활용할 수 있습니다. TF-IDF(Term Frequency–Inverse Document Frequency)는 특정 단어가 하나의 집단 안에서 얼마나 자주 등장하는지(TF)와, 전체 집단에서는 얼마나 드물게 나타나는지(IDF)를 함께 고려해 단어의 중요도를 계산하는 기법입니다.
여기서 TF-IDF index 값이 높을수록 해당 단어는 특정 클러스터의 발화에서 반복적으로 사용되면서도, 다른 클러스터들과는 구별되는 의미적 특징을 잘 담고 있는 핵심 키워드라고 해석할 수 있습니다. 본 분석에서는 각 클러스터를 하나의 문서 집합으로 간주하고, TF-IDF index가 가장 높은 단어들을 추출하여 군집의 의미를 정량적으로 살펴보았습니다.

그림에 제시된 출력 결과를 보면, 대표문장 추출과 동일한 조건으로 샘플 14에 대해 TF-IDF 분석을 수행했을때 ‘차별’, ‘이미지’, ‘시각’과 같은 키워드가 두드러지게 나타났음을 확인할 수 있습니다. 이는 앞서 확인한 결과와 마찬가지로, 사회적 편견과 타자화된 시선이 초래한 내면의 상처가 해당 발화의 핵심 주제임을 보여줍니다. 개별 분석 결과를 살펴보면, 클러스터 3에서는 ‘중국’, ‘외국’, ‘공부’와 같은 단어들이 중심을 이루며 유학 생활과 이중 문화적 정체성에 대한 맥락이, 클러스터 0에서는 ‘학교’, ‘공부’, ‘고민’과 같은 키워드를 통해 낯선 한국 학교 환경에서의 학업적 고충과 또래 관계에 관한 발화가 하나의 의미 묶음으로 형성되어 있음을 확인할 수 있습니다.
이처럼 TF-IDF 기반 키워드 분석은 대표문장 중심의 정성적 해석과 일관된 결과를 보이며, 각 의미 군집이 어떤 주제와 경험을 중심으로 구성되어 있는지를 보다 분명하게 드러내 줍니다.

추가로 대표문장 추출 기법과 TF-IDF의 방법론적 차이를 설명드리자면, 대표문장이 군집의 전반적인 분위기를 문장 단위로 직관적으로 요약하는 반면, TF-IDF는 각 클러스터에서 통계적으로 유의미한 가중치를 가진 단어들만을 정교하게 선별하여 주제의 핵심(Core)을 수치적으로 증명한다는 점에서 차이가 존재합니다.
특히 TF-IDF 분석의 명확성을 높이기 위해서는 정교한 전처리 과정이 필수적입니다. 일차적으로 "너무", "그렇게", "그런"과 같이 반복되는 무의미한 부사들을 제거해야 하며, 더 나아가 교착어인 한국어의 언어적 특성을 반영해야 합니다. 단순 문자열 치환만 진행할 경우 조사나 어미의 결합으로 인해 "학교에", "학교가" 등이 모두 다른 단어로 인식되어 점수가 분산되고 키워드가 지저분해지는 한계가 발생하기 때문입니다.
이러한 문제를 해결하고자 TF-IDF 적용 직전에 형태소 분석기(Kiwipiepy)를 활용해 명사와 같이 의미 있는 품사만을 원형으로 추출하여 공백으로 이은 뒤 분석을 수행함으로써, 데이터의 노이즈를 통제하고 보다 정확하고 밀도 높은 핵심 키워드를 도출해낼 수 있습니다.
이번 분석에서는 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012> 데이터에 대해 HDBSCAN 알고리즘을 적용하여 의미 군집을 도출하고, 그 기술적인 분석 파이프라인을 상세히 설명해 드렸습니다.
내용이 다소 전문적이고 딱딱하게 느껴졌을 수도 있지만, 질적 자료에 최신 AI 방법론이 어떻게 실질적으로 접목될 수 있는지 보여드리는 과정으로 이해해 주시면 감사하겠습니다.
이어지는 2편에서는 이렇게 도출된 클러스터들에 ‘디아스포라 이론’이라는 인문학적 숨결을 불어넣어, 경계에 선 아이들의 정체성을 더욱 입체적이고 생생하게 해석해 볼 예정이니 많은 관심과 기대 부탁드립니다.
이상 서울대학교 한국사회과학자료원 서포터즈 DataBee🐝였습니다!
📍분석 자료 : 김기현. 국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012 [데이터 세트]. 한국사회과학자료원 (KOSSDA) [자료제공기관], 2021-08-09, https://doi.org/10.22687/KOSSDA-B3-2012-0004-V1.0
📢 KOSSDA 아카이브에는 이번에 보여드린 인터뷰 자료처럼 연구적 가치가 무궁무진한 질적 자료들이 보물창고처럼 가득 쌓여 있답니다. 아래 링크는 KOSSDA가 소장하고 있는 질적 자료의 종류를 다루는 김민하 서포터즈의 게시글입니다!
🔗"이런 양질의 질적자료가 있다니! KOSSDA 좋다!"
또한, KOSSDA에서 소장하고 있는 질적 자료의 아카이빙 과정이 궁금하신 분들은 KOSSDA의 질적 자료 🔗아키비스트인 김혜진 연구원의 인터뷰를 살펴보셔도 좋을 것 같아요!
그리고 최근 개최된 제20회 KOSSDA 데이터 페어에서는 'AI 활용과 연구방법론: 도구를 넘어 연구로'라는 주제 아래, AI가 질적 자료 분석을 어떻게 혁신할 수 있는지에 대한 심도 있는 논의가 이뤄졌는데요. 현장의 생생한 이야기가 궁금하신 분들을 위해 아래에 KOSSDA 유튜브 채널의 다시보기 링크를 첨부하니, AI를 활용한 사회과학 분야에서의 연구 방법론에 관심 있는 분들께 시청을 적극 추천해 드립니다. 🔗KOSSDA 유튜브 바로가기




안녕하세요! 서울대학교 한국사회과학자료원 서포터즈 DataBee🐝입니다.
그 동안의 DataBee Story에서는 양적 자료 위주로 분석을 진행해왔는데요. 오늘은 특별히 '질적 자료'를 처음으로 꺼내 보려고 합니다. 그 중에서도 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012> 데이터를 활용해, 통계 수치 너머에 있는 국제결혼가정 청소년들의 생생한 목소리를 군집화를 통해 구조적으로 파악해 보겠습니다.
이를 위해 HDBSCAN 알고리즘을 통해 파편화된 발화를 의미 있는 클러스터로 응집시키고, 그 결과를 UMAP 시각화, 대표 문장 추출, TF-IDF 키워드 분석이라는 세 가지 입체적인 방식으로 정밀하게 풀어내는 과정을 담았습니다.
이어지는 2편에서는 이러한 기술적 분석에서 나아가 클러스터링 된 데이터를 '디아스포라 이론'이라는 사회과학적 틀로 해석하며 경계에 선 청소년들의 정체성을 인문학적으로 엮어낼 예정이니, 추후 업로드 될 2편도 많은 관심 부탁드립니다!
그럼 지금부터 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012> 데이터를 활용해, 다문화 가정 청소년들의 인터뷰 발화가 데이터 과학의 렌즈를 통해 어떻게 군집화되는지 그 구체적인 분석 결과를 함께 확인해 볼까요?
| 데이터 소개: 국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012
이번 분석에서 활용할 자료는 성균관대학교 사회복지학과 김기현 교수님이 수행하신 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012>입니다. 해당 데이터는 다문화가정 청소년들이 한국 사회에서 겪는 심리사회적 경험과 민족정체성이 형성되는 과정을 '근거이론'으로 깊이 있게 탐색하기 위해 수집되었는데요. 서울, 경기, 전라 지역에 거주하는 13~18세의 국내 출생 및 중도 입국 청소년 17명을 대상으로 반구조화된 면접을 진행하여, 정체성에 대한 고민부터 스스로 내린 정의, 그 과정에서 마주한 갈등과 혼란까지 아이들의 생생한 목소리를 풍부하게 담고 있는 귀한 자료입니다. 이번 포스팅에서는 해당 질적 자료에 대해 클러스터링 작업을 진행하여 다문화 가정 청소년들이 자신의 민족정체성을 어떤 맥락에서, 어떤 주제적 축을 따라, 어떤 방식의 발화 패턴으로 구성해 나가는지 탐색해 보고자 하였습니다.
| 분석 파이프라인 개요
다음으로는 이번 클러스터링 분석의 개괄 파이프라인을 설명해드리도록 하겠습니다.
전체 파이프라인을 살펴보자면, 먼저 PDF 인터뷰 전문을 Q&A 단위로 분절하여 문맥을 보존한 'qa_pairs'를 구축하는 것으로 시작됩니다. 이후 한국어에 특화된 SBERT 모델로 텍스트를 고차원 의미 벡터로 변환하고, UMAP을 통해 데이터의 핵심 구조를 유지하며 차원을 축소했습니다.
이를 바탕으로 HDBSCAN 알고리즘을 적용해 인터뷰 데이터 내 유의미한 클러스터를 형성하고 UMAP 시각화로 구조를 확인하였습니다. 마지막으로 TF-IDF 기반의 클러스터별 핵심 키워드 선정과 중심점(Centroid)에 가장 인접한 대표 문장 추출을 병행하여, 각 클러스터의 핵심 인사이트를 도출하였습니다.
| 데이터 전처리
이제 개별 파이프라인의 구성 단계를 자세히 살펴보도록 하겠습니다.
질적 연구 자료인 PDF 질문지에서 유의미한 데이터를 추출하기 위해 가장 먼저 공들인 작업은 바로 '문맥의 복원'이었습니다. 먼저, pdfplumber 라이브러리를 활용해 pdf로부터 텍스트를 로드한 뒤, 정규표현식으로 불필요한 메타데이터를 깔끔하게 제거하는 과정을 거쳤는데요.
특히 단순히 답변만 따로 떼어 분석할 경우 "네"나 "그냥요" 같은 짧은 발화들이 가진 본래 의미가 붕괴되는 문제가 발생하기 때문에, 질문(Q)과 답변(A)을 하나의 분석 단위인 'qa_pairs'로 결합하는 파이싱 로직을 구현했습니다. 이렇게 질문과 답변을 묶어 의미가 완결된 발화 블록을 생성함으로써, 데이터 과학적 접근 속에서도 질적 연구의 핵심인 '문맥 보존의 원칙'과 해석의 타당성을 충실히 지키고자 하였습니다.
| 임베딩 & 차원축소
다음으로는 임베딩 및 차원축소 단계입니다. 먼저, 본격적인 분석을 위해 전처리를 마친 발화(qa_pairs)를 컴퓨터가 이해할 수 있는 숫자 형태의 임베딩 데이터로 변환하였습니다. 이때 Sentence-BERT(SBERT) 모델을 사용하여 각 발화를 고차원 의미 공간에 정교하게 배치했는데요. 특히 SBERT는 문장 단위의 의미적 뉘앙스를 잘 포착하기 때문에, 한국어 특유의 미묘한 문맥과 발화 속 뉘앙스까지 정밀하게 반영할 수 있어 해당 모델을 사용하게 되었습니다.
이렇게 SBERT 모델을 통과한 데이터는 무려 768차원에 달하는 방대한 정보량을 가지지만, 이 상태로 군집화를 진행하면 이른바 '차원의 저주(Curse of Dimensionality)'에 빠지게 됩니다. 공간의 차원이 높아질수록 데이터 간의 거리 차이가 무의미해져, 기계가 유의미한 패턴이나 군집을 찾아내기 어려워지기 때문입니다. 이를 해결하고자 UMAP(Uniform Manifold Approximation and Projection)를 활용하여 768차원의 데이터를 5차원으로 압축하는 차원 축소 단계를 진행하였는데요. UMAP은 고차원 공간에 흩어진 발화 간의 미세한 유사성(Local structure)뿐만 아니라 데이터 전체의 거시적인 맥락(Global structure)까지 저차원 공간에 훼손 없이 보존할 수 있다는 장점이 있어, 차원 축소에 적절한 방법론입니다
| 클러스터링
이후 클러스터링 단계에서는 군집 수를 미리 정하지 않아도 데이터의 밀도에 따라 자연스럽게 그룹을 찾아내는 HDBSCAN 알고리즘을 적용했습니다. 정성적 인터뷰 데이터의 특성상 발화자마다 주제의 밀도가 상이하고 정형화되지 않은 서사가 복잡하게 얽혀 있기 때문에, 군집의 형태를 미리 규정하지 않고 데이터 스스로의 구조를 포착하며 이상치(Noise)를 효과적으로 분리하는데 HDBSCAN 모델이 효과적입니다. HDBSCAN의 파라미터를 설정하는 과정에서는 인터뷰 대상자마다 전체 발화량에 편차가 존재함을 고려하여 군집을 구성하는 최소 데이터 기준을 단일한 고정값으로 일괄 적용하지 않고 대신 각 대상자의 전체 발화 규모에 비례하도록 동적 파라미터를 설정하였습니다.
군집화 수행 후, 도출된 결과의 객관적 타당성을 검증하기 위해 두 가지 정량적 평가지표를 산출하였는데요. 첫째는 '노이즈 비율(Noise Ratio)'로, 전체 데이터 중 유의미한 군집에 묶이지 못하고 배제된 발화의 비율을 의미하며, 둘째는 'DBCV(Density-Based Clustering Validation)'로, 밀도 기반 군집 내부의 결속력과 군집 간 경계의 명확성을 평가하는 지표입니다. 전체 17명의 인터뷰 대상자에 대한 기초 통계량 분석 결과, 평균 노이즈 비율은 약 11.0%(최대 28.0%)으로 나타나 과도한 데이터 유실 없이 대부분의 발화가 안정적으로 군집에 포함되었음을 확인하였습니다. 한편 평균 DBCV 스코어는 0.128(최대 0.612)로 산출되었는데, 이는 분석의 해석 가능성을 극대화하기 위해 파라미터를 보수적으로 조정한 의도적 결과로, 의미 없는 짧은 추임새들이 인위적으로 묶여 수학적 밀도 점수만 높아지는 현상을 방지하고자 하였습니다.
| 클러스터링 결과 시각화(umap)
다음으로, HDBSCAN 알고리즘을 통해 도출된 의미 군집들 간의 관계를 한눈에 시각화 해보겠습니다. 이를 위해 앞서 군집화를 위한 데이터 차원 축소 단계에서 활용했던 UMAP 알고리즘을 시각화 도구로 다시 적용하였는데요. 앞선 UMAP이 기계학습 모델(HDBSCAN)이 군집의 밀도를 잘 파악할 수 있도록 방대한 고차원 데이터를 최적의 다차원으로 압축하는 '수학적 전처리' 과정이었다면, 이번 시각화 단계에서의 UMAP은 이미 도출된 군집들의 위상적 구조를 사람의 눈으로 직관적으로 확인할 수 있도록 '2차원 평면 위에 정교하게 투영'하는 역할을 수행합니다.
UMAP 시각화의 실행 결과 중 대표적인 몇몇 예시를 위의 카드뉴스에 제시하였는데요. 이 2차원 지도 위의 점 하나는 인터뷰 분석의 최소 단위인 발화 블록(qa_block)을 의미하며, 점들이 서로 가깝게 모여 있을수록 유사한 맥락이나 주제를 공유하는 발화임을 뜻합니다. 이처럼 UMAP 시각화는 파편적으로 흩어져 있던 개별 클러스터들 사이의 의미적 거리를 공간적으로 재구성함으로써, 질적 데이터 속에 내재된 구조적 맥락을 직관적으로 파악할 수 있도록 돕는 데 핵심적인 가교 역할을 합니다.
| 클러스터별 대표문장 추출
HDBSCAN을 통해 샘플별 각각의 클러스터를 추출하였다면, 이번 단계에서는 어떤 발화 맥락을 대표하는지 보다 직관적으로 이해하기 위해 클러스터별 대표문장 추출을 진행하였습니다. 대표문장은 해당 클러스터에 속한 모든 발화의 임베딩 중심점(centroid)과 가장 가까운 문장을 선택하는 방식으로 결정하였는데요.
여기서 임베딩 중심점이란 군집 내에 존재하는 모든 발화 벡터들의 산술 평균값을 의미합니다. 이는 다차원 의미 공간 내에서 해당 군집을 구성하는 수많은 목소리의 '공통된 중력 중심'이자, 군집의 정체성을 가장 잘 요약하는 통계적 의미를 갖는 지점이라고 할 수 있겠습니다.
위 그림에 제시된 출력 결과는 최종적으로 확정된 파라미터 설정을 통해 도출된 클러스터의 대표문장 중 하나를 발췌한 것으로, 예시로 제시된 14번 샘플의 대표문장들은 해당 클러스터들이 한국 학교생활에서의 낯선 또래 문화, 사회적 편견과 차별 경험, 그리고 이중 문화적 정체성에 대한 복합적인 감정 서사가 중심이 되어 형성된 발화 묶음임을 나타냅니다.
이 클러스터에는 한국 학생들의 학업 중심적인 문화에 대한 당혹감(대표문장: “한국 애들은 공부만 하나 봐… 시험기간 되면요… 애들 말 걸면요… 다 싫어해요.”), 타자화된 시선으로 인해 겪은 내면의 상처(대표 문장: “딱 이렇게 보면요, 차별… 다 사람인데 왜 이렇게 차별하는지 모르겠어요.”), 그리고 두 국가 사이에서 느끼는 양가적 감정과 유학 생활에 대한 자부심(대표 문장: “외국 와서 공부한다는 게… 애들이 부러워하기도 하고 저도 자랑스러워요.”)이 함께 포함되어 있습니다.
물론, 대표문장이 클러스터 내부의 내용을 완전히 대변하지 못하고 대화의 머뭇거림이나 단편적인 문맥을 잡아내는 경우(대표 문장: “아 그래, 또 좋은 점 있어? 한국 사람이기도 하고 중국 사람이기도 해서? 지혜는… (머뭇) 생각 안 나요…”)도 있으나, 수많은 발화가 공유하는 통계적 의미적 중력의 중심을 선명하게 나타낼 수 있다는 점에서 의의를 가집니다.
| 클러스터별 키워드 추출(TF-IDF)
HDBSCAN을 통해 추출된 각 클러스터가 어떤 발화 맥락을 대표하는지를 살펴보는 또 다른 방법으로는 TF-IDF 분석을 활용할 수 있습니다. TF-IDF(Term Frequency–Inverse Document Frequency)는 특정 단어가 하나의 집단 안에서 얼마나 자주 등장하는지(TF)와, 전체 집단에서는 얼마나 드물게 나타나는지(IDF)를 함께 고려해 단어의 중요도를 계산하는 기법입니다.
여기서 TF-IDF index 값이 높을수록 해당 단어는 특정 클러스터의 발화에서 반복적으로 사용되면서도, 다른 클러스터들과는 구별되는 의미적 특징을 잘 담고 있는 핵심 키워드라고 해석할 수 있습니다. 본 분석에서는 각 클러스터를 하나의 문서 집합으로 간주하고, TF-IDF index가 가장 높은 단어들을 추출하여 군집의 의미를 정량적으로 살펴보았습니다.
그림에 제시된 출력 결과를 보면, 대표문장 추출과 동일한 조건으로 샘플 14에 대해 TF-IDF 분석을 수행했을때 ‘차별’, ‘이미지’, ‘시각’과 같은 키워드가 두드러지게 나타났음을 확인할 수 있습니다. 이는 앞서 확인한 결과와 마찬가지로, 사회적 편견과 타자화된 시선이 초래한 내면의 상처가 해당 발화의 핵심 주제임을 보여줍니다. 개별 분석 결과를 살펴보면, 클러스터 3에서는 ‘중국’, ‘외국’, ‘공부’와 같은 단어들이 중심을 이루며 유학 생활과 이중 문화적 정체성에 대한 맥락이, 클러스터 0에서는 ‘학교’, ‘공부’, ‘고민’과 같은 키워드를 통해 낯선 한국 학교 환경에서의 학업적 고충과 또래 관계에 관한 발화가 하나의 의미 묶음으로 형성되어 있음을 확인할 수 있습니다.
이처럼 TF-IDF 기반 키워드 분석은 대표문장 중심의 정성적 해석과 일관된 결과를 보이며, 각 의미 군집이 어떤 주제와 경험을 중심으로 구성되어 있는지를 보다 분명하게 드러내 줍니다.
추가로 대표문장 추출 기법과 TF-IDF의 방법론적 차이를 설명드리자면, 대표문장이 군집의 전반적인 분위기를 문장 단위로 직관적으로 요약하는 반면, TF-IDF는 각 클러스터에서 통계적으로 유의미한 가중치를 가진 단어들만을 정교하게 선별하여 주제의 핵심(Core)을 수치적으로 증명한다는 점에서 차이가 존재합니다.
특히 TF-IDF 분석의 명확성을 높이기 위해서는 정교한 전처리 과정이 필수적입니다. 일차적으로 "너무", "그렇게", "그런"과 같이 반복되는 무의미한 부사들을 제거해야 하며, 더 나아가 교착어인 한국어의 언어적 특성을 반영해야 합니다. 단순 문자열 치환만 진행할 경우 조사나 어미의 결합으로 인해 "학교에", "학교가" 등이 모두 다른 단어로 인식되어 점수가 분산되고 키워드가 지저분해지는 한계가 발생하기 때문입니다.
이러한 문제를 해결하고자 TF-IDF 적용 직전에 형태소 분석기(Kiwipiepy)를 활용해 명사와 같이 의미 있는 품사만을 원형으로 추출하여 공백으로 이은 뒤 분석을 수행함으로써, 데이터의 노이즈를 통제하고 보다 정확하고 밀도 높은 핵심 키워드를 도출해낼 수 있습니다.
이번 분석에서는 <국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012> 데이터에 대해 HDBSCAN 알고리즘을 적용하여 의미 군집을 도출하고, 그 기술적인 분석 파이프라인을 상세히 설명해 드렸습니다.
내용이 다소 전문적이고 딱딱하게 느껴졌을 수도 있지만, 질적 자료에 최신 AI 방법론이 어떻게 실질적으로 접목될 수 있는지 보여드리는 과정으로 이해해 주시면 감사하겠습니다.
이어지는 2편에서는 이렇게 도출된 클러스터들에 ‘디아스포라 이론’이라는 인문학적 숨결을 불어넣어, 경계에 선 아이들의 정체성을 더욱 입체적이고 생생하게 해석해 볼 예정이니 많은 관심과 기대 부탁드립니다.
이상 서울대학교 한국사회과학자료원 서포터즈 DataBee🐝였습니다!
📍분석 자료 : 김기현. 국제결혼가정 청소년의 민족정체성에 관한 인터뷰 조사, 2012 [데이터 세트]. 한국사회과학자료원 (KOSSDA) [자료제공기관], 2021-08-09, https://doi.org/10.22687/KOSSDA-B3-2012-0004-V1.0
📢 KOSSDA 아카이브에는 이번에 보여드린 인터뷰 자료처럼 연구적 가치가 무궁무진한 질적 자료들이 보물창고처럼 가득 쌓여 있답니다. 아래 링크는 KOSSDA가 소장하고 있는 질적 자료의 종류를 다루는 김민하 서포터즈의 게시글입니다!
🔗"이런 양질의 질적자료가 있다니! KOSSDA 좋다!"
또한, KOSSDA에서 소장하고 있는 질적 자료의 아카이빙 과정이 궁금하신 분들은 KOSSDA의 질적 자료 🔗아키비스트인 김혜진 연구원의 인터뷰를 살펴보셔도 좋을 것 같아요!
그리고 최근 개최된 제20회 KOSSDA 데이터 페어에서는 'AI 활용과 연구방법론: 도구를 넘어 연구로'라는 주제 아래, AI가 질적 자료 분석을 어떻게 혁신할 수 있는지에 대한 심도 있는 논의가 이뤄졌는데요. 현장의 생생한 이야기가 궁금하신 분들을 위해 아래에 KOSSDA 유튜브 채널의 다시보기 링크를 첨부하니, AI를 활용한 사회과학 분야에서의 연구 방법론에 관심 있는 분들께 시청을 적극 추천해 드립니다. 🔗KOSSDA 유튜브 바로가기