목차

🚀 1. 빠른 시작 가이드

  1. 파일 업로드: CSV, Excel(.xlsx), 또는 TXT 파일을 업로드합니다.
  2. 분석 컬럼 선택: 텍스트가 포함된 컬럼을 선택합니다.
  3. 전처리 옵션 설정: 불용어 제거, 최소 단어 길이 등을 설정합니다.
  4. 분석 실행: "분석 시작" 버튼을 클릭합니다.
  5. 결과 확인: TF, TF-IDF, 네트워크 중심성, 토픽 모델링, 감정 분석 결과를 확인합니다.
  6. 다운로드: Excel 파일로 결과를 다운로드합니다.
💡

분석 시간은 문서 수와 텍스트 길이에 따라 달라지며, 일반적으로 500개 문서 기준 1-2분 소요됩니다.

📁 2. 지원 파일 형식

형식 확장자 권장 사용 주의사항
CSV .csv ✅ 권장 UTF-8 인코딩 권장
Excel .xlsx, .xls ✅ 권장 첫 번째 시트만 분석
텍스트 .txt ⚠️ 제한적 줄 단위로 문서 구분
⚠️

파일 크기는 최대 50MB까지 지원합니다. 대용량 파일은 분할하여 업로드하세요.

🔧 3. 전처리 파이프라인

Text Lab. 911은 8단계 전처리 파이프라인을 통해 원시 텍스트를 분석에 적합한 형태로 변환합니다. 각 단계의 토큰 수 변화는 전처리 리포트에서 확인할 수 있어 연구의 재현성을 보장합니다.

3.1 텍스트 정제 (Text Cleaning)

URL, HTML 태그, 이메일 주소, 특수문자, 숫자 등 분석에 불필요한 노이즈를 정규표현식 기반으로 제거합니다.

3.2 토큰화 (Tokenization)

텍스트를 의미 있는 단위(토큰)로 분리합니다.

3.3 PMI Collocation 탐지

점별 상호정보량(Pointwise Mutual Information)을 사용하여 통계적으로 유의미하게 함께 나타나는 단어쌍(연어)을 탐지합니다. PMI ≥ 5.0인 단어쌍은 합성어로 결합됩니다.

Church, Kenneth Ward, and Patrick Hanks. "Word Association Norms, Mutual Information, and Lexicography." Computational Linguistics 16, no. 1 (1990): 22-29. doi:10.1162/coli.1990.16.1.22

3.4 불용어 제거 (Stopword Removal)

분석에 의미 없는 기능어(조사, 어미, 접속사 등)를 제거합니다.

3.5 표제어 추출 (Lemmatization)

WordNet 기반으로 단어의 기본형(lemma)을 추출하여 형태가 다른 동일 개념을 통일합니다.

예: running, ran, runs → run

3.6 검색 키워드 제거

데이터 수집 시 사용된 검색어를 자동으로 탐지하여 제거합니다. 이를 통해 TF 결과의 타당성을 높입니다.

3.7 최종 필터링

최소 단어 길이, 최소 빈도 등의 조건에 따라 최종 필터링을 수행합니다.

3.8 리포트 생성

각 단계별 토큰 수 변화량을 기록하여 전처리 리포트를 생성합니다.

📊 4. 분석 기능 설명

4.1 TF (Term Frequency)

단어가 전체 코퍼스에서 출현한 총 횟수를 계산합니다. 높은 빈도의 단어는 해당 텍스트 집합의 중심 주제를 나타낼 수 있습니다.

4.2 TF-IDF (Term Frequency-Inverse Document Frequency)

단어 빈도(TF)에 역문서빈도(IDF)를 곱하여 전체 문서에서 흔한 단어의 가중치를 낮추고, 특정 문서에서만 자주 등장하는 단어의 중요도를 높입니다.

Spärck Jones, Karen. "A Statistical Interpretation of Term Specificity and Its Application in Retrieval." Journal of Documentation 28, no. 1 (1972): 11-21. doi:10.1108/eb026526

4.3 동시출현 행렬 (Co-occurrence Matrix)

동일 문서(또는 윈도우) 내에서 함께 출현하는 단어쌍의 빈도를 행렬로 표현합니다. 의미 네트워크 분석의 기반 데이터입니다.

4.4 네트워크 중심성 (Network Centrality)

동시출현 네트워크에서 각 단어의 구조적 중요도를 측정합니다.

중심성 측정 대상 해석
연결 중심성 (Degree) 직접 연결된 노드 수 활발한 공기 관계
근접 중심성 (Closeness) 모든 노드까지 평균 거리 정보 확산 효율성
매개 중심성 (Betweenness) 최단경로 상 위치 의미 연결의 중개자
아이겐벡터 중심성 중요 노드와의 연결 영향력 있는 노드와의 관계
PageRank 재귀적 중요도 중요한 노드로부터의 참조

Freeman, Linton C. "Centrality in Social Networks: Conceptual Clarification." Social Networks 1, no. 3 (1978): 215-239. doi:10.1016/0378-8733(78)90021-7

4.5 토픽 모델링 (LDA)

Latent Dirichlet Allocation(LDA)을 사용하여 문서 집합에서 잠재된 주제(토픽)를 자동으로 추출합니다.

Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent Dirichlet Allocation." Journal of Machine Learning Research 3 (2003): 993-1022.

4.6 감정 분석

Ekman(1992)의 6대 기본 감정 이론에 기반하여 텍스트의 감정을 분류합니다: 기쁨(Joy), 슬픔(Sadness), 분노(Anger), 두려움(Fear), 혐오(Disgust), 놀람(Surprise).

Ekman, Paul. "An Argument for Basic Emotions." Cognition & Emotion 6, no. 3-4 (1992): 169-200. doi:10.1080/02699939208411068

📈 5. 결과 해석 가이드

5.1 TF/TF-IDF 해석

순위 범위 분류 해석
Top 10 핵심 주제어 텍스트 집합의 중심 개념
Top 11-50 주요 관련어 핵심 주제와 밀접한 관련 개념
Top 51-200 맥락어 배경 및 세부 맥락 제공

5.2 중심성 해석

값 범위 해석
≥ 0.8 핵심 허브 노드 (Core Hub)
0.5 - 0.8 주요 연결자 (Major Connector)
< 0.5 주변부 노드 (Peripheral Node)

5.3 토픽 응집도 해석

C_v 값 품질 권장 조치
> 0.5 우수 해석 진행
0.4 - 0.5 양호 해석 가능, 검토 필요
< 0.4 재검토 필요 토픽 수 조정 권장

📚 6. 학술 인용 방법

Text Lab. 911을 사용한 연구에서는 다음과 같이 인용해 주시기 바랍니다:

소프트웨어 인용 (APA 7th)

서정호. (2026). Text Lab. 911 (버전 2.1) [컴퓨터 소프트웨어]. 가천대학교 미디어커뮤니케이션학과. https://textlab911.gachon.ac.kr

소프트웨어 인용 (Chicago Style)

서정호. Text Lab. 911. 버전 2.1. 가천대학교 미디어커뮤니케이션학과, 2026. https://textlab911.gachon.ac.kr.

방법론 기술 예시

텍스트 전처리 및 분석은 Text Lab. 911 (서정호, 2026)을 사용하여 수행되었다. 전처리 과정은 텍스트 정제, 토큰화, PMI 기반 연어 탐지 (Church & Hanks, 1990), 불용어 제거, 표제어 추출의 8단계로 구성되었으며, 각 단계별 토큰 변화량은 전처리 리포트를 통해 확인하였다. TF-IDF는 Spärck Jones (1972)의 방법을, 네트워크 중심성은 Freeman (1978)의 정의를 따랐다.

❓ 7. 자주 묻는 질문

Q: 분석 결과를 UCINET/Netdraw에서 사용하려면?

A: Excel 결과 파일의 "Co-occurrence Matrix" 시트를 UCINET에서 Import하면 됩니다. 형식은 DL format과 호환됩니다.

Q: 한국어 분석이 안 됩니다.

A: Java 런타임과 KoNLPy가 설치되어 있는지 확인하세요. 설치 가이드는 KoNLPy 문서를 참조하세요.

Q: 토픽 수는 어떻게 결정하나요?

A: 일반적으로 문서 수의 제곱근 또는 5-10개로 시작하여 응집도(Coherence Score)를 확인하며 조정합니다.

Q: 분석 중 서버가 멈춥니다.

A: 메모리 부족일 수 있습니다. 문서 수를 줄이거나, 서버 메모리를 늘려주세요.