v2.1 Academic Edition - 학술 연구를 위한 텍스트 분석 플랫폼

Text Lab. 911
텍스트 분석 플랫폼

국내외 텍스트 분석 연구자들을 위한 무료 한국어/영어 텍스트 마이닝 도구
TF-IDF, 의미 네트워크 분석, 토픽 모델링, 감정 분석 및 학술 인용 지원

🚀 분석 시작하기 📖 도움말 📧 문의

Features

강력한 분석 기능

상용 텍스트 마이닝 도구 수준의 분석을 무료로 제공합니다

📊

TF / TF-IDF 분석

단어 빈도 및 중요도를 계산하여 핵심 키워드를 추출합니다. Top 50/100/200 단어를 한 번에 분석합니다.

🔗

PMI Collocation NEW

통계적으로 함께 나타나는 단어쌍을 자동으로 탐지합니다. "gi hun" → "gi_hun"으로 합성합니다.

🕸️

네트워크 중심성

동시출현 행렬 기반 연결/근접/매개/아이겐벡터/PageRank 중심성을 계산합니다.

🏷️

토픽 모델링

LDA 알고리즘으로 문서에 숨겨진 주제 구조를 발견합니다. Gensim/Sklearn 자동 선택.

😊

감정 분석

Ekman 6대 기본 감정(기쁨, 슬픔, 분노, 공포, 혐오, 놀람)을 분류합니다.

🔍

검색 키워드 제거 NEW

데이터 수집 시 사용한 검색어를 자동으로 제거합니다. TF 결과가 더 의미있어집니다.

Methodology

8단계 학술 전처리 파이프라인

재현 가능한 연구를 위한 체계적인 텍스트 전처리 프로세스
각 단계의 토큰 변화량을 투명하게 리포트합니다

1 텍스트 정제

→

2 토큰화

→

3 PMI Collocation

→

4 스톱워드 제거

→

5 Lemmatization

→

6 키워드 제거

→

7 최종 필터링

→

8 리포트 생성

1 텍스트 정제 (Text Cleaning)

URL, HTML 태그, 이메일, 특수문자, 숫자 등 분석에 불필요한 노이즈를 정규표현식 기반으로 제거합니다.

2 토큰화 (Tokenization)

한국어: KoNLPy 형태소 분석기 (Okt/Komoran), 영어: NLTK word_tokenize 사용. 언어 자동 감지 기능 포함.

3 PMI Collocation 탐지

점별 상호정보량(PMI ≥ 5.0)으로 통계적으로 유의미한 연어를 탐지하고 합성어로 결합합니다.
Church & Hanks (1990). doi:10.1162/coli.1990.16.1.22

4 불용어 제거 (Stopword Removal)

영어: NLTK 불용어 사전, 한국어: 조사, 어미, 접속사 등 문법적 기능어 제거. 사용자 정의 불용어 지원.

5 표제어 추출 (Lemmatization)

WordNet 기반 표제어 추출로 단어의 기본형을 통일합니다. (예: running, ran, runs → run)

6 검색 키워드 제거

데이터 수집 시 사용된 검색어(예: "squid game")를 자동 탐지하여 제거합니다. TF 결과의 타당성을 높입니다.

Academic Foundation

이론적 기반 및 참고문헌

본 플랫폼의 분석 기법은 다음의 학술 문헌에 기반합니다 (Chicago Style)

📊 TF-IDF (Term Frequency-Inverse Document Frequency)

Spärck Jones, Karen. "A Statistical Interpretation of Term Specificity and Its Application in Retrieval." Journal of Documentation 28, no. 1 (1972): 11-21. doi:10.1108/eb026526

🔗 PMI (Pointwise Mutual Information)

Church, Kenneth Ward, and Patrick Hanks. "Word Association Norms, Mutual Information, and Lexicography." Computational Linguistics 16, no. 1 (1990): 22-29. doi:10.1162/coli.1990.16.1.22

🕸️ 네트워크 중심성 (Network Centrality)

Freeman, Linton C. "Centrality in Social Networks: Conceptual Clarification." Social Networks 1, no. 3 (1978): 215-239. doi:10.1016/0378-8733(78)90021-7

🏷️ LDA (Latent Dirichlet Allocation)

Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent Dirichlet Allocation." Journal of Machine Learning Research 3 (2003): 993-1022. ISSN:1532-4435

😊 감정 분석 (Ekman's Basic Emotions)

Ekman, Paul. "An Argument for Basic Emotions." Cognition & Emotion 6, no. 3-4 (1992): 169-200. doi:10.1080/02699939208411068

📚 NRC Emotion Lexicon

Mohammad, Saif M., and Peter D. Turney. "Crowdsourcing a Word-Emotion Association Lexicon." Computational Intelligence 29, no. 3 (2013): 436-465. doi:10.1111/j.1467-8640.2012.00460.x

Text Lab. 911 텍스트 분석 플랫폼