국내외 텍스트 분석 연구자들을 위한 무료 한국어/영어 텍스트 마이닝 도구
TF-IDF, 의미 네트워크 분석, 토픽 모델링, 감정 분석 및 학술 인용 지원
상용 텍스트 마이닝 도구 수준의 분석을 무료로 제공합니다
단어 빈도 및 중요도를 계산하여 핵심 키워드를 추출합니다. Top 50/100/200 단어를 한 번에 분석합니다.
통계적으로 함께 나타나는 단어쌍을 자동으로 탐지합니다. "gi hun" → "gi_hun"으로 합성합니다.
동시출현 행렬 기반 연결/근접/매개/아이겐벡터/PageRank 중심성을 계산합니다.
LDA 알고리즘으로 문서에 숨겨진 주제 구조를 발견합니다. Gensim/Sklearn 자동 선택.
Ekman 6대 기본 감정(기쁨, 슬픔, 분노, 공포, 혐오, 놀람)을 분류합니다.
데이터 수집 시 사용한 검색어를 자동으로 제거합니다. TF 결과가 더 의미있어집니다.
재현 가능한 연구를 위한 체계적인 텍스트 전처리 프로세스
각 단계의 토큰 변화량을 투명하게 리포트합니다
URL, HTML 태그, 이메일, 특수문자, 숫자 등 분석에 불필요한 노이즈를 정규표현식 기반으로 제거합니다.
한국어: KoNLPy 형태소 분석기 (Okt/Komoran), 영어: NLTK word_tokenize 사용. 언어 자동 감지 기능 포함.
점별 상호정보량(PMI ≥ 5.0)으로 통계적으로 유의미한 연어를 탐지하고 합성어로 결합합니다.
Church & Hanks (1990). doi:10.1162/coli.1990.16.1.22
영어: NLTK 불용어 사전, 한국어: 조사, 어미, 접속사 등 문법적 기능어 제거. 사용자 정의 불용어 지원.
WordNet 기반 표제어 추출로 단어의 기본형을 통일합니다. (예: running, ran, runs → run)
데이터 수집 시 사용된 검색어(예: "squid game")를 자동 탐지하여 제거합니다. TF 결과의 타당성을 높입니다.
본 플랫폼의 분석 기법은 다음의 학술 문헌에 기반합니다 (Chicago Style)
Spärck Jones, Karen. "A Statistical Interpretation of Term Specificity and Its Application in Retrieval." Journal of Documentation 28, no. 1 (1972): 11-21. doi:10.1108/eb026526
Church, Kenneth Ward, and Patrick Hanks. "Word Association Norms, Mutual Information, and Lexicography." Computational Linguistics 16, no. 1 (1990): 22-29. doi:10.1162/coli.1990.16.1.22
Freeman, Linton C. "Centrality in Social Networks: Conceptual Clarification." Social Networks 1, no. 3 (1978): 215-239. doi:10.1016/0378-8733(78)90021-7
Blei, David M., Andrew Y. Ng, and Michael I. Jordan. "Latent Dirichlet Allocation." Journal of Machine Learning Research 3 (2003): 993-1022. ISSN:1532-4435
Ekman, Paul. "An Argument for Basic Emotions." Cognition & Emotion 6, no. 3-4 (1992): 169-200. doi:10.1080/02699939208411068
Mohammad, Saif M., and Peter D. Turney. "Crowdsourcing a Word-Emotion Association Lexicon." Computational Intelligence 29, no. 3 (2013): 436-465. doi:10.1111/j.1467-8640.2012.00460.x