R을 사용한 Twitter 데이터 워드클라우드 생성 가이드

Source

  • Evernote/Advanced View Required/R 사용하기 – 1. Twitter 내용을 검색해서 wordcloud 로 표현하기 kth 개발자 블로그.md

Summary

이 문서는 R 언어를 활용하여 Twitter 데이터를 수집하고 워드클라우드(wordcloud)로 시각화하는 과정을 단계별로 설명한다. 주요 흐름은 twitteR 패키지를 통한 키워드 검색, KoNLP 및 tm 패키지를 이용한 한국어 명사 추출과 전처리(불필요 문자 제거, 정지어 필터링), 그리고 wordcloud 패키지를 통한 시각화이다. 2013 년 작성된 예제이므로 현재 API 환경과는 다를 수 있으나, R 기반 텍스트 마이닝의 기본 파이프라인을 이해하는 데 참고할 수 있다.

Key Points

  • R 은 오픈소스 데이터 분석 언어로, 다양한 패키지를 통해 빅데이터 분석 및 데이터 마이닝에 활용된다.
  • 주요 사용 패키지: twitteR(데이터 수집), KoNLP(한국어 형태소 분석), tm(텍스트 마이닝 전처리), wordcloud(시각화), plyr(데이터 조작).
  • 데이터 수집: searchTwitter 함수를 사용하여 특정 키워드, 기간, 언어 조건에 맞는 트윗을 검색한다.
  • 전처리 과정: 트윗 텍스트에서 줄바꿈, RT, URL 등 불필요한 문자를 제거하고, KoNLP 로 명사를 추출한다.
  • 정제: tm 패키지의 stopwords 로 영문 정지어를 제거하고, 기호 및 짧은 문자열을 필터링하여 의미 있는 단어만 남긴다.
  • 시각화: 단어 빈도수를 계산한 후 wordcloud 함수로 크기, 색상, 폰트 (맑은 고딕) 등을 설정하여 워드클라우드를 생성한다.