TM 中提炼英文文本

收集 R 代码,tm 库去除英文中的多余单词。

library('tm')

cleaning_text_file <- function(filename) {
  # Read file as a str
  text <- paste(readLines(filename), collapse=' ')

  # Filter non-words and decimals
  text <- gsub(pattern='(\W)|(\d)', replace=' ', text)

  # Lower
  text <- tolower(text)

  # Remove stop words
  text <- removeWords(text, stopwords())

  # Filter single characters
  text <- gsub(pattern='\b[A-z]\b{1}', replace=' ', text)

  # Remove extra spaces
  text <- stripWhitespace(text)

  text
}

作者: V

Web Dev

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s