数据准备步骤

可用R语言程序包

导入文本

readtext, jsonlite, XML, antiword, readxl, pdftools

字符串操作

stringi, stringr

预处理

quanteda, stringi, tokenizers, snowballC, tm, etc.

文档词条矩阵创建

quanteda, tm, tidytext, Matrix

矩阵筛选和加权

quanteda, tm, tidytext, Matrix