数据准备步骤 | 可用R语言程序包 |
导入文本 | readtext, jsonlite, XML, antiword, readxl, pdftools |
字符串操作 | stringi, stringr |
预处理 | quanteda, stringi, tokenizers, snowballC, tm, etc. |
文档词条矩阵创建 | quanteda, tm, tidytext, Matrix |
矩阵筛选和加权 | quanteda, tm, tidytext, Matrix |