| 数据准备步骤 | 可用R语言程序包 |
| 导入文本 | readtext, jsonlite, XML, antiword, readxl, pdftools |
| 字符串操作 | stringi, stringr |
| 预处理 | quanteda, stringi, tokenizers, snowballC, tm, etc. |
| 文档词条矩阵创建 | quanteda, tm, tidytext, Matrix |
| 矩阵筛选和加权 | quanteda, tm, tidytext, Matrix |