前言
1
数据的读入与处理
1.1
数据读入:以.dta格式为例
1.2
数据处理1
1.2.1
R中的变量类型
1.3
数据处理2
1.4
数据处理3
1.4.1
诊断数据集
1.4.2
处理异常值和缺失值
2
表格
2.1
变量标签
2.2
gtsummary包
2.2.1
函数
tbl_summary()
的默认输出
2.2.2
函数
tbl_summary()
的分组比较
2.2.3
函数
tbl_gtsummary()
的自定义输出
2.2.4
函数
tbl_cross
2.3
table1包
2.3.1
无分层
2.3.2
有分层
2.3.3
一个分层
2.3.4
两个分层
2.4
KableExtra
包
2.4.1
小试牛刀
3
图形
3.1
ggplot2
3.1.1
散点图 抖散图 箱线图 直方图
3.1.2
密度图 提琴图 山峦图 椭圆图 2D密度图
3.1.3
图的分面{facet_grid() / facet_wrap()}
3.1.4
图上标注文本
3.2
plotly
3.2.1
基本图形
4
自动报告
4.1
使用方法
5
线性回归
5.1
简单线性回归介绍
5.2
一元线性回归
5.2.1
模型建立
5.2.2
模型结果解读
5.2.3
残差分析
5.2.4
其他线性模型
5.2.5
高阶拟合
5.3
多元线性回归
5.3.1
模型汇总
5.3.2
交互模型效应
6
二分变量回归
6.1
二值型回归模型
6.2
更多的包 {two-logit-o}
6.2.1
Zelig {two-logit-o1}
6.2.2
rms包 {two-logit-o2}
6.3
交互效应与可视化
6.3.1
对方程进行方差分析
7
简单的机器学习
7.1
决策树模型
7.2
随机森林模型
7.3
预测身价
8
英文文本分析
8.1
整洁文字
8.2
词频count
8.3
词云
8.4
分析单词和文档频率:tf-idf
8.4.1
简.奥斯汀小说中的术语频率
8.4.2
Zipf’s law
8.4.3
bind_tf_idf ()函数
8.5
案例分析:挖掘NASA元数据
9
中文文本分析
9.1
安装拓展包和导入
9.1.1
安装拓展包
9.1.2
导入文档,建议用记事本,格式为UTTF-8 运用scan函数
9.2
结巴分词处理
9.2.1
制作词表
9.3
运用SQL
9.3.1
安装并载入sqldf程序包 >group by“根据一定的规则进行分组”,通过一定的规则将一个数据集划分成若干个笑的区域,然后针对若干个小区域进行数据处理 >count(1)来计数 >select检索数据
9.3.2
按顺序排列
9.3.3
抽取频次为前一百的词语
9.4
绘制词云
9.5
词频可视化
9.5.1
barplot绘制排名前30的高频词 第一个参数源为数据源,第二个参数源为标签
9.5.2
利用pie函数绘制饼图对高频词语进行可视化
References
2020级创新班R课程内容总集(修改版)
References