- 文本数据挖掘:基于R语言
- 黄天元编著
- 474字
- 2021-07-08 12:07:01
2.2 R的基本数据类型
R语言是一门面向数据的语言,因此用户必须熟悉R体系中的基本数据类型。R中常用的数据类型包括数值型、逻辑型、字符型和因子型4种,以下一一进行介绍。
2.2.1 数值型
数值型,顾名思义就是数字,如19960524。可以用class函数来查看数据的类型。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_01.jpg?sign=1739672581-VcaCzdgJ7VolAlbDHY4g16NBUqXPusqS-0-eeef2ef629089ad74a6105066d3540d7)
可看到,这是一个数值型。其实数值还有更深层的分类,就是整数型和双精度型,可以用来表示整数和正整数。如果要表示整数,一般在数字后面加入“L”。可以用typeof函数来看到细分的数据差别。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_02.jpg?sign=1739672581-TQB7wBRLKqvuEMfvzNsmUzLtIRCThldX-0-e4a26a71b1314c9f93cabd5709882e98)
R中还有一种数据类型叫作复数型,可以表示数学中的虚数,表示方法如下。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_03.jpg?sign=1739672581-zOnaSDuFvHVBHOp2FhzDoYrXmYHQO9bL-0-7a4e4f4ac0c0f84dd9e9028305b325c7)
由于在文本数据挖掘中不常用,这里不展开介绍这种数据类型。
2.2.2 逻辑型
逻辑型的数据,一般是指非黑即白的两种:真(TRUE)与假(FALSE)。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_04.jpg?sign=1739672581-B2FtguEgWruklG3fJs5oTa4jZrieYoS5-0-0936c8e937cfc5c6dac23a876a3aa38d)
TRUE和FALSE都是R中的保留字符,它们还可以分别简写为T和F。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_05.jpg?sign=1739672581-g9ykJMSEkDqo4lr9HDKPk8PPi5qCtnIv-0-8869ab59e50279cf631727de7f4e795b)
值得注意的是,R中表示缺失值的保留字NA也是逻辑型数据。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/23_06.jpg?sign=1739672581-l2eYbCLZx4DulLJNIleUoBP19C6cdtzZ-0-9d2ba9225ed27f4b77b4e6fc0e00e187)
2.2.3 字符型
字符型就是字符串,在文本数据挖掘中,所有文本格式的数据都属于这种类型,如“R语言”“文本数据挖掘”,就都是字符串。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/24_01.jpg?sign=1739672581-FjbO4L2uCKAZK0qxHneXuVZk40twFYxy-0-9a5f3828323715de5c63d09d29ff0138)
2.2.4 因子型
因子型是R中独特的数据结构,它代表了字符与数字的映射关系,可以表示离散型的数据。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/24_02.jpg?sign=1739672581-gQ7qeZlMM5CCMdDnlaMTsv9xYjHDsGZw-0-fe100d7a7925b72c1f0773e34120eb80)
使用levels函数可以看到因子变量的等级。
![](https://epubservercos.yuewen.com/CB81A2/20516007901591506/epubprivate/OEBPS/Images/24_03.jpg?sign=1739672581-HwvIdIHb4zaNJWh1iMpDWFajjRMXJp0M-0-691ad37b4237e8e2c38ab53b585fbcb0)