基于Clementine的C5.0决策树实例分析（二）-中国指数网

基于Clementine的C5.0决策树实例分析（二）

来源：互联网日期：2015-10-14

数据挖掘的数据通常以变量为列，样本为行的二维表形式组织，所以，Clementine数据的基本管理包括变量管理和样本管理两大方面。变量管理和样本管理是数据准备的重要方面，是建立数据模型的前提和基础。

（一）变量说明

变量说明是对读入数据流中变量取值的有效性进行限定、检查和修正，同时指明各个变量在未来建模中的角色。一方面，变量说明是确保高质量数据的有效手段，另一方面也是明确变量建模地位的重要途径。

建立Excel节点，读入Student.xls数据，利用表节点来查看数据。

图1——导入数据

双击“表”，浏览数据发现：①家庭人均年收入变量中有部分样本取$null$，为系统缺失值；另外一个由于不明原因而明显错误的数据999999。应对它们进行恰当修正。②是否无偿献血变量值填写不规范，规范值应为Yes和No，但出现了1（表示Yes）和0（表示No）。应将1替换为Yes，0替换为No。

图2——部分数据

1、取值范围和缺失值的说明

取值范围即指变量正常值的区间。缺失值通常包括两类，一类是系统缺失值，Clementine用$null$表示，还包括空格或空白等。另一类是用户缺失值，主要指那些取值明显不合理的数据。

这里，首先，添加变量值标签以规范是否无偿献血的取值，指定用户缺失值；其次，说明家庭人均年收入的合理取值范围。为此，在数据流中添加类型节点，选择是否无偿献血和家庭人均年收入变量，分别选择两个变量的“缺失”列，选择指定，定义变量取值范围、用户缺失值等信息。

图3——取值范围和缺失值说明

为指示是否无偿献血的合理取值，分别在Yes和No行对应的标签列中输入变量值标签“无偿献血”、“未无偿献血”；家庭人均年收入的取值范围不能直接由外部数据决定，否则Clementine将视999999（用户缺失值）为正常值。手工输入合理的取值区间为7333.0至74460.0，这样该值则为不合理取值。“定义空白”选项，选中该选项，表示视下列值为空白。