首 页   论文发表 期刊大全 论文下载 常见问题 发表流程 免责声明 合作加盟 关于我们 诚信通道 联系我们   设为首页 加入收藏
摘要:本文对决策树技术在大学生就业数据分析中的应用进行了探讨,为大学生就业数据分析提供了新的思路和途径。
教育期刊 | 经济期刊 | 科技期刊 | 文学期刊 | 医学期刊 | 学报期刊 | 建筑期刊 | 社科期刊 | 计算机期刊 | 图书管期刊 | 农业期刊 | CSSCI期刊 | 核心期刊 | 其他期刊
教育论文 | 经济论文 | 医药论文 | 文学论文 | 艺术论文 | 英语论文 | 法学论文 | 哲学论文 | 计算机论文理学论文  | 工学论文 |  管理论文 | 政治论文 | 社会论文
资源搜索: 搜索 高级搜索
2000论文网-诚信快速的论文发表网站! 论文发表投稿信箱:qwqk2000@126.com 论文发表在线咨询QQ: 85597153 论文发表咨询电话:17351597825  

TOP

决策树在大学生就业数据分析中的应用
2014-06-16 09:10:20 来源:2000论文网 作者:何广东 【 】 浏览:0次 评论:0

决策树在大学生就业数据分析中的应用

 

何广东 保定学院数学与计算机系

 

项目基金:保定市科学技术协会自然科学课题:“决策树在大学生就业数据分析中的应用研究(课题编号:KX2013A06)”。

 

摘要:本文对决策树技术在大学生就业数据分析中的应用进行了探讨,为大学生就业数据分析提供了新的思路和途径。

 

关键词:数据挖掘;大学生就业;决策树

 

当前大学生就业数据分析已成为研究热点,多数院校还停留在数据基本管理层面,决策树技术在大学生就业数据分析中的应用并不多。本文围绕数据挖掘目标,采集大量的来自学生自身、学校等多方面的数据,对原始数据集进行预处理,然后利用决策树方法生成就业决策树模型,并使用PEP 算法进行剪枝,实现对决策树模型的优化,最后,利用决策树模型中提取的规则为高校提供科学的决策支持信息,使高校教育教学和就业指导工作更具针对性和实效性。

 

一、决策树

 

决策树实质就是对数据利用一系列规则来分类。大多数决策树算法均是采用的贪心算法,基于训练样本集和它们的相关联的类标号开始,以自顶向下递归分治的方式来构造决策树。首先使用算法的分裂准则找出一个属性作为训练样本集的分裂属性,并以此属性作为树的根节点,根据属性的不同值建立相应的分枝,训练样本集也据此被划分为相应的子集。再对各个分枝上的子集递归调用上述方法建立节点上的分枝。随着树的生长,训练样本集被递归地划分成越来越小的子集,直到所有子集仅包含同一类别的样本为止,即到达叶节点。从生成的决策树模型顶层的根节点到底层的叶节点的一条路径就是一个分类规则。

 

决策树的优势:○决策树方法的分类原理简单易懂,结果表现直观,生成的规则易于理解,很容易被使用人员理解和接受;○决策树的学习算法建立模型速度快,计算量相对来说不是很大、可以处理连续值和离散值属性;○决策树方法使用信息原理对大量样本的属性进行信息量的分析,计算各属性的信息量,找出反映类别的重要属性,清晰地属性对分类的影响程度。

 

二、数据准备

 

(一)数据采集

 

从教务处和就业指导中心获取1620 名毕业生的相关信息,以及职业能力测评结果。

 

(二)数据预处理

 

①数据清理,废除200 条无效毕业生记录;②数据集成,将来自教务处、就业指导中心、职业能力测评结果的数据集成为一个综合就业数据库;③数据选择,选择专业水平、英语水平、计算机水平、职业能力、就业单位个属性;④数据转换,按照连续型数据离散化、离散型数据类别化的原则进行数据转换。

 

三、数据挖掘

 

(一)决策树C4.5 算法生成大学生就业决策树模型

 

C4.5 算法用信息增益率作为属性选择标准。其方法是:检测所有的属性,选择信息增益率最大的属性为根节点,根据该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立节点的分支,直到所有子集仅包含同一类别的样本为止,最后得到一棵决策树模型,可以用它对新的样本分类。

 

(二)使用PEP 算法剪枝大学生就业决策树模型

 

1.PEP 算法

 

PEP 是一种不需要剪枝集,效率较高的一种后剪枝算法,基本原理如下:

 

用 表示原始树; Tt表示以节点t为根节点处的子树; e(t)表示节点 t处被错误分类的实例的数量; n(t)表示节点 t处覆盖的所有实例的数量。

 

节点 处的分类错误率为: 

 

1PEP 算法将其修正为:

 

2)设 的子树 t T , L(S)表示 t T 叶子节点的个数,则 t T 的分类错误率为:å

 

为了简便起见,在定量分析中,用错误数量代替错误率,则:

 

4)而对于子树 t T 则有:

 

5)标准误差,定义为:

 

6PEP 算法采用自顶向下的方式,如果某个非叶节点的计算结果让下式:

 

7)成立,则 t T 被剪掉,并用相应的叶子代替。

 

2.PEP 剪枝

 

使用PEP 算法按照自顶向下的方式,对直接生成的决策树模型的每个非叶子节点计算一次。根据公式(4)得出 e'(t),根据公式(5)得出 ' ( ) t e T ,再根据公式(6)得出 [ ' ( )] t SE e T 。剪掉计算结果能让式子(7)成立以的非叶子节点,并替换成叶子,最终构造出基于PEP 剪枝后的大学生就业决策树模型如图所示。

 

四、结果分析

 

从图提取的规则可以得到一些重要的结论,比如:要提高国企的就业层次,则需侧重加强专业素质的培养;要提高外企的就业层次,则需侧重加强外语水平和职业能力的培养;要提高私企的就业层次,则需侧重提高计算机水平与专业素质的培养。

 

结语

 

决策树在大学生就业数据分析中的应用具有速度快、算法简单、易实现等优点。但是,影响毕业生就业结果的因素很多,如当年某领域的社会需求、国家政策等,而这些因素在进行挖掘并没有考虑进去。如何解决上述问题,是决策树更好地应用到高校就业数据分析中值得继续探索的研究点。

 

参考文献:

 

[1]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.

 

[2]刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.

 

Tags:数据挖掘;大学生就业;决策树 责任编辑:admin
中国论文网-论文发表发表论文(www.lw2000.com),是一个专门从事期刊推广论文发表论文创作指导的机构。本站提供整体论文发表解决方案:省级论文/国家级论文/核心论文/CN论文多种期刊供你选择。
发表论文投稿信箱:qwqk2000@126.com
发表论文在线咨询:85597153
发表论文咨询电话:17351597825

】【打印繁体】 【收藏】 【关闭】 【返回顶部
上一篇没有了 下一篇高校二级学院建立科学的权力运行..

联系我们 论文发表 论文投稿

论文发表在线咨询:站点合作85597153
论文发表咨询电话:17351597825
论文发表投稿信箱:qwqk2000@126.com

相关栏目

最新文章

图片主题

热门文章

推荐文章

相关文章

论文发表 | 发表论文 | 期刊导航 | 论文下载 | 常见问题 | 发表流程 | 免责声明 | 合作加盟 | 关于我们 | 诚信通道 | 联系我们  
论文发表在线咨询:85597153 咨询电话:17351597825投稿信箱:qwqk2000@126.com
Copyright © 2008-2012http://www.lw2000.com all rights reserved 苏ICP备11037565号
论文发表、发表论文 论文发表、发表论文
电话17351597825
2000论文网 版权所有.