首 页   论文发表 期刊大全 论文下载 常见问题 发表流程 免责声明 合作加盟 关于我们 诚信通道 联系我们   设为首页 加入收藏
本文详细论述了 C4.5 算法的原理及计算过程,并运用C4.5算法对某高校2011级电子信息工程专业的学生成绩数据进行分析。首先确定数据挖掘对象,进行样本采集,选择影响成绩的重要属性;然后运用C4.5算法对成绩数据进行分析挖掘从而生成决策树,为今后的教学工作提供指导,以此提高学生的成绩。
教育期刊 | 经济期刊 | 科技期刊 | 文学期刊 | 医学期刊 | 学报期刊 | 建筑期刊 | 社科期刊 | 计算机期刊 | 图书管期刊 | 农业期刊 | CSSCI期刊 | 核心期刊 | 其他期刊
教育论文 | 经济论文 | 医药论文 | 文学论文 | 艺术论文 | 英语论文 | 法学论文 | 哲学论文 | 计算机论文理学论文  | 工学论文 |  管理论文 | 政治论文 | 社会论文
资源搜索: 搜索 高级搜索
2000论文网-诚信快速的论文发表网站! 论文发表投稿信箱:qwqk2000@126.com 论文发表在线咨询QQ: 85597153 论文发表咨询电话:17351597825  

TOP

决策树 C4.5 算法在学生成绩管理系统中的分析及其应用
2015-12-25 13:55:10 来源: 作者:王芷若 胡云琴 【 】 浏览:0次 评论:0

【文章摘要】

 

   本文详细论述了 C4.5 算法的原理及计算过程,并运用C4.5算法对某高校2011级电子信息工程专业的学生成绩数据进行分析。首先确定数据挖掘对象,进行样本采集,选择影响成绩的重要属性;然后运用C4.5算法对成绩数据进行分析挖掘从而生成决策树,为今后的教学工作提供指导,以此提高学生的成绩。

 

【关键词】

 

C4.5算法 决策树 学生成绩

 

引言

 

现今高校中,学生人数逐年增多,学生成绩信息也日益复杂,学生信息的管理对于学校而言也越来越重要。传统的学生成绩管理系统仅仅停留在对于已获得的数据进行一些表层的处理(如查询、统计等),并未能通过数据之间潜在的联系找到有价值的信息,因此将数据挖掘技术应用到学生成绩管理中,是当今高校教学管理的发展趋势。

 

本文着重研究数据挖掘技术中的决策树算法,决策树算的经典算法有ID3C4.5CLSCART 等。其中,C4.5 算法是基于ID3的一个改进算法,它不仅继承了ID3算法的优点,而且拥有自身的特点和优势,2006 年 12 月,C4.5 算法被评为数据挖掘领域的十大经典算法中排名第一。如今,C4.5算法已经广泛应用于医疗、建筑、金融等行业。在文中,笔者主要对C4.5算法的理论进行深入地研究和分析,并将C4.5算法应用在高校学生成绩分析中,给出分析结果。

 

决策树及其 C4.5 算法

 

1.1 决策树的概述

 

决策树是一种十分常用的分类方法,采用自顶向下的递归方式,将杂乱无章的数据整理成一种有规则的树结构。其中每个内部结点表示一个属性测试,每个分支表示对一个测试输出,每个叶节点则是变量值相应对的数据集合空间的子集。所以,决策树是一棵从根到结点一条路径对应着一套规则的分类树。

 

1.2 C4.5 算法

 

C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法。假设有一个训练集 D是有 个不同取值离散属性,划分为S1S2,……,Sn n个子集,有m个类别,将这些类别设置为 {C1C2,……,Cm}

 

ID算法,我们已经熟知信息的计算公式,在此不再重复。同时,由信息熵我们可以得到一组信息增益为:Gain(A)=info(D)infoA(D) ;则信息增益率为 :GainRatio= ;其中,SplitE(A) 是一个用来考虑分裂信息的度量,分裂信息用于衡量属性分裂数据的广度和均匀程度,其计算公式为 :SplitE(A)= 

 

其中,v是属性集合A中的某个属性的全部取值。

 

C4.5算法是计算每个属性的信息增益率,然后从中选择集合D的信息增益率的最高的属性,以作为一个节点,并作为标记属性,再对该节点进行分裂。如此反复地递归地生成树。

 

学生成绩的数据挖掘

 

2.1 数据准备 

 

学生的基本情况,包括学号、姓名、性别、专业等,可从教务处获得学生的学习情况,包括基础知识掌握程度、上机时间等,可设计一张调查表对学生进行问卷调查获得学生的成绩情况,包括学号、姓名、性别、专业、课程名称、成绩等,可从教务处获得。

 

2.2 数据预处理

 

此过程一般要经过数据集成、清理、转换、归约这四个步骤。为了建立决策树模型,本例中选择性别、基础知识掌握程度、上机时间这三个与成绩相关性较大的属性作为建立决策树模型的依据。本例中收集了2011级电子信息工程专业的320条学生成绩信息来建立决策树模型,其中三分之二数据作为训练集,三分之一数据作为测试集。其中,基础知识掌握程度分为:不好、一般、好;一周上机时间经过离散化处理后分为:少于2小时为<224小时位24,多于4小时为>4;分类属性为:成绩<60的为不及格,成绩 6080 的为良好,成绩 >80 的为优秀。

 

2.3 构建决策树的计算过程

 

以学生成绩的不及格、良好以及优秀为例说明构造决策树的计算过程 :

 

首先,计算成绩为不及格、良好、优秀的分类所需的信息熵的值为1.1101582067719973。然后以“基础知识掌握程度”决策属性为例,按照以上公式可计算它为“好、一般、不好”这三个类别时的信息熵分别为:0.1102352351232546933423934432320030.26626684897980446

 

按照属性基础知识掌握程度划分S后样本子集的信息熵为0.7107414284262594

 

信息增益值Gain(基础知识掌握程度 的 值 为 0.39941677834573786。分裂信息SplitE(基础知识掌握程度)的值为 1.2686583529964333。则基础知识掌握程度属性列的信息增益率的值为0.31483399561620257。同理,可得出决策属性为上机时间信息增益率和性别的信息增益率分别为0.381351132593813540.016149189936541544

 

通过比较,我们可以发现信息增益率最大的是“上机时间”决策属性,所以我们应该把“上机时间”决策属性作为根节点,按照以上计算方法,依据比较信息增益率的大小,再对每个分支的节点属性进行确定。

 

2.4 决策树规则提取 

 

由以上计算过程,我们可以得到一个完整的决策树,但为了消除噪声数据和异常点,我们对决策树采取剪枝策略。剪枝后生成的决策树可以直接从中提取决策规则。

 

总结

 

通过对模型的测试,我们发现绝大多数情况与实际情况是相符合的,并且准确率超过了预定的阂值,因此,该决策树模型能够满足用户的需求。

 

C4.5 算法是一个十分经典的决策树算法,虽然属性信息增益率计算量大,花的时间多,但产生的分类规则易于理解,准确率高,并在系统应用中取得了良好的效果,为下一步教学工作提供有力的指导,从而提高教学质量。

 

【参考文献】

 

[1]任承业,罗伟其。校园信息系统中CRM与数据挖掘的结合和应用[J].计算机工程与应用 .2003,7(13):230-232

 

[2]齐晓峰.数据挖掘技术在学生成绩管理中的应用研究[D].辽宁工程技术大学 ,2006.

 

[3] 李楠,等 决策树 C4.5 算法在数据挖掘中的分析及其应用[J].计算机与现代化 ,2008(12):160-163

 

[4]胡可云,田凤占,黄厚宽.数据挖掘理论与应用 [M]. 第一版 .2008年 :18-23

 

 

Tags:决策树 C4.5 算法 学生 成绩 管理系统 分析 及其 应用 责任编辑:admin
中国论文网-论文发表发表论文(www.lw2000.com),是一个专门从事期刊推广论文发表论文创作指导的机构。本站提供整体论文发表解决方案:省级论文/国家级论文/核心论文/CN论文多种期刊供你选择。
发表论文投稿信箱:qwqk2000@126.com
发表论文在线咨询:85597153
发表论文咨询电话:17351597825

】【打印繁体】 【收藏】 【关闭】 【返回顶部
上一篇没有了 下一篇计算机中 C语言的应用特点分析

联系我们 论文发表 论文投稿

论文发表在线咨询:站点合作85597153
论文发表咨询电话:17351597825
论文发表投稿信箱:qwqk2000@126.com

相关栏目

最新文章

图片主题

热门文章

推荐文章

相关文章

论文发表 | 发表论文 | 期刊导航 | 论文下载 | 常见问题 | 发表流程 | 免责声明 | 合作加盟 | 关于我们 | 诚信通道 | 联系我们  
论文发表在线咨询:85597153 咨询电话:13218666889投稿信箱:qwqk2000@126.com
Copyright © 2008-2012http://www.lw2000.com all rights reserved 苏ICP备11037565号
论文发表、发表论文 论文发表、发表论文
电话17351597825
2000论文网 版权所有.