数据挖掘技术分析论文(精选5篇)

  • 数据挖掘技术分析论文(精选5篇)已关闭评论
  • A+
所属分类:文学
摘要

一、计算机数据挖掘技术开发流程 1.1明确数据挖掘目的 由于数据挖掘技术的功能是多种多样的,所以在开发具体的计算机数据挖掘技术过程中需要根据自身需要明确数据挖掘目的,进而选择对应数据库。因为在开发过程中,不同的数据挖掘目标需要依靠不同的挖掘技…

数据挖掘技术分析论文(精选5篇)

数据挖掘技术分析论文范文第1篇

【关键词】 计算机 数据挖掘技术 开发

引言:计算机数据挖掘技术是基于计算机原有的功能基础之上,融入了一些统计学理论,使人们可以利用数据挖掘技术在众多的计算机系统内部的信息中抓取自己需要的信息和数据。计算机数据挖掘技术的出现极大的促进了社会整体的进步,引领了社会各个领域内的数据量潮流,人们要想在无限的数据中采集有用信息,就必须深入计算机数据挖掘技术的开发研究。

一、计算机数据挖掘技术开发流程

1.1明确数据挖掘目的

由于数据挖掘技术的功能是多种多样的,所以在开发具体的计算机数据挖掘技术过程中需要根据自身需要明确数据挖掘目的,进而选择对应数据库。因为在开发过程中,不同的数据挖掘目标需要依靠不同的挖掘技术数据算法,如果目的不明很容易造成最终开发结果的偏差[1]。

1.2数据选择和预处理

明确数据挖掘目标、数据库后还要对所持有的数据进行选择和预处理,数据选择是要将数据中的部分信息纳入数据挖掘研究范围内,预处理是将这些数据中的错误信息进行删除和修正,确保列下有用信息。

1.3数据挖掘

数据挖掘过程中要有两个步骤,其一是根据挖掘目标确定接下来要利用的开发技术和采用的算法,其二是在确定了挖掘技术和数据算法后构建出数学模型,以此来推动挖掘技术的开发。

1.4评估结果

评估结果的最大作用就是对开发出的数据挖掘结果进行科学评估,对数据挖掘技术的开发成果进行检测和验证。如果数据挖掘结果不能够达到数据挖掘开发目的要求,就要及时进行修正,如果数据开发结果符合数据开发目的要求,那么就可以将其投入到实践应用之中[2]。

二、计算机数据挖掘技术开发

1、可视化技术开发。要想得到有效的信息,就需要从计算机系统中获得的信息入手,但是当前的网络信息中存在不少的隐性信息,这些信息的获得就要依靠计算机数据挖掘技术。采用计算机挖掘技术可以有效的抓取隐性信息的某些特征,当利用散点图的方式将这些隐性信息表现出来。所以可视化技术是计算机数据挖掘技术开发项目中的一个重点。

2、联机分析处理。网络是复杂的,其中的网络信息和数据更是十分的庞杂,要想快速、准确的抓取到自己想要的信息,需要依靠联机分析出不同地域和时段的多维数据,联机分析处理方式需要依靠用户的配合。在处理多维数据时,需要所有计算机用户自行的使用或者筛选出分析算法,利用这些分析算法对数据做处理,这样对探索数据也有巨大的推动作用。

3、决策树。计算机数据挖掘技术的开发中需要对决策树进行规则化建立,决策树是一项重要的开发项目,因为决策树的作用是发挥预测和分类的功能,对所处理的数据信息进行具体的预测和分类。目前开发的决策树算法已经有很多种,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具备连续性属性,还可以对数据做出具体的分类,SPRINT算法与SLIQ算法有同样的功能属性,并且这两种算法可以通过大型训练集对决策时做出归纳[3]。

4、计算机神经网络。计算机数据挖掘技术在开发之中借助了医学神经系统的研究结果,将人体神经元研究脉络通过技术处理形成了计算机网络神经的研究,并且经过一系列的深入探索,目前已经取得了重大的成果。计算机中研发出的神经网络是安全输入、输出和处理单元三种类型进行规划的,这三个层面代表了计算机神经网络系统,当前的开发结果中显示,可以利用计算机神经网络技术实现数据的调整、计算和整理。

5、遗传算法。计算机数据挖掘技术的开发中借鉴了许多其他学科领域中的研究方向和理论,在自然学科中,生物基因可以通过遗传中的不同变化促进后代的自我优化,利用这种思想理论,在计算机数据挖掘技术的开发中也可以通过对不同模型进行组合、演变来创新开发出新的数据算法。

结束语:计算机数据挖掘技术属于当前社会中最重要的分析工具之一,数据挖掘技术已经被各个领域广泛的应用,并且其功能得到验证,极大的促进了社会行业的快速发展。随着科技水平的日益提升,相信计算机数据挖掘技术将会得到更多方面的创新研究和开发,给社会带来更大的促进作用。

参 考 文 献

[1]夏天维. 计算机数据挖掘技术的开发及其应用探究[A]. 《Q策与信息》杂志社、北京大学经济管理学院.“决策论坛――管理科学与工程研究学术研讨会”论文集(下)[C].《决策与信息》杂志社、北京大学经济管理学院:,2016:1.

数据挖掘技术分析论文范文第2篇

关键词:数据挖掘 技术研究 前景分析

中图分类号:TP39 文献标识码:A 文章编号:1674-098X(2014)05(c)-0034-01

数据挖掘技术对各个不同应用领域中的传统数据进行分析研究,提取其中存在的有价值的信息。随着科技信息的快速发展,人们对信息分析技术的要求越来越高,现阶段如何从大量的数据中挖掘出自己所需的知识日益重要。数据挖掘技术是在传统数据分析系统的基础上建立起的新数据处理技术。

1 数据挖掘技术分析研究

1.1 数据挖掘的背景

当今社会信息技术的广泛利用提高了生产的能力,在企业、工程建设和科学研究中数据挖掘技术被逐渐利用,数据挖掘技术的优点在被逐渐推广,作为新兴的技术被广泛使用。在信息时代的激烈竞争中,提高数据的利用效率问题显得日益重要,企业在激烈的市场竞争中要想结合数据挖掘技术的作用使得数据信息作为企业有利的竞争手段,只有充分利用数据挖掘的技术才能够高效的为企业的良好发展打下一个坚固的基础。面对社会竞争中的各种挑战,数据挖掘技术是在传统数据分析基础上升级的一项高效技术,其优势已经适应社会的竞争理念正在被完善利用。

1.2 数据挖掘的功能分析

数据挖掘的主要任务是对数据分类以及对信息的预处理数据预测进行分析,其中信息预处理是以由两个或两个以上的变量值进行分析,得出两者之间存在的规律,称之为信息预处理。数据预处理有简单处理和复杂处理,的目的是对数据库中的隐藏知识进行研究分析,结合相关重要的参数使得挖掘出的数据更符合应用的要求。数据的预测是结合历史的数据总结出数据的规律,对同一类型的数据进行比较,可以运用数据的预测方式使得挖掘技术更好的展现。

1.3 数据挖掘的概念

数据挖掘技术是一门新的计算机应用技术中的技术,在近几年的发展中逐渐吸引了大量相关工作者的关注,科学挖掘技术会给企业减少一些不必要的投资,使自身能够获得一定的利益回报。数据挖掘技术在企业中的利用会逐渐提高,由于新技术的使用会给企业带来丰厚的利益,使得企业之间广泛运用数据挖掘技术,随着数据挖掘技术在运用中的不不断升级和挖掘技术的完善发展,促使数据挖掘技术在各个行业中被逐渐重视。结合数据库技术和系统分析技术的运用,保障相关工作人员对挖掘出的数据的透彻理解,挖掘技术的运用要求保证数据的准确有效性,对挖掘出的数据价值作出合理的分析,使挖掘数据具有一定的科学价值。

2 数据挖掘技术的流程展现

2.1 数据挖掘的应用

数据挖掘技术能够为企业的运行带来显著的利益,使得很多企业都在利用数据挖掘技术为自身的经济利益作出保障。企业在发展中为了稳定的长期发展,从而利用数据挖掘技术了解客户的特点,从中得到一定的经济利益,结合数据的特点可以针对性的为客户提供所需的服务。企业根据数据挖掘技术可以找到符合自己所需的客户进行产品销售,增加更多的经济利益。数据挖掘技术运用多个领域,可根据不同领域的特点采用数据挖掘减少利益的损失,开阔领域的发展前景。

2.2 数据挖掘的结构

数据挖掘技术从数据库到技术的运用过程中有不同的运行步骤,在确定业务对象问题方面可根据数据的准备对所有业务对象进行分析研究处理,保障数据的质量从而为进一步的分析工作做准备。在数据的转换方面应建立一个针对性的分析模型,挖掘数据的成功关键因素,对所得的数据进行预处理,完善挖掘技术的措施,使数据分析工作自动顺利的运行。在数据挖掘技术的结果分析上,应对数据结果做出正确的评估,与知识理念共同分析,完善数据挖掘技术的每一步结构。

3 结语

随着信息的高速发展,使得数据系统越来越复杂,数据类型的要求也越来越多,使用合理有效的数据挖掘技术能够将传统数据的作用更好发挥。数据挖掘技术是一个有潜力的发展领域,在社会利益的竞争中被不断完善运用,每年都会有更高效的数据挖掘技术产生,市场中对数据挖掘技术的要求日益严格。数据挖掘技术在高速的社会发展下面临着诸多挑战,对数据挖掘技术必须作出优化处理措施,维护数据挖掘中的各种问题产生解决问题,完善数据挖掘技术的运用,使数据挖掘能够长久的在未来发展。

参考文献

[1] 黄天航.面向数字城市规划的数据仓库构建中主题信息的组织与提取研究――以大北京区域规划为例[C]//规划创新:2010中国城市规划年会论文集,2010.

[2] 吴亮,符定红.基于距离扩散的审计信息系统异常数据挖掘算法研究[J].长春理工大学学报(社会科学版),2012(2).

[3] 杨静,申艳光,邢丽莉.数据仓库与数据挖掘的研究与应用[C]//2006北京地区高校研究生学术交流会――通信与信息技术会议论文集(下),2006.

数据挖掘技术分析论文范文第3篇

关键词:Web数据挖掘,边防情报,应用模式

 

随着科学技术的突飞猛进,社会信息化的快速发展, 以信息技术为主要标志的高新技术革命已经引起了社会各个领域的深刻变革,网络已经成为社会生活不可分割的一部分。每天有数以亿计的网民在互联网上浏览、信息,互联网已经成为信息时代最为重要的信息集散地。对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。

一、Web数据挖掘技术

Web数据挖掘技术是由传统数据库领域的数据挖掘技术演变而来。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程;它是从数据仓库中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据挖掘出现于20世纪80年代,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出了新的理论与方法,演变成为Web数据挖掘技术。Web数据挖掘是指从与WWW有关的资源和行为中抽取人们感兴趣的、有用的模式和隐含信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。Web数据挖掘已经成为对互联网信息进行深度分析、开发与利用的重要手段。

二、Web数据挖掘的分类

(一)Web内容挖掘

Web内容挖掘是指从互联网上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。网上信息形式多以文本信息的形式存在。文本可以被看作是一种顺序数据,目前有许多适合于顺序数据的挖掘方法。Web文本信息挖掘的主要任务一般限定在文本特征的表示、文本的总结,以及文本的分类和聚类等方面。互联网现有大量多媒体信息。对该类信息进行分析挖掘,找出合适的描述模式,阐述并理解其中的意义,可提高该类信息的识别度及检索效率,也是Web多媒体挖掘的目标。论文大全。目前此方面应用的技术手段主要是语音信息的理解及识别、图形图像信息的理解及识别,以及信息检索等。

(二) Web结构挖掘

Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴涵于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。对Web页的链接结构进行分类,可以识别判断页面与文档间的各种属性关系。由于Web页的内外部存在具有各种属性关系的结构信息,通过研究Web结构信息,可得到相关主题、相关分类的页面集合,生成关于某个Web站点的结构和页面结构的概括信息。因此,结构挖掘的重点在于链接信息。

(三) Web日志挖掘

Web日志挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,并尽可能预测用户的行为。通过对用户所访问页面、文档等的技术分析,Web日志挖掘可以找出相关主题间、相关内容间的联系规律。访问分析又称使用分析,主要使用用户基本信息如IP、ID、URL、日期、时间等进行处理。由于Web服务器的Log日志存在完整的结构,当用户访问Web站点时,相关的页面、文档、链接等信息在日志中都做了相应的记录。Web日志挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能要访问的相关站点的链接。利用这种方法,可以获知互联网使用者的行为偏好。

三、Web数据挖掘的主要方法

(一)统计分析方法

统计分析(statistical)方法是通过对总体中的样本数据进行分析,从而描述和推断能够揭示总体中的内部规律的信息和知识的方法。为了适应复杂信息的挖掘需求,往往依赖有明确目标和任务的概率模型。数据挖掘的统计模型要适合于所要提取的对象。利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。如对互联网日志进行统计可以获得有关站点使用的基本信息,包括页面访问次数、日平均访问人数、最受用户欢迎的页面等。除此以外,还可以进行错误分析,如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的浏览路径和路径长度等信息。这些统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。目前已有许多互联网流量分析工具实现了这些基本的统计功能。

(二)关联分析方法

关联分析(associationanalysis)用于发现关联规则,所谓关联规则是指在大量的数据中所隐含的项集之间的关系以及项集的频繁模式。用户在浏览网页时,经常会在同一次访问中浏览一些无顺序关系的页面集合,挖掘发现的这些页面之间内在的联系,就是就表现为它们之间存在一定的关联。如果关联规则中的页面之间没有超链接,则应该引起我们的特别关注。通常使用可信度、支持度、期望可信度和作用度这四个参数来描述关联规则。

(三)分类方法

分类(classification)是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类不同于聚类,聚类无须事先制定标准,而能从信息本身出发,利用算法自动分类;而分类的准则是事先定好的。在Web数据挖掘中,分类主要是将用户配置文件归属到既定的用户类别,网页根据内容的属性分类等。分类技术要求抽取关键属性描述已知的信息,可以通过指导性归纳学习算法进行分类,主要包括决策树分类法、贝叶斯分类法、最近邻分类法等。

(四)聚类分析方法

聚类(clustering)就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析能够将一批数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类,每一类都是大量具有相似性个体的集合,不同类之间具有明显的区别。聚类分析是一种探索性分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从信息本身出发,自动进行分类。例如在Web日志挖掘中,聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类;页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为某个查询提供用户感兴趣的相关超链接。

四、Web数据挖掘在边防情报工作中的应用模式

(一)Web数据挖掘在建立公安网搜索引擎中的应用

目前,边防情报部门所需的公开信息大部分来源于互联网和公安网,情报人员通过使用搜索引擎来快速查询需要的信息,然而公安网的搜索引擎存在较大局限性,搜索出来的结果存在大量冗余信息,不能满足情报人员的需求。因此,在搜索引擎中通过借鉴Web数据挖掘技术可以有效地提高查准率和查全率,从而给情报人员提供较有准确的信息。具体应用方法如下:

1.根据公安网的页面内容,自动形成摘要

目前,使用公安网搜索引擎进行检索,检索的结果文档是以简单摘要形式出现的,它表现为机械地提取网页内容取前几句为摘要,这种仅通过位置进行自动摘要是很难真正反映出网页中的信息内容。论文大全。在文本挖掘中的文本抽取技术是指从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或描述,即文本抽取技术是根据Web文档本身的内容,从Web页中提炼出重要信息形成文档摘要,而不是根据位置来进行文本内容的概括,因此它更能够反映出Web文档中的真正信息。论文大全。这样,情报人员通过浏览关键词就可以了解网页的大致内容,从而决定是否使用该信息。

2.根据检索结果,自动进行文档聚类

文本聚类是文本分类的逆向过程,是指将文档集中的文档分为更小的簇,要求同一簇内文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。情报人员在使用搜索引擎时,会得到大量的返回信息组成的线性表,而其中很大一部分是与其查询请求不相关的,于是通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,并远离那些不相关的文档。再将处理以后的信息以超链接结构组织的层次方式可视化地提供给情报人员,从而大大减短浏览时间。

(二)Web数据挖掘在建立公安网站中的应用

公安网网站是公安网信息的容纳处,我们可以利用Web数据挖掘技术有效地组织网站信息,建立一个资源优化的网站,也就是说通过对网站内容的数据挖掘,主要是对文本内容的挖掘,如采用自动归类技术实现网站信息的层次性组织;以及结合对用户访问日志记录信息的挖掘,把握用户的兴趣,开展网站信息推送服务。

1.采用自动归类技术,实现公安网网站信息层次化

一般而言,网站提供给访问者的信息和服务应该是按优先次序进行排列,网站维护人员应该把重要的信息放在醒目的位置,因此在网站维护时,通过对网站内容挖掘和Web日志挖掘,可以有效地组织网站信息。例如:采用自动归类技术实现网站信息层次化;分析访问者的访问行为,可为用户提供智能化、个性化服务。还可根据访问者的访问兴趣、访问频度、访问时间,动态地调整页面结构。

2.采用日志挖掘技术,实现公安网网站信息推送服务

网站可以根据访问者的浏览情况,发现访问者的兴趣,定期为注册用户提供相关信息,并且调整网站中网页的链接结构和内容,为访问者提供个人定制服务。具体步骤为:首先将日志文件中的数据经过预处理,形成原始数据库;然后获取用户的访问模式,放入用户访问模式数据库;再通过数据挖掘和模式分析形成知识数据库,Web服务器自动更新知识数据库,采用动态主页设计方法,根据用户的知识信息,提供相应的个性化主页。在数据预处理过程中会话识别是重要的一步,它取决于用户访问模式的有效性和准确性。为提高准确性,可采用Cookie法进行会话识别。在呈现个性化主页时,利用用户的IP地址和Cookie值查询知识数据库,发现用户频繁访问的路径,并自动形成相应链接,根据相似用户群和相关Web页推荐给用户。由于是经过挖掘和分析后所产生的动态主页,相对于一般的主页,其针对性更强,更受用户的欢迎。

参考文献:

[1]叶鹰.情报学基础教程[M].科学出版社,2006

[2]栗湘等.Web挖掘应用研究[J]情报理论与实践,2005,(6)

[3]曼丽春等.Web数据挖掘研究与探讨[J].现在电子技术,2006,(8)

[4]徐险峰.基于Web的网络数据挖掘技术[J].情报杂志,2005,(3)

数据挖掘技术分析论文范文第4篇

【关键字】数据挖掘、高校信息化建设、应用研究

中图分类号:C37文献标识码: A

一、前言

网络技术在不断发展,科学技术也在不断进步。高校的信息化建设也蒸蒸日上。如何把数据挖掘技术很好的应用到学校的信息化建设中是学校在信息化建设中十分重要的一个研究课题。从数据挖掘的定义和特点开始分析,对其中的一些问题展开讨论。

二、高校网络教学平台信息化建设的现状

随着我国高等教育规模的快速发展、信息技术的广泛应用,我国高等教育的教学理念、教学模式、教学环境和教学手段等都有了重大变革,课程教学模式与教学管理模式得到了不断的改进。网络教学平台以其灵活的、开放的、基于资源的特点日益成为现代教育过程中不可替代的部分,不断增长的学生需求和网络所提供的开放式学习机会为网络教学平台的研发、应用和推广提供了优越的发展空间。然而,由于近年来许多高校不断扩招,造成了在校学生规模的剧增,给学校的教学工作带来了许多影响教学质量的问题。而现今的网络教学平台,多是提供教学大纲、教学课件、授课教案、单元测试等教学资源,供学生课后学习。通过信箱、留言板、课程论坛等提供师生实时或非实时的交流。这样的教学平台,只能将知识给学生,而在学生访问教学平台的过程中,学校并无法获知学生的反馈信息。而实际教学工作展开的过程中,教师需要得知学生的学习过程中出现的问题和状况,并且提供帮助,以此来确保教育教学工作的全方位展开,为课程改革的推行做出贡献,充分利用网络教学平台,把资源合理的优化使用。

三、数据挖掘技术

通过笔者的分析可以看出,我国的高校信息化建设还存在许多不足。其中比较突出的问题是在传统的网络教学平台中,学校无法通过学生的活动对学生未来的发展趋势或者是规律做出预判。随着技术的不断发展,越来越多的高校开始考虑将数据挖掘技术应用到网络教学平台中,通过对学生点击访问教学平台的数据进行分析和挖掘,对学生学习方式、学习态度、知识的把握度、学习反馈等有了科学的了解,对今后的教学改革、课程设置、教学平台设置等工作提供了决策支持。

1、数据挖掘定义

数据挖掘是一门新兴的学科,它主要是面向决策支持,为决策者提供有价值的信息。数据挖掘又是一个交叉性的科学领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、可视化理论和技术等。有人从商业角度将数据挖掘(Data Mining)定义为:数据挖掘在商业活动中的主要作用是对商业活动中的业务数据进行分析处理,用模型化的方法对数据进行全方位分析,帮助减少商业活动中的风险,帮助企业管理者做出决策。

2、数据挖掘分类

由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘。

(一)根据所挖掘数据库类型的不同来分类,可以分为:关系型数据挖掘、对象型数据挖掘、对象-关系型数据挖掘、事务型数据挖掘、数据仓库的数据挖掘。

(二)根据所挖掘的知识类型来分类,可以分为:特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。

(三)根据所采用技术,可以分为:自动数据挖掘、证实驱动挖掘、发现挖掘和交互式数据挖掘。

(四)根据数据挖掘应用来划分,可以分为:金融数据的数据弯角、电信行业的数据挖掘、DNA序列数据挖掘、股票市场数据挖掘、WWW数据挖掘等。

不同的应用通常需要集成对于该应用特别有效果的方法,因此,普通的、全功能的数据挖掘并不一定适合特定领域的数据挖掘任务。

3、数据模块中采用的几项典型技术如下:

(一)聚类分析。聚类是把一组数据对象设计成一类,以便让同一类中的对象具有最高的相似性。而类间具有最大的差异性,这种方法被用于机器学习、模式确认、图象分析、信息检索等领域。

建立的每一个聚类可以看成是一类对象,通过它导出规则。聚类在教育中的应用能帮助机构组合学生个人相似的班,把学生分成类,以便使学生在一类中相互之间更相似,或者说水平更平均。

(二)决策树。决策树是一种决策支持工具,它使用树型图显示可能的结果,包括概率事件结果和源的关系,成本和用途功用,它是一种方式显示一种算法。决策树常被用于行为研究特别是决策分析,去帮助识别一种策略,主要是要达到的目标;决策树作为一种描述性工具手段用于计算条件概率;决策树还可以用于分析一个机构的准入规则。同时它对小数据样也能给出好的结论。这种方法能适用于不同数量级的编目变量。

(三)关联规则。反映一个事件和其他事件之间依赖或关联的知识,如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测,可以用关联规则的形式表示规则形式。

(四)分类。找出描述或识别数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象。

(五)回归。通过构造函数以符合数据变化的趋势,这样可以用一个变量预测另一个变量。

四、数据挖掘在高校教育信息化中的应用

高校教育信息化是整合先进的技术,运用到高校教育管理体系之中,使教育教学、管理工作和校园的文化生活更网络化、信息化,提高教育质量和效率,形成一种全新的教育和管理模式。高校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘可以应用到高校教育信息化的各个方面,如教学评价、课程设置、网络教育、分析学习者特征、干预师生行为、辅助考试等方面。

1、教学评价

教学评价就是根据教学目标、原则的要求,利用收集到的信息对教学活动以及教学成果进行评价的过程,主要包括对学生学和对教师教的评价。随着信息化的快速发展,高校教育信息化积累了大量的学生成绩、行为纪律、处罚奖励等数据,利用数据挖掘的方式来进行分析处理,可以客观准确的得到学生的评价结果,及时纠正学生的不良的学习行为,同时还能尽量避免教师因主观作用对学生做出的不公平的、不客观的评价。将数据挖掘的关联规则运用到教学评价的数据中,使教师能够认识到自身的教学情况以及学生的学习和个性特点,并给予合理的意见,对今后的教学工作有一定的指导意义。

2、合理设置课程

高校学生所进行的课程学习是循序渐进的,对于课程的学习要一步一步按照先易后难来进行,而且由于教师、学生以及班级的文化氛围的不同,同一年级的不同班级在学习相同课程时也存在很大的差异。这种情况下,教务管理人员和任课教师就很难根据学生的成绩做出客观、合理的判断,从而做出教学进程的决策。因此,要借助于数据挖掘技术,从大量已有数据中挖掘出有用的信息和内容,分析各数据之间存在的关系,找到影响学生成绩的因素,然后在此基础上,对课程设置做出合理的安排。

3、个性化、智能化网络教育

个性化、智能化网络远程教育充分的利用了数据挖掘的技术,远程教育的顺利开展得到保障。首先根据学生所提供的信息,对不同层次的学生提供不同的学习内容和模式,进行因材施教。其次,对已保存的学生的信息进行数据挖掘,利用已有的资源,对课程进行重新组合,使之更符合教学规律。最后通过对学习者学习行为进行数据挖掘,了解学习者的浏览模式,重新进行页面之间的链接,以符合学习者的访问习惯。

4、学习者特征分析

根据系统中已有学生的基本信息、成绩信息、学习过程数据、偏好、知识结构等,利用数据挖掘功能分析学生特征,从获取的知识帮助学生修正自己的行为。教师利用挖掘到的知识帮助学生修正学习行为、提高学习能力。

对学习者特征的分析在教育活动中具有重要的地位。它不仅是教学设计的前提,是教学成功的关键。学习者特征包括学习者的知识结构和学习风格。学习者的知识结构是学习者已经学习的或即将学习的内容。学习风格包括学习者的生理、心理和社会特征。利用数据挖掘来分析学习者的特征,不仅有助于学习者改进自己的学习行为,而且能提高学习者的学习能力,完善其人格,有利于学习者素质的全面、和谐发展。

5、在教学评价方面的应用分析

高校信息化系统长期运行中产生了海量数据,学籍数据、考勤纪律、招生就业、奖惩等各方面的数据累积在信息系统中,通过使用数据挖掘技术可帮助教师、学生、学校管理决策者有效地利用这些数据,建设有效的评价系统。

6、就业预测分析

通过对历史中毕业生的就业数据进行数据挖掘,对毕业生就业因素的相关性进行分析,如综合成绩,英语成绩,计算机成绩,是否学生干部等,对学生能否就业的影响因素进行挖掘,得出毕业生的就业预测模型,这样可以对学生未来是否能就业,对就业作出预测,对就业好的学生类型推广,对不易就业的学生类型,修改培养方案和模式。

五、结束语

通过数据挖掘技术可以加强高校的信息化建设水平,对学生的学习和就业能够进行有效的指导,对高校的整体发展也有促进的效果和作用。希望各大学校能够加快对数据挖掘技术的学习和应用,以此来促进自己学校的建设和发展。

参考文献

[1] 胡春红.数据挖掘技术在高校信息化管理中的应用[J]. 长江大学学报(自然科学版)理工卷. 2010年03期,11-12

[2] 孙中祥,彭湘君,杨玉平,贺一.数据挖掘在教育教学中的应用综述[J]. 智能计算机与应用. 2012年01期,99-100

[3] 余永红,向晓军,高阳,商琳,杨育彬.面向服务的云数据挖掘引擎的研究[J]. 计算机科学与探索. 2012年01期,45-46

[4]胡春红 数据挖掘技术在高校信息化系统中的应用长江大学学报(自然科学版)理工卷2010-06-15期刊,15期,67-69页

[5]徐建锋; 董桂娟; 朱颖; 袁家三 谈数据挖掘技术在高校图书馆中的应用吉林化工学院学报2008-10-15期刊,15期,109-110页

[6]黄小红; 王倩 数据挖掘技术在高速铁路SCADA中的应用研究中国电气化铁路两万公里学术会议论文集2005-12-01中国会议,12期,88-89页

[7]刘鹏; 孙莉; 赵洁; 孙珏妍; 许剑萍; 董瑾; 陈婷婷 数据挖掘技术在高校人力资源管理中的应用研究计算机工程与应用2008-04-01期刊,4期,127-129页

数据挖掘技术分析论文范文第5篇

关键词:马尔科夫过程模型;数据挖掘;技战术分析

中图分类号:G80-32文献标识码:A文章编号:1007-3612(2008)05-0712-04

数据挖掘(Data Mining简称DM)是用算法来抽取信息和模式,它是知识发现(Knowledge Discovery in Databases,简称KDD)过程的一个步骤[1]。一般认为数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取出隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程[1]。

长期的研究与实践已经总结出多种数据挖掘方法。

关联模式挖掘(Association Rule Mining)就是从给定的数据集中发现频繁出现的项集模式知识。关联分析已经广泛应用于市场营销、事务分析等应用领域。最著名的关联规则挖掘算法是由Agrawal等人于1944年提出的Apriori算法[2]。Apriori算法的核心是:用前一次扫描数据库的结果产生本次扫描的候选项目集,从而提高搜索效率。在此基础上一些学者先后提出了许多关联规则的挖掘算法,但其主要工作集中在如何提高项集的生成效率和降低计算代价上[3]。

还有许多数据挖掘技术,如分类与预测、聚类分析、异类分析、演化分析、回归分析等等,这里不再一一介绍。本文提出一种基于马尔科夫过程的数据挖掘方法,并结合体育比赛技战术分析中制胜战术挖掘为例,介绍该方法的具体应用。

1基于马尔科夫过程的系统分析模型

以上算法并没有讨论状态可靠性的变化情况。从实际系统控制角度,状态转移是可以调控的因素,而状态可靠性相对稳定,所以这里仅给出转移概率变化的系统可靠性分析的挖掘算法。同理不难给出基于状态可靠性的挖掘算法。

3算法应用

数据挖掘技术在商品零售、银行、保险等行业得到广泛地应用,用于体育比赛中技战术分析并不多见。下面以乒乓球为例,介绍算法2.1在乒乓球比赛临场技战术分析中的应用。

3.1乒乓球比赛技战术数据采集根据乒乓球比赛临场技战术分析和算法2.1的要求,需要对比赛中每一个技术动作的执行过程进行记录。由于比赛中运动员的技战术动作变化较多,并且各种动作在瞬间完成,所以纪录比赛的过程具有挑战性,为此专门设计了乒乓球比赛脚本描述语言(Table Tennis Language简称TTL)和脚本数据库来完成纪录工作。

3.1.1乒乓球技战术描述TTL语言首先把运动员的技术动作分解成击球方式、击球基本动作、击球效果、击球路线四个方面,并对其进行编码,这些编码构成乒乓球技战术描述语言的基本词汇。下面是单词表的部分单词。

表1中的第3列“动作编码”是描述语言的基本词汇,第4列是适合英语习惯的编码。开发者可以二选一,或一起使用。

对乒乓球比赛中的常见技战术进行分类和编码,这些技战术编码构成了脚本描述语言的基本句型。下面是部分技战术编码。

3.1.2乒乓球技战术采集技术在实际比赛中可以分别利用脚本描述语言的单词与句型编码进行技战术信息的采集。下面介绍基于技术动作编码的采集方法。

基于技术动作编码的数据采集技术是指,利用技术动作编码规则,对比赛中双方运动实际运用的技术动作,逐一加以描述并输入到计算机中。使用方法案例如下:

图1脚本和对应的输入码上述脚本纪录存放在技战术数据的数据库中,如图2所示。

图2部分技战术脚本数据3.2乒乓球比赛技战术分析乒乓球比赛中每一次比分的形成过程都是由若干技术动作构成,不同的技术动作的组合形成各种战术套路。在比赛中,技战术的制定与对手采用的战术有关,所以一个优秀运动员在比赛过程中要制定多种技战术套路,这些套路在比赛中交替采用,形成各种战术变化。比赛的制胜与技术动作的成功率(状态可靠性)和技术动作转换,即战术的成功率(状态转移概率)有关。从统计学角度,高水平运动员的技术动作成功率呈现一种相对的稳定性,而战术的调整是比赛制胜的关键,所以对战术分析尤为重要。

4结论

本文对基于马尔科夫过程的数据挖掘方法进行了研究和讨论,其主要贡献如下:1) 从理论上证明了基于马尔科夫过程的系统关键因素挖掘方法的正确性,给出了系统可靠性灵敏度分析中转移概率增量的设定方法,为进一步挖掘关键因素奠定了基础。2) 提出了基于马尔科夫过程的数据挖掘算法,并对算法的执行时间和空间进行了分析。3) 结合乒乓球比赛中制胜因素分析问题,给出了挖掘算法的应用。经过分析得出“高水平乒乓球比赛中,控制到相持、发球到接发球和控制到进攻”是比赛制胜关键的结论,这一结论与实际情况吻合。

本文提出的数据挖掘方法不但可以用于乒乓球比赛的技战术分析,还可以用于其他球类比赛的技战术分析,比如排球、羽毛球、网球等等,只要系统行为满足马尔科夫过程条件既可。体育比赛技战术分析中应用数据挖掘技术还是一种新的尝试,我们已经开发出乒乓球比赛临场技战术分析系统。

参考文献:

[1] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, Knowledge discovery and data mining: Towards a unifying framework. Proceedings of the International Conference on Knowledge Discovery and Data Mining, pages,1996:82-88.

[2] Agrawal R,Srikant R. Fast algorithms for mining association rules[A].Proceedings of the 20th International Conference on Very Large Databases[C].Santiago:Morgan Kaufmann,1994:487-499.

[3] Agrawal R,Srikant R. Mining sequential patterns. In Proc, 1995 Int,Conf.Data Engineering (ICDE'95), pages 3-14,Taipei,Taiwan,Mar,1995.