数据挖掘技术探讨论文(精选5篇)

  • 数据挖掘技术探讨论文(精选5篇)已关闭评论
  • A+
所属分类:文学
摘要

1 应用现状 目前,利用数据挖掘技术探讨方剂配伍规律的研究概括起来主要有以下3种模式:其一是以分类为主的数据挖掘研究,应用模式是运用不同的方法如判定树、贝叶斯网络、人工神经网络等,参考现行已知的方剂分类标准,将研究对象中的方剂按照组方药物的功…

数据挖掘技术探讨论文(精选5篇)

数据挖掘技术探讨论文范文第1篇

【关键词】 方剂配伍规律;知识发现;综合集成;复杂系统

从金·成无己于《伤寒明理论》中以君臣佐使研究张仲景方剂[1]至今,为了把握中医方剂应用历史嬗变的轨迹,寻找中医方剂的配伍方法及组方思路,人们利用哲学、数学等其他学科的方法或手段对方剂配伍规律的研究从未间断过。尤其是近年来,以大量经方、成方或个人临床经验组方中蕴含的配伍规律为分析对象,数据挖掘、人工智能等现代信息技术在中医方剂配伍理论研究中得到了广泛的应用,为拓宽中医理论现代化研究思路提供了一定的借鉴,但也暴露出一些问题。笔者现结合个人的研究体会对这些问题加以总结和探讨。

1 应用现状

目前,利用数据挖掘技术探讨方剂配伍规律的研究概括起来主要有以下3种模式:其一是以分类为主的数据挖掘研究,应用模式是运用不同的方法如判定树、贝叶斯网络、人工神经网络等,参考现行已知的方剂分类标准,将研究对象中的方剂按照组方药物的功效、性味或归经等分成若干类[2-6];其二是以聚类为主的数据挖掘研究,即按照相似性和差异性的分布,将数据对象按照不同的属性特征聚集为不同的类,然后结合领域知识对方剂的制方要素进行分析[7-12];其三是以关联规则为主的挖掘研究,即利用Apriori算法、Fp-tree及其变体,经过大量的预处理工作和谨慎的设计,把理-法-方-药之间的多维关系降维处理后,从药物与药物、药物与症状、症状与证型等不同属性之间的关联关系探讨方剂配伍模式[13-18]。上述不同方法对方剂配伍规律的研究取得了一定成绩,但挖掘层次多集中在药对、药组或药症、症证关联等局部信息的揭示上,从理-法-方-药整体层次对方剂的综合配伍规律进行探讨不多。同时,鉴于中医理论体系的“复杂性”与方剂配伍规律的“内隐性”,上述研究方法在信息提取的“准确性”、挖掘技术的“针对性”和挖掘方法的“适用性”等方面还存在一些共性问题。

2 问题探讨

2.1 方剂数据预处理

信息处理中有一个著名的“Garbage In, Garbage Out”理论[19],即数据挖掘最后成功与否,数据准备起到了至关重要的作用。针对药名、功效、方名、症状、证候等数据有多种不同的表述方式的普遍现象,为了对方剂文本中存在的词义模糊、词义涵盖或多词义交叉的描述信息进行规范和统一,目前大部分研究者采取的方式是依据现有中医药教材或相对权威的工具书对原始数据进行相应的规范,如涉及药名的依据《中华本草》、涉及方名的依据《中医方剂大辞典》、涉及症状的依据《中医症状鉴别诊断学》、证型依据《中医证候鉴别诊断学》、剂量参考《中华人民共和国药典》中采用的国际单位制等,也有些研究者则根据个人研究方法的需要利用本体技术建立了相应的基础词表。事实上,除了《中医药学主题词表》外,上述工具书本身对症状或证型等名称的表达以及其中涉及的过程类、状态类或层次关联类语义信息的描述也是基于自然语言,因此,不同的人对药物名称、症状名称、剂量表示等制方要素进行表达方式的统一及对方剂内的药味配伍与其针对的相应症状之间的因果关系的“解析”和“映射”,或许可以满足一种方法应用时对数据“一致性”、“正确性”和“可靠性”的要求;但放大到其他方法,则存在数据源的融合度低、可扩展性差、共享程度不高等问题,不能为提高文献处理的准确性和一致性提供良好的支撑环境。

2.2 数据挖掘方法平台的构建

科学研究过程首先需要对未知领域进行分析和推测,明确研究目标和现实技术方法的内在联系,然后寻找最佳的方法进行检验。数据挖掘的不同算法都是针对应用中的具体问题提出的,一种建模方法只是对被研究问题某一方面的简化了的分析。中医方剂是一个复杂的信息系统,一味药物的多种药效在不同剂量和配伍下,药效的主次地位会发生变化,且不同药物的组合相互作用后会影响整个方剂功效的趋向,对类似的涉及药物之间联系和层次关系的认识和分析,都需要借助相应的技术和方法,才有可能实现对方剂处方规律进行较深层次的挖掘。而从应用情况来看,目前大部分学者还只是从各自专业的角度,通过特定的抽样技术或方法对被研究问题所有数据的一个区间进行了局部的探讨,针对同样数据对象、不同数据挖掘方法之间缺乏比较,针对整体数据,也缺乏不同方法的有机融合。如同样是对方剂信息进行挖掘,基于频集模式发现的关联规则可以从药物与药物、药物与症状、症状与证型之间的关联结果去揭示方剂配伍关系;而分类和模糊聚类分析的方法,则可以从聚类的最优个数以及变量的组成方面去解析方剂配伍关系。从表面上,这些方法所得的结果看似都有一定道理,但由于无法发现不同方法针对同一问题所得结果中的共性和差别,因而面对不同方法所得离散的、多点分布的挖掘结果,似乎依然无法把握同病异治的不同方剂或异病同治的某一类方剂配伍规律的脉络。

2.3 数据挖掘结果评价

数据挖掘应用特定方法对数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性。一般来说,数据挖掘所得到的信息应具有未知、有效和可用3个特征。先前未知的信息是指该信息是预先未曾预料到的,即数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,有时挖掘出的信息越是出乎意料,就可能越有价值。但在中医药领域,一方面目前的挖掘结果仍以验证性的居多,即大部分结果还是在用配伍的已知原则与理论和通过相对简单和固定的方法就能获得的结果在相互印证;另一方面,即使挖掘出了先前未知的信息,如何验证这些挖掘结果的有效性和可用性?一般情况下,对数据挖掘结果的评价,最直接的是将挖掘结果结合专业背景及专家意见通过临床或实验室验证。但面对医学数据的社会性和法律约束性等特点,不同的数据挖掘方法获得的结果对问题的实际解析有可能差之毫厘却谬以千里。因此,如何对医学数据挖掘结果进行有效性评价,已经迫切地摆在了我们的面前。

3 思考

生命系统研究当前的最佳支撑点是中医药学的整体性和系统性理论,在这样的理论指导下,越来越多的医学研究试图从多点的、局部的分散式研究走向系统的、整体研究阶段。以方剂配伍研究所积累的多方面的基础数据为对象,传统数据处理技术因处理数据之间各种联系和因果关系的局限性所呈现的相互独立的分析结果,已经不能满足人们对某一方面知识的整体性和关联性的需求。目前,中医界越来越多的研究者希望通过加强信息处理以及各种新技术的应用,从批量的信息或数据之间找到具有科学意义的关联,以便对方剂配伍规律做出层次性的解释,来提高临床和实验室研究体系的效率和产出。

近年来,国外以生命科学中积累的大量信息和巨量文献为对象,以知识发现为目的的数据挖掘技术,在基因、蛋白质、疾病、药物及其相互关系的研究中已取得显著成绩[20],并有研究结果得到临床和实验室的验证[21],给国内中医药的知识发现研究提供了思路和方法学的借鉴。

首先,在数据挖掘对数据的规范要求方面,美国国立医学图书馆自1986年开始研制的统一医学语言系统(Unified Medical Language System,UMLS,由超级叙词表、语义网络、信息资源及专用词典组成),以其实时更新、面向互联网免费开放的应用方式,有效地克服了计算机生物医学信息研究领域的两个显著障碍:相同的概念具有不同的表达方式,有用的信息分散在不同的数据库系统中,在医学词汇的规范、统一、标准化、科技信息的交流以及深层次自然语言处理方面发挥了巨大作用。国内科技信息界虽在20世纪90年代后也相继进行了分类-主题词一体化词的研制工作,如中国医学科学院信息所图书馆编制的《中图法与MeSH、中医药学主题词对照表》,在中文生物医学文献计算机标引和分类等方面提供了良好的支撑环境。但由于数据更新不及时、共享机制不完善,这些词表在满足医学数据挖掘对概念术语的名称、表达方式、语义类型统一规范的保障与支撑需求方面总显得力度不够。因此,一方面,中医数据规范依据的缺失是造成中医药语料处理困难的一个难以回避的瓶颈;另一方面,即使有了数据规范的标准,倘若不能象UMLS那样通过信息的无障碍传递而实现这些基础科学数据的共享,则依然会阻碍基于信息技术通过事物的共性研究而进行事物分类和知识发现的进程。

其次,国内针对中医药数据挖掘的研究,大部分是基于单一方法的应用,而国外生物医学领域的知识发现研究,在技术平台方面往往是机器学习、文本挖掘和网络信息技术等多种方法与技术的融和。在研究团队方面则是由临床、信息检索、数据挖掘等不同专业背景的研究人员共同构成。典型的案例如以Pubmed数据库中积累的关于某一疾病的大量文献为分析对象,Swanson[22]利用Arrowsmith系统对镁缺失与偏头痛的关联关系的探讨、Hristovski D等[23]利用Bitola系统对多发性硬化病病因的分析、Kristina M Hettne等[24]基于Medscan和Pathwayassist软件对复杂性疼痛综合征的发病机制的推测等等。这种以专家群体、数据和各种信息技术有机结合的形式进行生命科学知识发现的研究模式,恰恰是1990年钱学森院士提出的“把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题”的综合集成方法体系[25]的体现。

中医理论体系的复杂性与临床诊疗的个性化决定了方剂配伍规律的“内隐性”,与方剂相关的症状证型、治则治法、药味组合、剂量剂型等各个环节的差异又造成了方剂信息的多样性和复杂性。可以设想,针对方剂配伍规律的知识发现研究,只能是由相宜的方法和技术组成的多模块的系统模型,既要反映中医学认识论整体、综合、联系的特点,符合中医定性模糊思维特征,又要能定量描述药物之间的配伍关系、药物配伍与病证的针对性。借助这种综合集成的技术平台的支撑,或许我们可以从经方或类方入手,对同病异治的不同方剂或异病同治的同类方剂之中蕴含的共性和差异性信息进行多层次的探讨,从而为方剂配伍规律知识地图的呈现提供线索与思路。

另外,在关于数据挖掘结果的评价方面,由于数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果,因此对其进行评测本身就是一种全新而富有挑战性的工作。关于中医药领域数据挖掘结果的评价方案,北京中医药大学的任廷革教授曾在针对名老中医的病案处方进行数据挖掘的研究中提出,可以围绕“方证”关系,从“方证一致性、法(治则治法)-效(处方功效)一致性、性(处方综合性味归经)-候(处方主治症候)一致性、处方药效释放率等方面对挖掘结果进行分析和评价”[26]。国外常见的模式是,一个研究团队利用一种技术平台进行的综合知识发现结果可以由其他团队利用另外的方法或平台进行验证。如Hristovski D[27]利用Bitola系统、Weeber M等[28]使用DAD (Disease Adverse drug reaction-Drug)系统曾分别对Swanson关于“雷诺氏病与鱼油”和“偏头痛与镁”的研究结论进行验证性研究。虽然目前还没有相对成熟的评价模式,但可以预见,随着数据挖掘方法和技术在医学领域应用范围的增多,如何对数据挖掘方法或产生的结果进行科学合理的评价也将成为一个有意义的研究课题。

4 总结与展望

数据挖掘是一个领域专家合作的过程,这一过程要反复进行,并在反复过程中不断地趋近事物的本质。根据钱学森院士提出的综合集成理论,可以想象,以开放的中医药统一医学语言系统为数据规范依据,构建面向方剂配伍知识发现的多模块综合集成数据挖掘支持系统是方剂配伍规律知识发现研究的努力方向。综合集成方法的实质是把专家体系、数据和信息体系以及计算机体系有机结合起来,从定性定量综合集成角度处理复杂问题[29]。在这样的集成系统支撑下,我们可以在最大限度地跨越语言表达的差异性和相关信息的分散性前提下,从不同角度对其中蕴含的相关性和规律性信息进行全面探讨,并将研究结果以知识地图的方式加以呈现,从而为方剂的临床运用以及实验研究提供线索与思路。

当然,要达到这样的效果,无可避免地要讨论中医方剂理论中现存的一些问题以及不同学派和专家的不同认识等,如方剂配伍君臣佐使之间如何分工?方剂配伍及其所主病证之间存在的君药对主证(症)和臣药、佐使药对兼证(症)之间的针对性如何界定?怎样将问题求解中所需要的专家知识、背景知识、领域知识进行确切的描述与表达?以及由此产生复杂系统知识组织的维护与理解等问题。然而,利用信息技术探讨、解决这些问题的过程,不仅是信息时代自然语言处理、人工智能等领域的创新成果应用于方剂配伍规律理论探讨和实践要面对的重要内容,也是复杂系统思想指导下方剂配伍规律的知识发现必须要面对的问题。这种实践不仅可以使中医方剂理论得以深化,使临证处方选药向标准化、规范化的方向发展,同时也是证候本质研究、方剂作用机制研究、方剂适用范围研究等领域找到突破口的希冀所在。

【参考文献】

1] 董正华.试论《伤寒明理论》的学术成就[J].陕西中医学院学报, 2002,25(3):1-2.

[2] 刘齐宏,唐常杰,李 川,等.基于属性归纳的中药方剂数据挖掘[J].计算机应用,2007,27(2):450-452.

[3] 彭 京,唐常杰,曾 涛,等.基于神经网络和属性距离矩阵的中药方剂功效归约算法[J].四川大学学报(工程科学版),2006,38(1):92-95.

[4] 雍小嘉,彭 京,韩佩玉,等.采用空间矢量方法判断方剂功效倾向新论[J].辽宁中医杂志,2005,32(7):660-662.

[5] 于润桥,危 荃,王建红,等.基于粗糙集理论的右归丸配伍研究[J].辽宁中医药大学学报,2007,9(2):3-6.

[6] 孙 燕,臧传新,任廷革,等.支持向量机方法在《伤寒论》方分类建模中的应用[J].中国中医药信息杂志,2007,14(1):101-103.

[7] 陈学进.数据挖掘中聚类分析的研究[J].计算机技术与发展,2006, 16(9):44-49.

[8] 王咏梅,马 红,刘苏中.方剂配伍的模糊数学特性研究[J].中国实验方剂学杂志,2000,6(6):59-61.

[9] 蒋永光,李 力,李认书,等.中医脾胃方配伍规律的数据挖掘试验[J].世界科学技术——中医药现代化,2003,5(3):32-35.

[10] 张晓杰.荨麻疹辨证论治规律的聚类分析[J].山东中医杂志,2003, 22(12):709-711.

[11] 张 静,徐忠恒,雷钧涛,等.逍遥丸的模糊聚类分析[J]. 吉林医药学院学报,2006,27(1):6-8.

[12] 周 鲁,唐向阳,付 超,等.解表类中药的模糊聚类分析[J].华西药学杂志,2004,19(5):339-341.

[13] 姚美村,艾 路,袁月梅,等.消渴病复方配伍规律的关联规则分析[J].北京中医药大学学报,2002,25(6):48-50.

[14] 杨雪梅,王 君,林端宜.明清脾胃湿热方用药关联规则挖掘[J].江苏中医药,2007,39(1):45-47.

[15] 周忠眉,林宝德,肖 青.古代方剂与新药方剂高频药组配情况分析[J].漳州师范学院学报(自然科学版),2004,17(1):19-21.

[16] 张万水,陈利国,黄运坤,等.数据挖掘技术及其在中医遣方用药规律中的应用[J].辽宁中医药大学学报,2006,8(4):62-64.

[17] 陈 波,蒋永光,胡 波,等.东垣脾胃方配伍规律之关联分析评述[J].中医药学刊,2004,22(4):611-613.

[18] 纪荣芳,牛建昭,许树强,等.从数据挖掘角度看中医药治疗健忘与痴呆[J].中日友好医院学报,2006,20(6):337-339.

[19] Tamraparni Dasu, Gregg Vesonder, Jon R, et al. Data quality through knowledge engineering, Conference on Knowledge Discovery in Data archive, Proceedings of the ninth ACMSIGKDD international conference on knowledge discovery and data mining[C]. Washington, D.C.2003.705-710.

[20] 周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望[J].复杂系统与复杂性科学,2004,1(3):45-48.

[21] 董风华,兰小筠.基于文献的知识发现工具——Arrowsmith[J].情报杂志,2004,(5):52-54.

[22] Swanson D, Smalheiser NR. An interactive system for finding complementary literatures:a stimulus to scientific discovery[J]. Artificial Intelligence,1997,91:183-203.

[23] Hristovski D, Peterlin B, Mitchell JA, et al. Using literature- based discovery to identify disease candidate genes[J]. Int J Med Inform,2005,74(2/4):289-298.

[24] Kristina M Hettne, Marissa de Mos, Anke GJ de Bruijn, et al. Applied information retrieval and multidisciplinary research:new mechanistic hypotheses in Complex Regional Pain Syndrome[J]. Journal of Biomedical Discovery and Collaboration,2007,2(2):1-16.

[25] 黄志澄.以人为主,人机结合,从定性到定量的综合集成法[J].西安交通大学学报(社会科学版),2005,25(2):55-57.

[26] 任廷革.中医学术和临证经验的继承的技术和方法研究[C].名老中医思想临床经验传承高级研修班资料汇编.2007.119-123.

[27] Hristovski D, Stare J, Peterlin B, et al. Supporting discovery in medicine by association rule mining in MEDLINE and UMLS[J]. Medinfo,2001,10(Pt 2):1344-1348.

数据挖掘技术探讨论文范文第2篇

随着数据库技术的不断发展,数据库和数据仓库已经被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域,数据量的不断增长对数据的存储、管理和分析提出了更高的要求,急需新一代的技术,能够智能化的从大量的数据中提取出有用的信息和知识,于是数据挖掘技术应运而生,且在各行业得到了广泛的应用。如何从海量的数据中找到内在的规律,如何更快更方便地传递、交流、获取有用的信息,挖掘这些激增数据背后隐藏的重要信息并及时进行信息的重组已成为当前我们所探究的热点。

一、数据挖掘概述及分类

数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种多学科交叉的全新信息技术,是指从海量的数据中出潜在的、有价值的知识(模型或规则)的过程,反复使用多种数据挖掘算法从观测数据中确定模式或合理模型。也就是根据预定义的目标,对大量的数据进行探索和分析,揭示其中隐含的规律,并进一步将其模型化的先进有效的技术过程。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要探究的重要课题。

数据挖掘涉及多个学科方向,主要包括摘要:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法和技术以及应用等几方面进行分类。按数据库类型分类摘要:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类摘要:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有摘要:关联分析、时序模式、聚类、分类、偏差检测、猜测等。按数据挖掘方法和技术分类摘要:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。

二、数据挖掘的基本过程

(1)定义新问题。对目标有一个可行、清楚和明确的定义,同时还包含对一个结果进行衡量的标准。(2)建立数据挖掘库。它主要是指收集数据、维护数据等工作。(3)分析数据。找到对新问题解决影响大的数据字段集和决定是否需要定义导出字段。(4)预备建摸数据。根据新问题的定义,对数据库中的字段变量、记录进行筛选,并根据现有的变量进行转换,生成新的变量和字段。它主要是指为建立模型预备部分数据的过程。(5)建立模型。选择一定的挖掘算法来处理数据,它需考察不同的模型用以判定和选择解决新问题最有效、精确度较好的一种数据挖掘模式。(6)模型的评价和解释。模型建立后,必须有一个对它的结果进行评价、对它的价值进行解释的过程。(7)实施。模型建立并验证之后通常有两种使用方法。一种是提供给分析人员作参考和分析这个模型之后的行动方案及建议。另一种是在应用了模型之后,还需不断地监控其效果,因为事物在不断地发展变化,有可能一段时间后,模型就不再起功能川。在以上数据挖掘的基本过程中,其中数据预备、数据选择、预处理、数据缩减的阶段主要以完成数据仓库为主;目标确定、算法确定、数据挖掘、模式识别和知识评价这几个阶段,主要以挖掘有用的知识为主,为知识发现做预备。

三、数据挖据的应用

数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向摘要:

(一)在金融数据分析中的应用。多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋向;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付猜测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。

(二)在电力业的应用。在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、平安管理、资源管理、投资组合管理、活动分析、销售猜测、收入猜测、需求猜测、理赔分析等。而且当使用数据挖掘系统时,用户会对模型进行调优和定制。这将会逐步积累符合企业自身需要的模型库,成为企业知识库的重要组成部分。

(三)在零售业中的应用。零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费和服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和猜测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋向,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满足程度;提高货品的销量比率,设计更好的货品运输和分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。

(四)在医学上的应用。近年来,生物医学探究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别和探究。在人类基因探究领域具有挑战性的新问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。利用数据挖掘技术在DNA数据的分析探究中可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传探究中的路径分析等。近期DNA分析的探究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。

(五)在高校和科研单位以及其他领域的应用。主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。

数据挖掘技术探讨论文范文第3篇

Abstract: Data mining technology provides an important advanced technical means for China's water conservancy project in management and control aspect and has opened up new horizons for the management of water conservancy project. Because data mining technology can make integrated data analysis of water conservancy project and ensure the scientific and rational management decisions of water conservancy project. Data mining is a technical means of finding out the potential and valuable information in a large number of complex data and dealing with the information.

关键词: 水利工程管理;数据挖掘;技术;模型

Key words: water conservancy project management;data mining;technology;model

中图分类号:TV697 文献标识码:A 文章编号:1006-4311(2015)20-0038-03

0 引言

伴随着我国社会经济和科学技术的发展水平不断提高,在新型的信息化时代形势下,我国水利工程的相关基础设施的建设也在不断地完善。特别是在水利工程的管理和建设过程中,通过建立数据挖掘模型和采用数据挖掘技术,能够更有效地实现水利工程体系功能、作用,包括像一些防洪、防涝、灌溉、运输、发电、水产养殖等许多的有利功能。在这样一个庞大的水利工程体系中,必然存在着先进的工程管理信息系统。

1 数据挖掘

数据挖掘(Data mining),关于数据挖掘从另一个角度讲就是资料探勘、数据采矿等。在水利工程管理过程中,数据挖掘技术的应用对水利工程管理起到的促进作用是非常重要的。同时,数据挖掘也是数据库知识发现(Knowledge Discovery in Databases)中的步骤之一。数据挖掘的主要应用基本都是从大量的数据中,通过算法搜索隐藏于其中信息的过程。同样的,在当前信息化时代下,数据挖掘也通常是和计算机先进的科学技术息息相关的,通过计算机、互联网的统计、分析、搜索、学习等多方面,可以服务于很多行业、很多工程的发展,而刘家峡水利工程在管理控制领域就是采用的数据挖掘应用技术。

2 刘家峡水利工程管理数据挖掘模型

2.1 刘家峡水利工程管理

刘家峡水电站于1958年开始兴建,建成于1974年,它位于黄河上游的甘肃省境内,装机容量达122.5万千瓦,是我国的首座达到百万千瓦级的大型水利工程。其中水利大坝为混凝土重力坝,大坝的最高处为147米,刘家峡水电站的总共库容量为57.8亿立方米。

主要管理内容包括水库管理,水闸管理,堤防管理,引水工程管理,灌溉工程管理等。

2.2 对刘家峡水电站进行数据挖掘的重要性

在水利工程的管理控制和建设过程中,相关数据挖掘可以获得海量的珍贵数据和资料、信息,尤其是在刘家峡水电站的管理方面,获得的大部分都是一些空间数据。相关的管理部门和工作人员能够把握住对它们的理解,可以有助于提高其管理能力以及决策水平。

我国许多的水利工程都发展了很长时间,刘家峡水电站建成于1974年,1975年投入使用,距今整整半个世纪的时间。所以,刘家峡水电站在发展的过程中,会在不断发现问题的基础上去分析问题、解决问题。在实际中,影响水利工程管理与建设的相关决策的数据,其来源也是比较丰富多样化,像我国以及各地区的气象数据库、社会经济数据库、洪水和旱灾灾情数据库等。但是,它们之间的相同点、联系点很少,它们几乎都是处在异构的环境当中,基本都是来自于不同的各个系统,所以,数据的格式也比较多样化。而数据挖掘可以更好地将其进行空间数据的处理和分析,也可以对这些异构数据通过先进的计算机互联网应用技术进行清洗、变换、集成等,这是原先的水利工程管理工作当中所不能做到的。

2.3 刘家峡水利工程管理数据挖掘模型的构建

刘家峡水利工程的主要作用和功能包括防洪、防涝、灌溉、运输、发电、水产养殖等,对当地以及周边地区的社会经济和农业的发展起到着不可或缺的作用和影响力。而在以往的发展历程中,刘家峡水利工程在管理和决策方面,大多都是一些比较复杂的非结构化决策。因此,构建具有探查性或者查询驱动型的数据挖掘模型,可以方便刘家峡水电站的管理工作人员以及专家进行数据探查和专业的分析,更加有助于管理者决策的科学合理性。

图2当中的数据挖掘模型共分成四层,它们分别是:数据存储层、多维数据库和数据仓库层、OLAP/OLAM层(数据挖掘发现知识的核心内容)、用户界面层。其中用户界面层的主要应用就是管理者或用户进行人际对话、挖掘查询、挖掘结果以及显示输出。

2.4 数据挖掘技术与水利工程管理软件的集成

刘家峡水利工程的管理内容主要包括:水库管理,水闸管理,堤防管理,引水工程管理,灌溉工程管理等多个方面。虽然数据挖掘有助于为水利工程管理过程中提供科学的决策依据,但是如果对刘家峡水利工程的管理工作进行孤立的数据挖掘,这是不符合当前数据挖掘理论系统的基本构思的。所以,只有在利用现有的、成熟的国内水利工程管理成果基础之上,再结合数据挖掘系统,这才是开发刘家峡水电站管理数据挖掘系统的最佳途径。

国内众多的水利工程在管理和建设过程中,使用最多的就是GIS技术软件。GIS技术软件具有分析处理功能、空间数据查询功能。GIS技术软件的本身就包含着丰富多样的资料和信息,像一些当地的社会经济、地形地质、水文环境等。所以,刘家峡在以后开发水利工程管理数据挖掘系统的时候,首先考虑到的应该是怎样实现GIS技术系统与数据挖掘理论系统的有效集成。

根据刘家峡水利工程的基本情况,可以采用的集成模式主要有以下三种:嵌入式耦合、松散式耦合、紧密式耦合。根据个人的工作经验并结合对现实中的一些认识,笔者认为当中最适合刘家峡水利工程的耦合方式应该是紧密式耦合。紧密式耦合的集成方式有效的结合了前两者(嵌入式耦合、松散式耦合)的优点,同时又合理地剔除了它们当中的一些缺点,在很大的程度上使数据挖掘系统的灵活性得到极大改善和性能得到提高,但是它也有一个缺点,就是对GIS技术系统的整体依懒性比较大。

3 水利工程管理数据挖掘系统应用结果及分析

表1为2013年-2014年刘家峡水库径流预报结果。

图4为刘家峡水库2014年4月份下旬各日入库径流。

水文预报作为水利工程管理过程中一个重要的环节,本文利用数据挖掘应用技术,并将其具体操作流程引入到水文预报当中,从而建立起来一套水利径流预报数据模型。它与传统的径流预报的方法相互比较之后,可以看出该数据挖掘技术对数据要求比较少、同时操作过程有比较简单、减轻了工作人员的压力、提高了工程运营效率。通过以上数据分析结果,可以得知该技术算法的精度较好的达到了水利工程的要求。

4 总结

全文通篇探讨了水利工程管理数据挖掘模型这个研究主题,并且分为了两个部分。首先简要介绍了数据挖掘理论系统。其次重点讨论了水利工程管理数据挖掘模型,并且结合了位于黄河上流甘肃省境内的刘家峡水电站工程,分为了五个小部分进行了探讨和分析、研究:①刘家峡水利工程管理;②对刘家峡水电站进行数据挖掘的重要性;③刘家峡水利工程管理数据挖掘模型的构建;④数据挖掘技术与水利工程管理软件的集成。

总而言之,在当今我国信息化时代,不仅仅局限于各个地区,为了全国范围内的水利工程都能很好的发挥其作用,所以就必须采取和应用数据挖掘技术系统。数据挖掘技术系统不仅可以强化水利工程管理当中的效率,更重要的是能够保障水利工程有利功能的充分发挥,进而推动当地的社会经济发展,服务于周边的人们。

参考文献:

[1]曾敬松,汪丁怀.关于水利工程管理数据挖掘模型探究[J].新材料新装饰,2014(5):439.

[2]美娜・加尔木汉.可视化数据挖掘应用于农田水利工程管理探究[J].建筑工程技术与设计,2015(3):514.

数据挖掘技术探讨论文范文第4篇

【关键词】隐性知识 数据挖掘 隐性知识挖掘方法

一、引言

隐性知识是指人们无法清楚地传达出来的知识,这些知识存在于其头脑中,只能通过具体的行动来表示。在对隐性知识管理的研究中,如何使得隐性知识显性化是知识管理的重要研究内容之一。本文对数据挖掘、隐性知识的基础知识进行了梳理,同时陈述了现有文献和企业中的隐性知识挖掘方法,旨在使以后的学者能够在此基础上开发出新的、更优的隐性知识挖掘途径与方法。

二、隐性知识的转换

著名的英国学者波兰尼于20世纪60年代,在其代表作——《个人知识》中,首次对知识进行分类,分为明晰和默会知识,著名的日本学者——野中郁次郎(Ikujiro Nonaka)在其书——《创造知识的公司》中,借鉴并发展了波兰尼所提出的知识分类方法,将知识分类为隐性知识和显性知识。

Nonaka提出隐性知识的两个要素是认知和技术,认知是指个人对外部状态的模拟和理解,如信仰、范式、价值观,技术是有关具体如何操作的知识,指对具体问题的解决方案等。Nonaka从知识相互转化的角度阐述了隐性知识与显性知识转化的动态过程,提出了著名的SECI模型(隐性与显性知识转化过程:社会化、外在化、组合化、内隐化),为后续的研究提供了一个崭新的视角。

三、基于数据挖掘的隐性知识挖掘

(一)数据挖掘及其应用

数据挖掘(Data Mining)是从大量的随机、不完全、模糊的数据中提取出隐含在其中的、事先不为人知但是具有潜在价值的知识和信息的过程。数据挖掘技术可以应用在许多领域,诸如金融服务、电力供应业(负荷预测)以及市场营销和销售,同时也能够应用于以产品发展为目的的领域, KDD还可用于工业、交通、电信、市场营销、保险等其他行业。

对数据挖掘技术的使用可以在大量未经筛选的数据中提取出可供学习的、有价值的知识和信息。在构建知识管理系统时,普遍采用的数据挖掘方法如:分类、聚类、Web页挖掘和关联规则等。分类、聚类以及关联规则方法都是使用某种挖掘算法对企业内部知识归类,方便员工进行搜索和文件管理;而Web挖掘技术则是通过对Web日志的挖掘总结出企业员工在工作过程中进行知识搜索的相关内容,主要是有关哪个方面以及企业知识库中是否需要添加新知识和新信息以满足员工需求。

(二)知识管理

为了适应市场竞争力的不断变化,企业需要不断提高企业客户知识、加强企业员工对于知识的获取、创新以及共享,随之便产生了基于IT技术的对数据和信息的管理,即知识管理(KM )。有学者提出,知识的处理以及利用主要包括如下三个阶段:第一,知识库阶段;第二,知识共享阶段;第三,知识发现阶段。

在知识库阶段,经过手工处理的知识进入到预先被定义的知识库中,知识库阶段的技术主要是单机数据库和文件系统。数据共享阶段,人们意识到自己需要哪种知识但没有该知识,因此开始搜索知识。知识发现阶段出现了求知欲,也产生了知识发现的希望,这也许正是文本挖掘出现的内因。由上述三个阶段我们也可以得到如下结论:知识管理的整个进程都是与数据库技术密不可分的。

(三)隐性知识挖掘方法列举

由于隐性知识对于企业的重要性,学术界和企业都采用了许多不同的方法来进行隐性知识的挖掘。本文对隐性知识挖掘方法列举如下:

1.基于案例的隐性知识挖掘方法

当前许多企业运用建立案例库的形式来留存在具体工作过程中处理事件所运用的隐性知识,在新案例的处理过程中使用人工智能的案例推理取得了不错的效果,该方法通过搜集大量的案例(在实际工作过程中专家如何解决问题),采用建立映射关系(专家解决问题到实际的知识领域)以构成相对应的知识结构图,或者通过关联分析的方法从案例中挖掘出隐性知识。

2.基于Microsoft三种算法的隐性知识挖掘方法

基于Microsoft的隐性知识挖掘方法包括如下三种:基于Microsoft决策树算法的隐性知识挖掘方法、基于Microsoft线性回归算法的隐性知识挖掘方法、基于Microsoft神经网络算法的隐性知识挖掘方法。

Microsoft决策树算法是通过在树中创建一系列拆分来生成数据挖掘模型。Microsoft线性回归算法是Microsoft决策树算法的一种变体,更加易于计算独立变量和依赖变量间的线性关系,并使用该线性关系进行预测。Microsoft神经网络算法对输入属性的所有可能状态以及可预测属性的所有可能状态进行组合,并通过使用定型数据来计算概率。

3.基于其他算法的隐性知识挖掘方法

通过数据挖掘的其他算法,如遗传算法、FP算法、Pairwise analysis等途径都能够实现对隐性知识进行挖掘。

4.基于web的隐性知识挖掘方法

企业通常也直接针对企业员工的隐性知识共享与挖掘,设计、开发或直接购买基于web平台的知识挖掘系统。目前应用尤为广泛的是基于e-learning的隐性知识外化方法,隐形知识外化方法能够将知识持有者的知识外部化到知识库中,企业中的知识组织者和教学设计者对知识进行组织,进而使得知识探寻者能够学习知识库中的知识,同时对学习效果进行反馈,形成操作型的知识数据库。该方法能够很好地发挥e-learning和知识管理的优势,有效地提升企业的学习能力和工作效率。

四、讨论与展望

在企业的知识构成中,隐性知识占很大一部分,对隐性知识的挖掘就显得尤为重要。本文梳理并讨论了基于数据挖掘技术的隐性知识挖掘的背景知识和现有文献以及企业中的隐性知识挖掘方法。企业应根据其自身状况,针对不同种类的隐性知识并结合实际情况,利用知识挖掘算法以及其他的分析途径,开发企业内的知识挖掘系统或建立相应的平台,同时加强员工分享知识的积极性。

参考文献

[1]张喜征,陈博.基于案例的隐性知识挖掘研究[J].情报杂志,2006,25(07):8-9.

[2]芦昆.基于Web2.0的隐性知识外化研究[J].情报科学,2008(002):247-251.

数据挖掘技术探讨论文范文第5篇

中图分类号:R2-03 文献标识码:A 文章编号:1005-5304(2013)04-0010-02

近年来,信息技术在中医领域,尤其是在名老中医诊疗经验挖掘研究工作中的应用逐渐成为热点。但在具体实践中也出现了一些困难和问题,如研究方法难以突出中医特色、成果实用性不强等。由于中医学知识的复杂性,对中医知识的挖掘必然有其特殊性,作为一种技术手段,数据挖掘理应遵循名老中医经验整理的一般规律和原则,据此,笔者抛砖引玉对名老中医诊疗经验挖掘的思路提出一些个人认识与看法,期待引起同道对此问题的探讨。

1 从数据采集角度分析中医医案特点

从数据采集的角度看,中医医案尤其是名老中医医案不同于记述完备的现代医学住院病历,中医医案不必要求将患者的症状、体征完整记述,而只需要将主证及辨证论治的思路描述清楚。可以说,中医医案是医家临床思维活动、辨证论治过程的记录,是中医理、法、方、药综合运用的具体反映。中医医案在病情症状描述方面的信息通常是模糊或不完整的,这些信息往往是从患者身上提取但经医生主观筛选过的,而与主证密切相关的一些特殊指征,如医生的问诊往往是围绕主诉,有针对性有重点地展开,不必面面俱到,就望诊而言,简单的文本描述也不可能全面反映诊疗现场丰富的视觉信息[1]。

通过考察中医医案文本, 不难发现其内容大体可分为疾病、症状、证候、治法、方药、疗效等不同方面,其中疾病、症状、证候、治法、疗效信息的描述通常会呈现不完整、模糊和主观性的特点,而方药信息则不同,方与药相对来讲都是比较完整、具体而客观的[2]。因此,方药信息数据的这种特点非常适合运用数据挖掘方法进行分析处理,而目前名老中医经验数据挖掘研究也普遍是从经验方、药入手而展开的。

2 从经验方药入手开展数据挖掘研究的理论基础

一般而言,历代中医文献大部分可归属于方剂或本草类古籍,如《伤寒论》、《金匮要略》、《千金要方》、《外台秘要》、《神农本草经》、《证类本草》、《本草纲目》等,这些古籍文献从某种意义上可被视为传统中医经验整理的有效形式。正基于此,我们可以看到,通过收集大量的名老中医医案,运用以方统证、以药统证的方法进行名医诊疗经验的数据挖掘,揭示医案中蕴含的各类方证、药证关系,这种方式是传统中医临床经验挖掘整理方法的延续和发展。数据挖掘在中医领域的应用研究前后十余年时间虽已取得了不少成绩,但仍处于起步阶段,依然存在一些问题和困难,需要继续努力予以研究解决。

3 名老中医医案数据挖掘存在的问题

以往中医医案数据挖掘研究人员可分为两类人:一为中医药专业研究者,他们专业功底深厚但计算机知识、数理统计知识相对薄弱;另一类为计算机专业研究者,他们有很强的信息处理能力,但中医药知识相对欠缺。两类人分工协作,优势互补,但即便如此,在具体研究过程中也难免出现问题:①挖掘需求不明确,目标不够具体。名老中医医案数据的提供者与数据挖掘的操作者由于知识结构差异,沟通不足,造成中医专业人员对数据挖掘需求不明确,部分数据挖掘人员对于中医专业研究目标不清晰。②研究过程重视各种技术方法的使用,缺乏完善的前期中医与科研方法学设计,导致专业与方法的分离。数据挖掘仅仅是一种技术手段,需要在严谨而合理的科研设计思路指导下才能发挥它应有的作用。③忽视前期对名老中医学术思想、理论体系的调研,对研究结果的解读分析缺乏深度。这个问题普遍存在,值得重视[3]。如在运用关联规则对名老中医经验方和药对的挖掘过程中,研究者往往只注重从数据关联的角度提取有效的药物关联,但这不够,还有必要进一步从中医专业角度审视数据内容(即药物)之间的配伍关系,如甘草往往和许多其他药物有数据关联,但这些关联都不能称其为“药对关联”,只有当甘草和这些药物在实际运用中存在明确的配伍关系时(如甘草与芍药、甘草与桔梗)才可以将其称为药对。方剂的确定也是如此,正如徐灵胎所言:“圣人之为制方,以调剂之,或用以专攻,或用以兼治,或以相辅者,或以相反者,或以相用者,或以相制者。故方之既成,能使药各全其性,亦能使药各失其性。操纵之法,有大权焉,此方之妙也。”其中相辅、相反、相用、相制即指药物间的配伍关系,方剂的精妙之处在于它能通过配伍将不同的单味药整合为一个统一体,方中单味药物共同协作,发挥整体效能,药物个性表达完全为方剂这个总体所控制,或更加突出,或完全被掩盖。

4 从人才培养和学术发展探讨名老中医诊疗经验数据挖掘研究

正是由于中医领域数据挖掘研究需要兼顾中医学与信息科学两方面的要求,需要信息技术与中医药研究方法学的有机结合,因此,有必要培养一批两类知识兼备的复合型研究者。但此前我们还应意识到,从长远考虑,名老中医诊疗经验的数据挖掘毕竟属于名老中医经验整理的范畴,应以中医及相关领域的学者为主导,方可把握正确的研究发展方向。只有熟悉名老中医经验整理研究思路方法的专家,才有能力把握名老中医经验挖掘的基本路线和基本框架,而技术专家的作用是在既定的框架内最便捷、最优化地实现预定目标。名老中医诊疗经验挖掘研究目标应根据名老中医和弟子需求及名老中医整理研究专家的指导共同制定,发挥传承双方的主动性和积极性,结合数据挖掘技术专家的看法,有针对性地开展,研究结果能为名老中医及其弟子服务,提高名师学术传承效率和弟子临床诊疗水平。

在整个名老中医诊疗经验挖掘研究过程中,应尽可能将定性与定量研究方法有机结合起来,有针对性地组织运用这些方法来发现和解决实际问题。如数据挖掘开展前先全面了解该名老中医学术思想、诊疗习惯、思维特点,再根据名老中医及弟子在传承过程中遇到的具体问题,考虑技术可行性;同时通过具体研究让名医弟子得到锻炼,培养复合型研究人才,使今后的名老中医经验挖掘研究更加实用化和规范化。

5 结语

数据挖掘在名老中医诊疗经验挖掘研究中的应用是信息技术与中医科研方法的有机结合,数据挖掘的引入应该成为中医传统研究技术手段的一次革新。但由于中医研究的复杂性,名老中医研究领域数据挖掘难度高于一般信息技术领域数据挖掘形式,因此,需要整合中医学、思维科学、信息科学等领域的研究方法,同时也需要多学科人才的共同努力,才能充分挖掘出名老中医研究领域的有效数据。

参考文献:

[1] 古求知,柳长华,罗琼.中医医案类文献的分析挖掘研究[J].辽宁中医杂志,2011,38(10):1976-1977.

[2] 张华,刘保延,田从豁,等.“人机结合、以人为主”的名老中医经验整理研究方法[J].中医研究,2007,20(2):4-6.