计算机的酒技术在科技蕾镊的应用研究朱东华荆雷徐建国(北京理工大学管理与经济学院,北京100081)摘要数据挖掘,在科研领域也称为数据库中的知识盅现,是一个利用各种分折工具在海量数据中发现模型和数据间关系的技术。挖掘是数据挖掘技术在上的应用。挖掘处理的对象主要是半结构化的数据.这是它最主要的特点。目前我们的研究工作正爰利用该项技术来实现科技信息的网络动态监刹和信息的自动获取。自然语言处理技术,是指利用特定的算击健计算机系统能够理解和生成自然语言。它是人工智能活跃的研究领域之一.是人文科学和自然科学的交叉性学科。关键词教据挖掘;知识发现;挖掘;自然语言处理:文本挖掘中图分类普砣04文献标识码文章编号100卜7348(2003)08023—031大型科技文献和专利数据库环境下的数据挖掘技术数据挖捌,在科研领域也称为数据库中的知识发现.是一个利用各种算法和工具在海量数据中发现模型和数据间关系的过程.是从原始数据库巾发现有效知识的过程。
数据挖掘的结果可以用柬预谩未来的趋势。数据挖掘技术属于当今国际前沿领域“人工智能”的范畴。
是近几年新的研究热点。1.1数据挖掘技术研究的兴起随着太型科技文献数据库和专利数据库系统在科技创新中的广泛应用,全球范围内的科技数据信息急剧增大。
传统的数据库技术提供了对科技信息的高技存储、快捷检索,但无法满足当前“商新技术监测分析技术”进行更深层次数据分析的需求。面对庞大的科技信息数据库,人¨需要快捷地从中提取出有用和有效的知识,对数据挖掘技术的研究始于20世纪70年代的知识发现,这一概念一经提出,就受到了普遍关注。研究人员对其理论和技术进行了深入细致的研究.在各应用领域进行了广泛的应用实践.研究工作取得了很大进展。数据挖掘技术的出现.为自动和智能化地把海量数据转化成有用的信息和知识提供了手段.1.2数据挖掘的本质数据挖掘是从大型数据库巾抽取隐含的、以前所来知的、具有潜在应用价值的模式的非平凡过程.它在数据库中自己寻找含的模型.在本质卜是一种“归纳”。这里的模式也就是指所要发现的知识和数据库中有用的信息.它是对数据载体所包含的信息更高层次更抽象的表述。数据挖掘得到的模式必须是正确的和具有创新性的.否则就不能称之为成功的数据挖掘。非平凡是指在数据挖掘中.发现知识的过程和算法应是事先未知的.该过程应具有不确定性。确定的计算过程或计算公式提取的模式,一般称之为平凡知识.平凡知识不是数据挖掘的目标。数据挖捌基于的环境是大型科技文献数据库和专利数据库,它应用的对象是大规模数据集.待处理的数据规模可能达到、,甚至更大。在此部分的论述中,我们的研究工作主要针对结构化科技数据库。1.3数据挖掘方法数据挖掘按照应用的技术方法可分为:基于关联规则的发掘方法、基于粗糙集的发掘方法、基于神经元网络的方法、基于统计的发掘方法、数据的可视化发掘方法和文本发掘等等。(1)关联规则挖掘。所谓关联规则.是指同一个事件中出现的不同项之间的相关性.是指数据对象之间的相互依赖关系.用来描述一组数据的密切度。挖掘关联规则和关联分析就是寻找上述相关性,发现存在于大量数据集中的隐含的关联性。从数据库中发现关联规则近儿年研究得最多.是数据挖掘领域的一个研究热点。其内容包括单一概念层次关联规则的发舰和多十概念层次的关联规则的发现。处理对象和过程的概念层次越多.数据挖掘所发掘的知识和信息越具体.实际上这是个逐步深化发现知识的过程。目前典型的关联规则采掘算法有和两种,它们都是基于数据库遍历算法的。(2)数据的可视化挖掘方法。
数据可视化技术采用直观易懂的方法帮助人们理解数据库中的数据,它以可视化的形式将数据和数据挖掘得到的模式呈现在人们面前.使用户能够完全理解挖掘后产生的数据和所发现的知识。
数据可视化技术一般采用表格、直方图、散点图或自然语言文本报告等可视化和基金项目:国末自然科学基金重点资助项目(编号:70031010)。作者简介:朱东华,教授,博士导师,研宽方向为科技管理、技术预测、数据挖掘、人工智能、信息系统;荆雷.北京理工大学管理与经济学院;橹建圆,清华大学经济管理学院博士生。收稿日期:2002一12—202003·8月号·科技进步与对策23形象化的方式来展现多维多元的数据,用可视化的方法可以方便地将尽可能多的内容同时表示出来。
现存的适于进行大型数据库可视化采集的重姜技术主要有以下几种:像素定位法、几何法、基于图标的方法等等。3)基于粗糙集的发掘方法。粗糙集理论是波兰数学家.洲在1982年提出的一种分析数据的数学理沱,该理论主要用来处理含糊和不确定性问题。
其特点是处理问题之前,只需用户提供必要的数据集合和信息.然后直接从待解决问题的描述集合中找出问题的内在规律性,方法非常简单便捷。这是粗糙集理论最重要的优点。近年来,粗糙集理论研究和应用都取得了飞速的发展。利用粗糙集理论可以处理的问题包括数据简化、数据相关性发现、数据意义的评估、数据的近似分析等。该理论是以“分类”为基础的,分类即等价替代美系.对知识进行理解也就是对数据的划分和等效替代。
(4)文本挖掘。科技信息的网络动态监测和信息自动获取技术领域的研究是基于自由文本分析(吐丑8曲和自由文本向结构化科技数据库转化等基础技术的。自由文本分析是一个动态的分析过程,属于当今前沿计算机领域一文本挖掘的范畴。文本挖掘(嘴)主要处理半结构化、无结构化和字符型数据。它将数据挖掘技术与信息检索技术相结台.开扩了数据挖掘新的应用领域。其特点是髓够更加有效地对文本数据(例如页面)进行分析,从而弥补了信息检索技术的缺蹈与不足。
目前,对文本挖掘的理论方法和技术实现国内外都在进行深入研究和探讨.我们的研究目标是:利用自由文本分析(89)和自由文本信息的结构化等一系列动态分析过程和技术,研制不间断、长期运行的网页动态监测器.对技术方向系列动态激别、记录和分析,并在结构化的科技文献和专利数据库中寻求相关信息数据支持。国外的研究成果已经有了一定数量的文本挖掘工具.并且出现了很多融台文本挖掘思想和技术的应用。公司研发的叩工具.可以提供自动的文本处理;公司出品的智能化文本挖掘器(怕.学盯帆),适合大型软件公司的开24科技进步与对策·8月号·23发人员使用;小公司的产品“..是一个自动的电子邮件阅读和解释系统。1.4数据挖掘的过程1)定义问题和目标。明确所要解决问题的性质和数据挖掘的目标。
通过学习,熟悉应用领域和问题所涉及的背景知识。21建立目标数据集。根据需求从数据库中提取相芙的数据.建立一个独立的日标数据集。(3)数据预处理与清洗。从目标数据集(即数据挖掘库)中除去明显错误的数据和冗余的数据,去除噪声或无关数据.去豫李白数据域,并进行数据清洗。(4)数据转换。通过各种转换方法将数据转换成有效形式,为今后的数据开采做好准备工作。5选定数据挖掘算法。根据具体实际情况,选择特定的数据挖掘算法(如汇总、分类、回归、聚类等),包括选取模型和参数两项内容。(6)实施挖掘。用所选择的算法实施数据挖掘工作,并将结果用一定的方法(例如可视化技术)表达成易于人们理解的形式。模式解释。对发现的模式(知识)进行解释、评估和价值评定。2科研、高技术产品网页动态监测除结构化的刀客辉煌游龙.传奇好听点的行会名字.传奇私服豪门连击的数据库资源外.我们的项目重点开展对网页科拄信息资源的开发、(自动)动态监测分析。此项研究主要针对非结构化科技信息进行动态扫描监测。这是一项具有挑战性和较高应用价值的研究,其成果还有望应用在金融、贸易等其它领域。此部分的研究内容具有较大的创新力度,“科技信息的网络动态监测和信息自动获取技术”属于当今国际前沿领域“醒”的范畴,我们提出将“利用结构化科技数据信息与网页科技信息交互支持来实现对科技信息动态监测”方案是一个全新的思路。2.1培的基本概念,即挖掘,是数据挖掘技术在上的应用,它是从文档的相关资源和行为活动中抽取感兴趣的潜在的有用模式和隐藏信息。目前比较可行的方法是将数据挖掘的思想和方法引入信息处理领域.实现科技信息的网络动态监测和信息自动获取。资源可以看成是一个非结构化的数据库,因此挖掘较基于结构化数据库的数据挖掘更加复杂,其应用前景更加广阔。挖掘的潜力在于应用存在的和最新的数据挖掘算法.分析服务器上的科研信息和高技术产品的外部数据.实现对科技债息的动态监测。
基于曲的信息挖掘可以使用户快捷方便地从网页上获取具有价值的高质量的科技和科研产品信息。我们目前的研究工作在国内和世界上都属于开创性的研究.工作得到不断的开拓进展,研究成果具有很强的实用价值。2.2挖掘的分类一般地,挖掘可分为3类:内容挖掘唧曲)、曲结构挖掘(Ⅱ陀)和用法挖掘(889曲。结构挖掘的目的在于发掘出页面结构体系的模式,在此基础上对页面进行归类,从而找到科技领域中权威的和重要的页面。页面的超链接反映了文档闻引用和被引用的关系.一十页面被别的页面所引用或指向的次数多少表明了该页面在领域内的重要程度。内容挖掘又可分为页面内容挖掘和搜索结果挖掘两种。页面内容挖掘是指直接从文档的文本内容中提取出有用知识的过程;搜索结果挖掘是指在搜索引擎的基础上对数据作进一步的处理。
发现有用的知识。用法挖掘包括一般访问模式跟踪和个性化的使用方法跟踪一般访问模式跟踪侧重了解用户的群体访问模式和访问倾向性.从而改进网站的后续建设。
而个性化的使用方法跟踪则倾向于分析单个用户的偏好。用法挖掘最广阔的应用前景在于电子商务领域的应用,电子商务网站可以利用此项技术为客户提供个性化的服务和产品。在我们所研究的科技信息监测系统中.可以利用此项高新技术通过网页动态监测发现目标技术领域的关锦技术和重要产品。
3基于高新技术监测分析的自然语言处理技术我们研发的面向我国重要技术管理部门应用环境的高新技术动态监测分析系统,可以在结构化的科技文献和专利数据库中跟踪某项新技术,利用网页动态实时监测器对网页进行长期的、不间断的监测分析。
获取的信息,即数据的集合,需要送分析器利用成熟的分析方法和模型进行自然语言分析与处理。自然语言处理技术,是指利用一定的算法使计算机系统能够理解和生成自然语言。目的在于建立起一种机器与自然语言之间密切而友好的关系.使之进行高度的信息传递与认知活动。我们的研究作旨在发展自然语言处理中的文本生成技术,研制出“技术预警、评估定量分析报告”的自动生成软件系统。
该研究成果对在实用阶段根据阔题迅速改进模型具有重要意义,并易于在网络上供科技管理人员使用。3.1自然语言处理技术的发展自然语言处理的研究始于机器翻译,1946年,随着第一台计算机的同世,英国的.0布斯和美国的.韦弗1就开始了机器翻译的研究。1954年.在麻省理工学院组织的第一次机器翻译会议上.世界上首次自动翻译运行并取得了初步成功,引起了国际上机器翻译研究的热涌。但是机器翻译的问题很复杂,由于低估了它的困难程度,初步的成功形成了一种假象,以致于叉走向了它的反面,出现了低谷。大约到了20世纪70年代.涌现出了一大批新的理论与方法,文法分析、模型、模型、语义网络理论等。这些理论的不断发展,将自然语言处理的研究引向非常广阔的应用领域。近年来。新一代计算机和智能机器人的研究开发,使得自然语言处理技术成为当今人工智能中最活跃的研究领域之一。3.2自然语言处埋的概念和过程自然语言处理(理解),有时也称为计算语言学.是计算机科学中一个富有挑战性的课题.是人工智能早期活跃的研究领域之一。自然语言处理研究的目标是寻找一种计算机模型(算法),这种计算机模型能够象人那样理解和分析自然语言。自然语言处理是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的.是人文科学和自然科学的交叉性学科。自然语言处理系统包括自然语言人机接、机器翻译、文献检索、自动文摘、自动校对、语音识别与合成、字符识别等等。对自然语言的理解奠分为3个层次:同法分析、句法分析和语义分析。
词法分析是通过分析词汇的各个要素,从中获得语言学信息;句法分析是对句子和短语的结构进行分析;语义分析是通过分析找出词义、结构意义及其结台意义.从而确定语言所表达的真正含义和其所表达的知识。在自然语言理解中,语义分析是研究的重点,越来越受到人们的关注。3.3机器翻译机器翻译.是让计算机模仿人类魏译语言的思维过程.把一种方然语言转变成另一种自然语言的过程。自然语言研究初期阶段的工作主要是针对机器翻译。机器翻译系统是典型的、其应用价值也是最明显的自然语言处理系统。机器翻译的过程一般包括3个阶段:原文输人、原文分析和译文输出。原文分析包括两个阶段,查词典和进行语法分析。机器翻译的逻辑过程又可划分为:分析阶段、转换阶段和生成阶段。当前机器酮译研究的重点是。在理论研究的基础上.建立一种形式系统,该系统不仅可以用来表达不同的语言知识、而且要表述出不同语言内部表示之间的可计算性,也就是可以通过特定的计算机算法和程序模块进行自然语言之间的准确转换。3.4自然谔盲处理技术在搜索引擎中的应用将自然语育处理技术嵌人和应用于搜索弓擎技术当中是自然语言处理技术今后的一个重要发展方向。近年来自然语育处理技术发展非常迅速,特别是机器翻译与语义理解被广泛应用于搜索引擎.取得了很大成功、有效地扩展了自然语言处理的应用领域。应用了自然语言处理技术的搜索引擎称之为智能搜索引擎。通过对嵌入了机器翻译功能的智能搜索引擎的研究,将使得网络用户可以使用母语搜索非母语的刀客辉煌游龙.传奇好听点的行会名字.传奇私服豪门连击的网页.并以母语浏览搜索结果。语义理解通过将语言学厦人文科学的研究戒果同计算机技术结合在一起.实现计算机智能化地对语言在语义层次上的理解和认知。4结论与展望本文全面综述了计算机前沿技术在科技管理领域的应用与研究现状,对数据挖掘、挖掘和自然语言处理3个计算机技术领域进行了全面深人的综合论述。并对我们目前的研究工作和工作成果也进行概述性的简单介绍。
计算机前沿技术在科技管挥,甚至是整个管理科学界的应用前景都是被人们所非常看好的,“中英文兼容、关键词互洋平台环境下高新技术动态监测和分析软件系统”是我们研究工作的最终目标和成果。这一研究具有很高的应用价值.整个项目方案目前在国际上属首创、开拓性的研究工作。
上一篇:好听行会名字.电信超级变态传奇私服.嘟嘟传奇发布网站-美日欧谁
下一篇:没有了
180精品复古.今日新开第一区传奇私服.1.80大极品版本
龙影二合一.送荣耀倚天传奇SF.最新t天裂合击-高新技术企业创业导
刚开的天裂.麒麟二合一传奇私服.炎龙元素版SF-风险投资与技术路
老板1.76.热血传奇今日新开私服.今日新开武易SF-现代铸铁件生产
七彩虎威.传奇SF三外挂调法.合计SF无补丁-产业结构优化与中国经
上线50000级的私服.三国元素炎龙版传奇SF.176精品天羽传奇
执迷传奇.疯杀禁区传奇私服.私服赌博数据器-电力市场运营系统体
晨风复古.倚天.超级特戒黄金版本.变态无补丁SF-83技术性贸易措
1.80吕布.中变1.85元素版.176元素迷宫版-国企改制中财务审计与资
SF地丁.网通变态传奇私服第一站.20号最新传奇私服-2004年美