层次聚类分析与研究论文

发布时间：2024-12-04 23:03:19

层次聚类分析与研究论文

基于聚类分析的广西区域经济发展状况研究的论文

【摘要】：本文以广西壮族自治区14个地级市作为研究对象，从地区生产总值、社会消费品零售总额、全社会固定资产投资、公共财政预算收支总额等方面，选取11个具体指标，运用聚类分析方法分析并评价各地级市经济发展状况。研究结果显示，广西14个地级市可划分为四类经济区域，不同城市之间的经济发展水平存在较大差异。在此基础上，从加强各地级市之间的经济合作、积极推动开放型经济发展、强化科技创新以推动产业结构优化升级等方面提出具体建议，为促进广西区域经济的全面发展提供参考。

【关键词】：聚类分析；广西；经济发展；政策建议

一、引言

近年来，随着中国—东盟自由贸易区的建成，中国与东盟各国贸易投资增长，经济融合加深，经贸往来愈加频繁。广西作为中国—东盟自由贸易区的门户省份，加之“一带一路”战略的提出与实施，良好的区位优势和资源环境承载能力，无疑将会为推动广西区域经济的腾飞提供持续的动力和良好的机遇，发展前景十分广阔。但由于历史的原因，加上人口、社会和基础设施等因素的影响，广西的经济发展水平和人均地区生产总值在内陆31个省、市、自治区中仍处于中下水平，与上述提到拥有的区位优势、经济优势是极不相称的。广西下辖的14个地级市经济发展程度和产业结构也存在一定的差异。一直以来，区域经济发展问题都是区域经济学、经济地理学等学科关注和研究的对象，区域经济发展中出现差距，是各国经济发展中存在的普遍现象[1]。如何就广西下辖的14个地级市进行经济发展程度的分析和分类，对于正确认识广西各地级市经济发展所处的发展阶段，制定正确的宏观政策，以促进各地区的良好协调发展具有重要的理论和现实意义。

二、研究区域概况

广西壮族自治区，简称“桂”，首府南宁，位于中国华南地区西部，与广东、湖南等省份接壤，南濒北部湾，面向东南亚，是中国唯一一个沿海自治区，自然条件优越，资源丰富，尤以海洋资源和矿产资源为甚。截至2015年12月，全区辖14个地级市，县级行政区111个，行政区划面积万平方公里。2015年全区总人口为5518万人，地区生产总值亿元，占全国的。人均地区生产总值为39150元。但由于历史的原因，加上人口、社会和基础设施等因素的影响，广西的经济发展水平，无论是地区生产总值还是三大产业结构完善程度等方面，在内陆31个省市中均处于中下水平。区内下辖的14个地级市，经济发展水平和产业结构各异，部分地级市经济发展程度相对滞后。近年来，随着中国—东盟自由贸易区的建成和“一带一路”战略的实施，广西吸引着国内外大量的资本和人力涌入，显现出广阔的发展前景。

三、聚类分析方法研究设计

（一）指标选择及数据来源

区域经济发展状况的研究，依靠单一的指标，是无法对其进行综合、全面的评价与分析的。因此，在对广西区域经济发展水平分析评价的过程中，需要借助多个评价指标，构建合理完善的评价指标体系。本着建立评价指标体系要遵循科学性、系统性、全面性、独立性、可操作性等原则，本文在参考以往文献资料的基础上，根据广西各地级市经济发展状况、人口条件、社会资源等方面的实际情况选取了11个具体指标，分别是：行政区划土地面积（平方公里）、地区生产总值（亿元）、人均地区生产总值（元）、户籍年末总人口（万人）、固定资产投资（亿元，不含农户）、公共财政预算收入（亿元）、公共财政预算支出（亿元）、农民居民人均纯收入（元）、城镇居民人均可支配收入（元）、社会消费品零售总额（亿元）、进出口总额（人民币，万元）。为方便后续各指标数据的处理，分别以X1、X2、X3、X4、X5、X6、X7、X8、X9、X10和X11指代。各指标详细数据均来自《广西统计年鉴2016》和《2015年广西壮族自治区国民经济与社会发展统计公报》。

（二）数据处理

本文利用对反映广西14个地级市经济发展状况的指标进行聚类分析。由上述内容可知，研究所选取的11个指标由于它们原始数据量刚的不同，为防止指标取值的分散程度较大，需对各指标的取值做标准化处理。

各指标数据经过标准化处理后，X2（地区生产总值）与X5（固定资产投资）、X6（公共财政预算收入）、X10（社会消费品零售总额）的相关系数都大于，故而这四个指标不必均作为聚类变量，选择其中一个即可，本文选择X2（地区生产总值）。接着，运用不同的聚类方法进行聚类分析。

（三）结果分析

本文利用对广西14个地级市经济发展状况进行聚类分析，在对选定的11个聚类变量的数据经过标准化处理后，依据结果聚类个数的不同，而相继运用系统聚类和K—均值聚类法进行聚类分析，并得出结果。参考以往文献资料对广西14个地级市经济发展状况的分类，以及广西各地区实际的经济、社会和人口状况，本文认为对广西14个地级市经济发展水平的分类，聚类个数分为四类比较适宜。对于广西14个地级市经济发展水平的分类应为：南宁、北海、钦州为第一类；柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类；防城港为第三类；崇左为第四类。

由聚类分析结果可知，南宁、北海、钦州为第一类，这三个地级市经济相对发达。南宁是广西的首府，全区的政治、经济、文化、金融和信息中心，经济发展程度高，产业结构相对完整，良好的区位优势、众多的政策支持以及坚实的经济发展基础，使得南宁在多方面的发展都领跑于广西区的其他地级市。北海是全国14个沿海开放城市之一，处于泛北湾经济合作区域结合部的中心位置，便捷、高效的交通设施，众多经济圈的发展福利，以及丰富的海洋资源、繁荣的旅游业，都推动着北海经济社会的快速发展。钦州，南海之滨，北部湾经济区南的中心位置，是大西南最便捷的出海通道，依托于得天独厚的港口优势，大力发展进出口贸易。

柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类，这9个地级市经济发展水平较高，三大产业结构相对完善，各自依托于自身的经济发展优势，经济发展增速较快。

防城港和崇左分别是第三和第四类。防城港是中国的深水良港，是中国25个沿海主要港口之一，对外贸易额较高，在中国—东盟自由贸易区、泛北部湾区域合作中具有特殊重要的战略地位。崇左位于广西西南部，地理位置相对较差，工业基础薄弱，交通设施落后，虽然资源丰富，但限于人力资源的短板，是广西经济发展较为落后的地级市。

四、结论及政策建议

本文利用对广西14个地级市经济发展状况进行聚类分析，将广西14个地级市经济发展水平分为四类，分别是南宁、北海、钦州为第一类；柳州、桂林、梧州、贵港、玉林、百色、贺州、河池、来宾为第二类；防城港为第三类；崇左为第四类。从聚类分析的结果来看，就如何促进广西区域经济的快速、协调发展，可从以下几个方面着手：

（一）加强各地级市之间的经济合作，增强较发达地区的经济辐射力度

广西各地区经济发展水平差异显著，各自依托的经济发展要素也不尽相同，例如人力资本、环境资源、基础设施完善程度和地理位置等就相差较大。因此，各地区根据自身的条件优势，因地制宜地制定经济发展策略，就显得尤为重要。因地制宜地制定经济发展策略的同时，加强各地级市之间的经济合作，实现资源、信息的共享互通，人力、资金的自由流通，各自取长补短，将为促进各地区的快速、协调发展发挥重要作用。以南宁、桂林和柳州为主的老牌较发达地区，拥有较发达的工业基础、第三产业和相对完善的基础设施，在立足自身优势发展，加强与各地级市之间的经济合作中，要发挥好领头羊的作用，率先做出垂范，积极探索出可供借鉴的合作模式，增强对周边地级市的经济辐射力度，以少带多，以强扶弱，真正促进广西经济发展迈上新台阶。

（二）依托良好的区位优势和叠加的'政策优势，积极推动开放型经济发展

随着经济全球化和区域经济一体化的发展，我国经济和世界经济发展的融合在不断加深，积极推动外向型经济的发展，成为了我国及各地区经济转型升级的关键所在。2015年3月，国家发改委、外交部和商务部联合发布了《推动共建丝绸之路经济带和21世纪海上丝绸之路的愿景与行动》，广西借助于自身的区位优势，被纳入国家“一带一路”建设规划，发展开放型经济面临着重大的历史机遇。广西的外向型经济近些年来虽有发展，但整体情况仍不容乐观，相对薄弱的经济基础制约着开放型经济的发展后劲以及支撑开放型经济发展的高级要素也存在不足[2]。借助于“一带一路”战略实施的机遇和叠加密集的国家开发政策，依托沿海、沿江、沿边的区位优势，借鉴东部沿海典型的开放型经济发展模式，例如上海模式和东莞模式，积极推动广西的外向型经济发展，才能快速、协调地完成广西经济的转型升级。

（三）强化科技创新，加速推动产业结构优化升级

科技创新与产业结构优化升级是长期的协调关系，依托于科技创新能有效推动产业结构优化升级。一般来说，产业结构指的是一二三产业所占的比重，产业结构优化升级有两个含义：一个是产业结构合理化，另一个是产业结构高级化，如果第三产业所占的比重越大，那么可以说它的高级化程度越大[3]。未来一段时间，可以从以下几个方面强化科技创新，加速广西产业结构的转型升级：一是加强科技创新方面的改革，建立完善的科技管理协调机制和信息公开机制，优化科技资源配置机制，以统筹科技创新全方位管理；二是加大对科技创新的财政支持，保证各项用于科技创新的资金行使到位；三是优化科技创新体系，不仅要保证建立完善的科技创新管理机制，更要全面扩大科技创新的主体，落实科技创新成果的投入使用。

（四）完善各地区的基础设施建设，大力发展地区特色经济

广西各地区经济发展水平差异显著，相对发达的地区，例如南宁、柳州和桂林等，除主城经济区外，基础设施建设仍不尽完善。河池、百色、崇左等市地处偏远地区，交通不便，基础设施建设更是落后。良好的交通条件、便利的通讯设施、覆盖全面的水利、电力设施等是居民和企业的共同物质基础，更是物质生产和劳动力再生产的重要条件。因此，各地区应把完善基础设施建设放在重要位置，适当扩大社会固定资产投资总量，积极利用本地区丰富的人文资源，打好“侨牌”，让更多拥有广西籍的海外华人华侨参与到广西的经济建设之中，尽快完善基础设施建设，为经济的快速发展提供良好的基础。同时，各地区应找准自身的发展定位，结合地区优势，大力发展地区特色经济。

参考文献：

[1]孟倩.基于主成分分析和聚类分析的山东省区域经济协调发展研究[J].区域经济，2016（1）：138-139

[2]李继宏.“一带一路”建设背景下广西开放型经济发展模式及实现路径[J].广西社会科学，2016（4）：14-19

[3]徐晓慧.广西科技创新对产业结构升级的影响[J].合作经济与科技，2016（11）：19-21

这个题目的确是有点超出本科生能力，因为数据聚类算法很多，都不是很容易实现，更不用说在效果，效率上的分析，而且绝大多数算法的优缺点早就总结过了，也很难创新，我专业是数据挖掘，我在研究生期间都不做这样的论文

聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS、SAS等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。就数据挖掘功能而言，聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他数据挖掘任务（如分类、关联规则）的预处理步骤。数据挖掘领域主要研究面向大型数据库、数据仓库的高效实用的聚类分析算法。聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。这些算法可以被分为划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：k-means,k-medoids,CLARA(Clustering LARge Application),CLARANS(Clustering Large Application based upon RANdomized Search).FCM2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：第一个是;BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利用其它聚类方法对这些聚类进行优化。第二个是CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定量（向聚类中心）进行收缩。第三个是ROCK方法，它利用聚类间的连接进行聚类合并。最后一个CHEMALOEN，它则是在层次聚类时构造动态模型。3 基于密度方法，根据密度完成对象的聚类。它根据对象周围的密度（如DBSCAN）不断增长聚类。典型的基于密度方法包括：DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。4 基于网格方法，首先将对象空间划分为有限个单元以构成网格结构；然后利用网格结构完成聚类。STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。5 基于模型方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括：统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量（属性-值）对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理.

看这三个经典算法：BIRCH/ROCK/Chameleon

期刊层次分类

期刊可分为马列主义、毛泽东思想；社会科学；哲学；自然科学；综合性刊物五大类。

从广义上来讲，期刊的分类，可以分为非正式期刊和正式期刊两种。非正式期刊是指通过行政部门审核领取“内部报刊准印证”作为行业内部交流的期刊（一般只限行业内交流不公开发行），但也是合法期刊的一种，一般正式期刊都经历过非正式期刊过程。

期刊的划分

1、按内容范围，可分为时事政治类、社会科学类、自然科学类、工程技术类、文学艺术类、教学辅导类、综合文化生活类、科学普及类、情报检索类等。

2、按出版周期，可分为周刊、旬刊、半月刊、月刊、双月刊、季刊、半年刊、年刊等。

3、按读者对象的年龄层次，可分为老年刊、青年刊、少年刊、儿童刊等。

4、按学术地位，可分为核心期刊和非核心期刊两大类。

期刊与报纸、图书的区分

期刊与报纸都是连续出版物，所以它们有很多可与图书相区别的共同特点。如：有一个稳定的名称，连续出版并有表示可无限期持续出版的年号，均由众多作者的作品汇编而成，一般不会再版或修订等。当然，期刊与报纸也有区别。

它们的外在区别，主要在于期刊装订成册，有封面，开本一般较报纸小，出版周期通常比报纸长等；它们的内在区别，主要在于期刊的实效性比报纸弱，稳定性和系统性比报纸强。

期刊单独与图书相比，还有这样一些特点：正文一般分设各种栏目；全刊篇幅在一定时间（至少一年）内相对固定，不能忽多忽少；不设扉页，版本记录列载于底封或目次页。

第一级-T类：特种刊物论文，指在《SCIENCE》和《NATURE》两本期刊上发表的论文。

第二级-A类：权威的核心期刊，指的是国际通用的SCIE、EI、ISTP、SSCI、A&HCI收录检索系统的论文(中国科学技术信息研究所检索为准)，或同一主题发表在国内中文核心期刊的权威，论文中不包含其他报告总结。

第三级-B类：重要核心刊物论文，指在国外核心期刊上刊登的论文(见《国外科技核心期刊手册》)或在国内同一学科的中文核心期刊中具有重要影响的刊物上发表的论文。

第四级-C类：一般核心刊物论文，指《全国中文核心期刊要目总览?北大图书馆2004版》刊物上发表的论文。

第五级-D类：一般公开刊物论文，指在国内公开发行的刊物上(有期刊号“CN”“ISSN” ，有邮发代号)发表的论文。

第六级-E类：受限公开刊物论文，指在国内公开发行的但受发行限制的刊物上(仅有期刊号、无邮发代号)发表的论文。

聚类分析论文主题

聚类分析在企业网络营销中的应用论文

论文摘要：本文针对企业网络营销中的大量数据为基础进行数据的分析，依据数据挖掘技术中典型的聚类分析方法进行数据的处理，并以一个网络营销公司为例，对其客户信息进行了聚类分析，得到了一些有价值的信息，对于企业的营销策略的决策给与一定的支持。

论文关键词：聚类分系,网络营销,策略,客户关系

0前言

现代科学技术的迅猛发展，特别是在互联网的应用和开发上更加的迅速，企业必须通过网络对自己的产品加强宣传以增强自己的竞争力。客户是一个非常重要的、有价值的重要资源，现在如何更好地从数据库中挖掘出客户中有价值的信息，更好的培植和经营与有价值客户的关系，抛弃那些无利可图没有发展前景而且营销费用高的客户，并且可以针对不同价值的客户给与不同的政策同时制定出个性化的营销策略，这些才能够保证企业的生存发展。对于这一切数据挖掘无疑是行之有效的好方法之一。本文以一个网络营销公司为例，提出了一套可操作性的对客户价值评价方法，然后使用数据挖掘技术中比较常见和常用的聚类分析算法对客户信息进行聚类从而达到非常重要的信息并为企业在网络营销中提供决策依据。

1聚类分析

聚类（clustering）是对于数据挖掘技术是非常重要的一部分，现在也是数据挖掘技术中关键的一种。聚类的意义就是针对物理或逻辑上的数据对象的进行自动分类，最后将数据对象分为多个类或簇的过程。对于聚类结果要使得数据对象在同一个分类中具有最大的相似度，而在不同的类中具有最小相似度。聚类的现实意义就是在于可以将数据按照一定得关系进行自动的分类，事先不知道所有的数据对象共有多少类，通过算法的处理最后得到一个分类结果进行应用。譬如在市场研究领域中，特别是针对网络营销的企业或网站，从大量的网络数据进行分析聚类，可以讲客户分成不同的类别，针对这些类别不同的购买力和兴趣爱好来进行个性化的营销手段，提高企业的经济效益。目前研究人员大多针对于聚类分析算法的改进和完善进行研究，进而提高聚类分析的工作效率。著名的算法有：CLARANS，BRICH，DBSCAN，CURE，STING，CLIGUE和WaveCluster等。

2聚类分析应用于企业客户资源管理

现针对某电子商务公司进行分析，该电子商务公司的客户分布在全国各地以及国外一些地区，现仅列出具有代表性的10个大客户：吉林，黑龙江，山东，江苏，浙江，安徽，湖南，缅甸，印度，南非等。在数据挖掘的目的就是从客户中找到一些共同点，在对这些客户数据进行处理前要使用聚类分析的方法进行研究看看这10个客户能否有一些共同之处以便企业针对不同类型的客户给与不同的对策，首先对该公司采用专家打分的方法，而且还有通过网上问卷调查和访谈的方式，收集各地销售专员的意见等方式，然后对数据加以综合，最后聚类分析法确定各项指标的权重。

那么在具体实施聚类分析法的时候可分为5个步骤进行：

第1步：首先对各项指数构建层次结构，其中被评定的10个大客户作为方案层，客户价值放在目标层中进行处理，各项指标是准则层，按照这样的分层结构来构造客户关系评价系统中个指数的结构图，见图2-1所示；

从数据可以看出有两种情形：一是缅甸和南非，从数据中可看出这类客户的当前价值很小，但是具有很大的隐含价值，势必会有一天他们的成长给企业会带来丰厚的物质利益，这样具有发展潜能的客户应该采取措施激发潜能；二是安徽和印度这类客户，虽然从数据中看出这类客户当前价值很小，但是就这两个省份的地理位置和经济状况来分析他们隐含着较大的价值。对于这一类的客户，企业就应该采取灵活的措施，激发他们的购买能力促使该类型的客户不断地向前发展；

第2类是“维持型”客户，他们会源源不断的为企业提供利润，如黑龙江和江苏，他们这类客户根据以往的交易记录分析到得结果就是目前价值大，不过没什么发展的潜能，或者说在某种情况下它的时常还会萎缩，当前这类客户会给企业带肋比较丰厚的利润但是就长期发展而言却不是利润的主要来源，他们在某种情况下会流失掉，会被其他的企业竞争对手的介入而流失，为此对于企业一方面要维持与这类客户的良好关系，保持稳定的`客户关系，另一方面还要采取一些营销手段来刺激该类客户的消费，提供一些个性化的服务和策略；

第3类“淘汰型”客户，这类用户就如同鸡肋了，对于企业的现在和将来都意义不大，目前的销售份额较小，企业对他们营销的成本还很高，年利润率很低，根据分析这类客户包括浙江、湖南和吉林，他们没有长期的发展的趋势，所以企业采取的策略就是应充分挖掘他们给企业带来的当前价值后逐渐地放弃他们；

第4类是“贵宾型”客户，这类用户是企业的主要经济利润的来源，在某种程度上可以说是企业生存的保证，他对企业是关系到生死存亡的重要客户，从数据中看山东就是该企业的这类贵宾型的客户，他的当前价值和潜在价值都很大，企业必须认真对待，细心呵护与这类客户的关系，以及该客户企业的关键性人物的关系，加强与这类客户的沟通和关系的培养，同时还要提高警惕，防止竞争对手抢走这些贵宾型客户。针对贵宾型客户企业就应该对其进行一对一的营销策略，进行良好的客户需求沟通，尽最大可能满足他们的需求，适当给与一些特殊政策来加强和他们的关系。从不同角度来加强客户对企业的忠诚度、满意度等。企业根据这些重要的信息就可以针对不同的客户采取合适的销售策略。

3小结

总之，企业首先对客户的价值进行全方位、多角度进行评价，再将分析结果量化后进行数据挖掘，通过聚类分析，对客户进行细分，针对不同类型的客户给与个性化的服务。

提供一些经济统计类的学年论文题目，供写作参考。 1. 某省各地市经济发展水平的综合评价 2. 工业企业经济效益综合评价的应用研究 3. 某省市经济发展水平分区研究 4. 某省市消费拉动第三产业增长的实证分析 5. 某省市城镇居民消费结构变化趋势研究 6. 某省普通高等教育生源变动趋势与对策研究 7. 某省城镇居民消费结构比较研究 8. 某高校学生的心理健康统计分析 9. 课堂教学评估体系与方法研究 10. 某市各区县经济综合实力评价研究 11. 基于多元统计的某省经济分区研究 12. 因子分析在某省利用外资效果评价中的应用 13. 因子分析在居民消费结构变动分析中的应用 14. 因子分析在企业竞争力评价中的应用 15. 深沪股市收益率分布特征的统计分析 16. 某省市农民收入问题的调查与思考 17. 最优加权组合法在GDP预测中的运用研究 18. 最优加权组合法在粮食产量预测中的运用研究 19. 最优加权组合法在能源消耗预测中的运用研究 20. 我国（某省）实际人均GDP的趋势分析及预测 21. 某省市工业经济效益的综合评价 22. 工业企业科技竞争力的综合评价 23. 某省市城镇居民消费结构的地区差异分析 24. 某省市各地区经济综合实力的评价 25. 基于因子分析法的上市公司财务状况评价研究 26. 某省工业化进程统计测度及实证分析 27. 某省城市化进程统计测度及实证分析 28. 某省城市规模发展水平分析与比较研究 29. 某省市工业行业结构特征的因子分析 30. 城镇居民消费的典型相关分析 31. 我国（某省）各地区人口素质差异的统计分析 32. 我国（某省）三次产业结构变动的统计分析 33. 某省农业产业化发展的实证研究 34. 某省外贸出口与经济发展关系的实证研究 35. 县域经济发展综合评价的实证研究 36. 某省各县市经济发展的聚类分析 37. 某省各县市产业结构的聚类分析 38. 某省（市）信息化实现程度实证评价 39. 某省（市）环境保护综合评价 40. 我国科技进步贡献率的测度 41. 某省（市）居民生活水平与质量实证评价 42. 某省（市）经济外向度实证研究 43. 县级政绩考核指标体系与方法研究 44. 我国城乡居民收入差距实证研究 45. 我国东西部城镇居民收入差距实证研究 46. 某省市城镇居民消费水平与结构变化趋势研究 47. 某省市投资拉动GDP增长的实证研究 48. 耐用品需求预测模型及其应用研究 49. 某省市GDP周期波动实证研究 50. 某省市工业周期波动实证研究 51. 某省市零售市场周期波动实证研究 52. 某省市农民收入周期波动实证研究 53. 某省市人口最优预测模型与应用研究 54. 某省市人口老龄化趋势与对策研究 55. 某省市财政收支变化趋势与对策研究 56. 某省市城镇居收入差距变化趋势与对策研究 57. 某省市农民收入差距变化趋势与对策研究 58. 长江水质的综合评价与预测 59. 多元统计分析方法在股票市场板块中的应用研究 60. ARCH族波动模型研究及其在我国股市中的应用研究

浅议中小企业薪酬激励问题

大三下了，学的是财务管理专业，老师要求我们写五千字的学年论文，题目自拟，但最好是写经济类的，说是从掌握的经济咨询里面总结出自己的观点就有东西可写了，而且如果这次写的好，直接可以和毕业论文相关联。拜求各位童鞋们给点建议，或者给个思路，题目之类的小女子不甚感激……给各位鞠躬了```3Q

你可以上网上看一下赵国庆教授写的论文，我觉得还不错。求采纳

韩国词性分析，比如阴性词阳性词韩国助词分析例如이/가 은/는 词尾之类的分析还可以比如说韩国泡菜看韩国人韩国电视剧的发展韩国电影韩国语汉字词分析都可以韩国韩服韩国韩服和中国旗袍韩国礼仪等等总之文化类的范围广，词性之类的引用很多~

《股票价格的影响因素》这题目比较有吸引力

运筹学知识论我来写的的

好像没有类似设计类的专业。经济类的专业有：经济学、国际经济与贸易、金融学、风险管理与保险学、财政学、环境资源与发展经济学（一般的院校有前三个专业，后三个专业在重点院校才有）。（1）经济学专业：该专业课程设置与国外大学经济学专业接轨，为有志成为经济理论研究者、宏观经济管理者和职业经理的青年学生提供一个成长和发展的舞台。毕业生既适合到 *** 经济决策部门、金融研究机构、教学研究机构和公司企业工作，也为在国内或出国继续深造打下坚实的基础。（2）国际经济与贸易专业：该专业主要培养适应经济全球化趋势，具备国际经济基本理论与较高的外语和电子商务运用等实践技能的，能从事国际经济、贸易、金融、商务工作的高级专门人才。毕业生以深厚的理论基础与开阔的创新思维为竞争优势，有较为自由的选择空间。（3）金融学专业：该专业在与国际上金融学专业教学接轨的同时，也提供实践应用性课程，从而全面提升学生个人的竞争能力。毕业生既有去国外名校留学深造的，也有选择到咨询管理公司、投资银行、中央银行、外资或国有商业银行、保险公司、国家部委机关等工作的。（4）风险管理与保险学专业：该专业致力于培养"有专长、基础宽、素质高"，能够胜任国内外风险管理与保险经营管理工作的复合型人才及风险管理与保险教学科研工作的学术人才。毕业生或者去国外名校留学，或者供职于各大保险公司、保险监督管理机构、金融证券机构。（5）财政学专业：该专业顺应公共管理事务在中国的勃兴，旨在培养具有宽厚扎实的经济学理论基础，熟悉财政税务、财务会计知识，具备较高的外语和计算机运用水平、较强的研究能力、决策能力和管理能力的高级专门人才。毕业生可从事 *** 部门的公共经济研究和政策制定工作，可任职于各类大型企业、会计师事务所、律师事务所等中介机构的资产评估、税务代理等工作，还可以留在大学或是研究机构，从事研究教学工作。（6）环境资源与发展经济学专业：该专业是一门兼有文、理、工三栖特点的综合型经济学科，侧重于环境、资源与可持续性发展的研究，毕业生将能胜任在 *** 部门、大中型企业、跨国公司、科研机构、高等院校及国际组织等的管理与研究工作。经济学、国际经济与贸易、金融学一般大学都会有的。

与版式设计有关的

毕业论文聚类分析

lz的意思表达不是很明白。。。以因子分析为例：因子分析会有variables的框让你自己选择对哪些变量的数据进行分析。如果需要对原始数据进行分析，那就将你原始数据的相关变量名拖到variables的框里就行啦。因子分析可以自选需要出来哪些结果。

先做因子分析或者主成分分析然后再做聚类分析

数据挖掘在软件工程技术中的应用毕业论文

【摘要】计算机技术在发展，软件也发展的越来越复杂，而系统开发工作也显得更加重要。信息技术的广泛应用会产生大量数据，通过对数据进行挖掘，分析其存在的规律，对实现数据资源的有效利用意义重大。本文就数据挖掘技术在软件工程中的应用作简要阐述。

【关键词】数据挖掘技术；软件工程中；应用软件技术

随着信息技术发展而快速发展，但是其可控性并不是特别强。软件在应用过程中会产生大量数据，数据作为一种宝贵的资源，有效的利用可以带来价值增值。作为软件开发行业，数据挖掘技术应用则实现了数据资源的有效利用，通过对其中规律进行研究，为软件工程提供相应指导，并且对于系统故障能够有效处理，成本评估的有效性也能够提升。

1数据挖掘技术应用存在的问题

信息数据自身存在的复杂性

软件工程所包含的数据可以分为两个类别，结构化与非结构化。在非结构化数据中软件代码发挥着重要作用。而对结构化数据产生影响的则是软件版本信息。结构与非结构化数据二者之间联系非常密切。实现数据有效利用就需要通过一定技术找出其中的规律。数据挖掘技术则刚好满足需求。利用该技术对结构与非结构化数据进行整合，提升其使用的有效性。

在评价标准方面缺乏一致性

数据挖掘技术在生活中的应用比较广泛，通过该技术应用能够更好的对实际情况进行评价，从而对结果进行优化。但是由于没有统一标准，导致了软件信息复杂。而在表述方式方面自身又存有差异性。信息获取者无法有效的对信息进行应用及对比。而信息缺乏统一标准的原因就在于评价方式不一致。

2数据挖掘技术在软件工程中的应用

数据挖掘执行记录

执行记录挖掘主要是对主程序的路径进行分析，从而发现程序代码存有的相关关系。其实质是通过对相关执行路径进行分析，并进行逆向建模，最终达到目的。作用在于验证，维护，了解程序。记录挖掘的过程通常是对被分析的系统进行初步插装，之后是记录过程，该过程在执行上一步程序后，对应用编程接口，系统，模块的状态变量记录，最后是对所得到的信息进行约简，过滤，聚类。最终得到的模型能够表达系统的特征。

漏洞检测

系统或是软件自身都会存在漏洞，漏洞自身具一定的隐蔽性，由于人的思维存在某些盲区，无法发现漏洞的存在，就需要借助于某些软件。检测漏洞的目的就在于找出软件中存在的漏洞及错误，并对其进行修复，从而保证软件质量与安全。将数据挖掘技术应用于软件检测，首先要确定测试项目，结合到用户需要，对测试内容进行规划，从而确定测试方法，并制定出具体方案。测试工作环节主要是对数据进行清理与转换，其基础在于漏洞数据收集，通过对收集与采集的信息进行清理，将与软件数据有关联同时存在缺陷的数据筛选出来，而将剩余无数据清理，对丢失项目采取相应措施补充，将其属性转换为数值表示。之后是选择适当的'模型进行训练与验证，该环节要结合到项目实际的需要选择挖掘方式，通过对不同数据结果进行分析与比较找到最适合的方式。之后则是重复应用上述方法，对软件存在的漏洞进行定位与检测。并将与之对应的数据收集于软件库，在对漏洞进行描述的基础上分类，最后将通过挖掘得到的知识应用到测试的项目中.

开源软件

对于开源软件的管理由于其自身的开放，动态与全局性，需要与传统管理软件进行区别对待，一般情况下，成熟的开源软件对于软件应用记录较为完整，参与的内容包括了错误报告，开发者活动。参与开发的工作人员会处在动态变化之中，存在动态变化的原因就在于软件的开放性。同时对于软件中动态性特征的挖掘，可达到对开源软件进行优质管理的目标。

版本控制信息

为了保证参与项目人员所共同编辑内容的统一性，就需要对系统应用进行控制。软件开发工程应用中，开发工作管理与保护都会通过版本控制系统来实施。并且其应用方式主要是对变更数据挖掘，找出不同模块及系统存在关系，并对程序中可能会存在的漏洞进行检测。此类技术的应用，使得系统后期维护成本被有效的降低，而对后期变更产生的漏洞也有一定的规避作用。

3数据挖掘在软件工程中的应用

关联法

该方法作用在于寻找数据中存在的相关联系与有趣关联。而体现的关联规则有两个明显的特征。①支持度；②信度。前者表示在某个事物集中，两个子集出现的概率是相同的。而后者则表明了某事物在事物集中出现的概率，而另一事物也会出现。

分类方法

该方法主要是应用于分类标号与离散值的操作。该方法的操作步骤是，首先要建立相应的模型，对数据进行描述，并利用模型对其进行分类。在分类方法选择方面，常用的有判定树法，贝叶斯法，支持项量机法等。判定树法应用的基础是贪心算法。

聚类方法

该方法常用的有划分方法，基于密度，模型，网格的方法与层次方法。聚类分析输入的是一组有序对，有序对中的数据分别表示了样本，相似度。其基本的应用理论是依据不同的对象数据予以应用。

4数据挖掘在软件工程中的应用

对克隆代码的数据挖掘

在软件工程中最为原始的是对克隆代码的检查测试。就其方式而言有文本对比为基础，标识符对比为基础。前者是利用系统中程序代码包含的语句进行判断。该方法在后期改进过程中主要是对字符串匹配效率进行提升。实际应用过程中是通过相关函数匹配对效率进行优化。

软件数据检索挖掘

该方法同样是软件工程中原始的挖掘需求之一。该方法在应用时主要有以下三个步骤。

①数据录入。其实质是对需要检索的信息录入，并结合到使用者需要在数据中查找使用者需要的数据。

②信息查找过程。确认了用户需要查找的信息后，系统将依据信息内容在数据库中进行查找，并分类罗列。

③信息数据导出与查看。用户可以依据自身需要将数据导出或者是在线查看。数据在导出时会形成相应的记录，客户再次进行查找时就会更加的方便与快捷。而将数据导出则需要利用到相关的软件。

应用于设计的三个阶段

软件工程有许多关于软件的资料，资料通常是存放于代码库中。数据运用可以提升工作效率。软件工程每一次循环都会产生大量的数据。基于软件工程生命周期可以将其分为分析设计，迭代的开发，维护应用三个阶段。

面向项目管理数据集的挖掘

软件开发工作到目前已经是将多学科集中于一体。如经济学，组织行为学，管理学等。对于软件开发者而言，关注的重点除过技术方面革新外，同时也需要科学规范的管理。除过对于版本控制信息挖掘外，还有人员组织关系挖掘。对于大规模的软件开发工作而言，对人力资源的有效分配与协调也是软件工作领域需要面对的问题。例如在大型系统开发过程中，往往会有许多人参与其中，人员之间需要进行沟通交流。交流方式包括了面对面沟通，文档传递，电子信息等。通过对人员之间的关系进行挖掘，有利于管理工作开展。员工群体存在的网络是社会网络。通过人员合理组织与分配，将会影响到项目进度，成本，成功的可能性。而对该方面实施研究通常采用的是模拟建模。

5结束语

软件工程技术在生活中许多领域都有广泛的应用，数据挖掘作为其中的一项技术，其重要性及作用随着技术发展而表现的越加明显。为了保证挖掘技术的可靠性与高效，与其它工程技术有一定融合性。数据挖掘在实际应用工作中体现出了巨大的经济效益，因此应该大力推进其应用的范围，并拓展其应用的深度与层次。

参考文献

[1]李红兰.试论数据挖掘技术在软件工程中的应用综述[J].电脑知识与技术，2016（34）.

[2]雷蕾.关于数据挖掘技术在软件工程中的应用综述究[J].电子测试，2014（02）.

[3]孙云鹏.数据挖掘技术在软件工程中的应用综述[J].中国新通信，2015（15）.

现代汉语语法研究层次分析论文

浅谈成分分析法与层次分析法论文

摘要：传统句法分析法“成分分析法”，将句子的成分分为主、谓、宾、定、状、补。不得不说在语文教学方面，成分分析法的功劳是不能小觑的。但是，我们发现，汉语中有一些句法结构并不能用成分分析法有效的解决。于是，语言学家把美国结构主义描写学派的层次分析法引入到汉语句法分析中，取得了不菲的成绩。层次分析法解决了成分分析法无法解决的问题，但是，层次分析法自身也存在一些问题。本文将做较为详细的解释，在进行汉语结构分析的时候应该根据情况正确选择。

关键词：成分分析法；层次分析法；优缺点；句法结构；歧义句

汉语中存在很多有趣的现象。譬如说，“咬死了猎人的狗”、“我没有考过”、“两个学校的领导”这一类的歧义句。再者，“台上坐着主席团”、“台上唱着戏”[1]这两个句子的成分和序列完全一样，均为“名1+动词+着+名2”但为什么“戏唱在台上”不符合正确的语法规范，而我们却可以说“主席团坐在台上”？进一步思考，我们会有一种明显的感觉，“台上坐着主席团”是静态的，“台上唱着戏”是动态的。那么，我们的这种直觉正确吗？再比如说，①“实习的学生”，②“实习的学校”均为偏正结构中的定中结构。定语都是“实习的”，但是我们会发现①中的“学生”在特定的语境中可以省略。比如说“我是实习的”。但是②中的“学校”在任何情况下都不可以省略，否则就会影响正常交流。“这是我实习的学校”绝不可以省略成“这是我实习的…”

为了更好地解决这些问题，我们必须找到一些行之有效的分析方法。以句法为出发点，解释说明各种的语言现象的`分析方法，我们一般称之为“句法分析法”与之相关的理论称之为“句法分析理论”研究一种句法结构或者说句式的特征，基本上有两种思路。一是，分析句式或句法结构的内部结构的构造特点。二是观察了解这一个句式和句法结构和其他的句式或句法结构之间的关系。我们所了解到的层次分析法和语义特征分析法属于前者。本文将主要探讨层次分析法和成分分析法。

首先，我们来看成分分析法。句子成分分析法又称“中心词分析法”，成分分析法是传统的句法分析方法。也是我们最早接触到的。早在小学的时候我们已经懂得基本的主谓宾。下面我们来实际运用一下成分分析法。

“勤劳的工人在最短时间里修好了一座简易的桥。”

按照成分分析法，句子中的主语是“工人”，谓语是“修”。而“工人”和“修”就是我们在分析时首先要找出来的全句的中心词。再来看，“修”是及物动词，后面可以接名词，比如说“修房子”所以，名词“桥”就是句子的另一个中心词，宾语。

从上面的例子中我们可以看出来成分分析法有自身的优点。采取成分分析法，容易把握出句子的整体脉络。用它来分析长单句，这种优势就更加明显了。比如说，

我国首次升空的“神州—3号”模拟载人飞船经过264个小时在太空运行之后按原先预定的时间安全、准确的返回原先计算好的我国西北部的某地区的地面。

按照成分分析法，这个句子的基本脉络就是“神州—3号”飞船返回地面。在处理这一类句中有很多修饰限定的成分的长单句时，利用成分分析法可以快速的找出句子的整体脉络。在语文教学中，具有很大的实践意义。

但是，在利用成分分析法进行句法分析的时候也会出现一些问题。下面我们一一的进行分析。

1、成分分析法不能有效的分析某些存在歧义的句子，不能挖掘出句子内在的规律。

上文中提到了“两个学校的领导”我们就以这个为例。

“今天，两个学校的领导都来了。”按照成分分析法，“领导”和“来”是全句的中心词，分别作为句子的主语和谓语。所以，这个句子的基本脉络就是“领导来了”但是，这个句子明显是一个歧义句。所以，采用成分分析法解释歧义句的时候就会出现问题。

“她的头发剪短了点儿。”我们再来看这句话，按照成分分析法，“头发”和“短”是句子的中心词，非别为主语和谓语。所以，句子的脉络就是“头发短”。但是，对这个句子进行内部的分析，我们会发现这个句子具有两方面的含义。

①减了之后，她的头发比之前短。（达到了理想中的效果）

②她的头发剪得太短了。（没有实现理想的效果）

2、分析出来的句子脉络不成立。

比如：她爱好古筝。（她爱好。）

陋习必须改掉。（陋习改掉。）

3、分析出来的句子脉络在语法上虽然成立，却和原句的意义不同了。

比如：老奶奶哭瞎了双眼。（老奶奶瞎。）

便利店方便了周围的居民。（便利店方便）

通过上面的分析，我们不难看出以下几点：

1、成分分析法分析的对象只能单句，对复杂句是无能无力的。

2、在分析过程中，我们首先找出句子的中心词，也就是作为句子主语和谓语的部分。

谓语和主语的关系是陈述和被陈述的关系。其次，在确定其他的成分，而且，其他的成分依附于中心词。

3、从理论上讲，能做句子成分的只能是词。

为什么成分分析法会存在这样的问题？主要原因就在于成分分析法的重点在于句式或句法结构的各个成分。并没有关注句式或句法结构中的层次性。那么，问题来了，什么是层次性？按照朱德熙先生在语法问

【论文主题词】现代汉语语法;比较;解读

【论文摘要】文言文，是古人用书面用语写成的文章。本文主要从现代汉语的句法和词法两个方面探讨了如何轻松、快速和准确地解读文言文。

文言文，是古人用书面用语写成的文章。运用现代汉语的语法知识，不仅可以清晰地透视文言文语法现象，快速准确地解读文言文，而且对初次大量接触文言文的初一、高一学生来说，运用这些方法可以更加轻松有效地学懂文言文，从而很好地传承祖国的文化遗产。

一、运用现代汉语句法知识，进行古今句式比较，正确理解句意

现代汉语中常式句一般表达形式为：

(状语)定语+主语+(状语)谓语+(定语)宾语(补语)

我们可以把现代汉语的常式句作为“标准句式”拿来与文言文的句式进行比较，可以很容易地发现古今句式的不同之处。从而识别文言文的特殊句式，正确理解和翻译文言语句。

下面以文言文“倒装句”为例来谈谈这一方法在教学中的运用。

文言文的倒装句，也叫“变式句”，就是句子的表达形式不同于现代汉语“常式句”的句子。

1、“大哉，尧之为君也!”此句中“尧之为君也”是个主谓短语，意思为“尧作为君主”。“尧作为君主”怎样呢?没有表达一个完整的意思，需要进一步陈述，说明，形容。而“大”是形容词，意为“伟大”，是要陈述，说明，形容某个对象的。这样“尧之为君”与“大”构成主谓关系，但句子形式是先谓语后主语，不符合我们现代汉语通常的表达习惯，明显属于主谓倒装。说话人为了强调谓语，把谓语前置了。学生有了这样的认识，在理解翻译时只需把主谓关系理顺即可。

2、“蚓无爪牙之利，筋骨之强”。让学生划分此句的句子成分可以发现：蚓(主语)+无(谓语)+爪牙(宾语)。主谓宾完整，“利”似乎多出来了。但依据词类知识，“利”是形容词，意思为“锋利”，在句中应作定语或谓语，“什么锋利呢?”，在句中该词语修饰的对象只能是“蚓”或“爪牙”，而“锋利的蚓(蚯蚓)”是讲不通的，只能修饰“爪牙”。因此，“利”是“爪牙”的定语，应该在“爪牙”的前面。该句是把定语后置了，这是个定语后置句。翻译时，学生只需把定语提放到中心语前面即可。

3、“青取之于蓝，而青于蓝”、“李氏子蟠，……不拘于时，学于余”、“形似酒撙，饰以山龟鸟兽之形”。以上三句中“于蓝”、“于余”、“以山龟鸟兽之形”都是“于(以)+名词”构成的介宾短语(介词结构)，均置于谓语动词的后面。用现代汉语的句法知识分析，它们处于谓语后面，既不能作宾语(介宾短语不能作宾语)，也不能作补语，而现代汉语中介宾短语一般作状语。实际上，三个介宾短语都修饰句中谓语作状语，分别表示比较、对象、方式，属状语后置。翻译时，学生只要把介宾短语提前，放置于谓语动词前即可。

4、①“沛公安在”;②“一言以蔽之”;③“古之人不余欺也”④“何陋之有”。以上所列四类句式是文言文中宾语前置的四种形式。不管哪一种形式的宾语前置，都可以用现代汉语的句法知识加以辨析。如“沛公安在”一句中“沛公”为名词，是句子的陈述对象。“安”是疑问代词，相当于“哪里”，“在”为介词，表示处所。该句本来要表达的意思是“沛公在哪里?”。在让学生认识这一语言现象时，我们可以举出一个相类的现代汉语常式句，如“你在哪里?”与“沛公安在”进行比较：“在哪里”与“安在”的意思一样，但前者是“介词+宾语(疑问代词)”，后者是“宾语(疑问代词)+介词”，显然后者把“宾语”前置了。同样“古之人不余欺也”一句中，构成该句的每个词的意思和现代汉语的意思一样，学生容易理解。但学生对“古代的人不我欺”这种说话的方式却大为疑惑，古人为什么要这样说话呢?教者可举一相类句式进行句法分析，如“他不欺我”，“他”是主语，“欺”是谓语，“我”是宾语。两相比较，学生会很容易发现“不我欺”是把宾语“我”放在了谓语动词前面，是宾语前置。这是古人语言表达的习惯之一，是为了强调宾语。可见，利用现代汉语语法知识认识文言文的特殊句式，从而正确理解句意，快速翻译句子，是一种既简便又实用的方法。

二、把现代汉语的词法与句法知识相结合，快速解读句子，全面理解文意

以苏轼《石钟山记》一文第一段为例。

《水经》云：“彭蠡之口有石钟山焉。”郦元以为下临深潭，微风鼓浪，水石相搏，声如洪钟。是说也，人常疑之。今以钟磬置水中，虽大风浪不能鸣也，而况石乎!至唐李渤始访其遗踪，得双石于潭上，扣而聆之，南声函胡，北音清越，桴止响腾，余韵徐歇，自以为得之矣。然是说也，余尤疑之。石之铿然有声者，所在皆是也，而此独以钟名，何哉?

理解这段文字时，教者可让学生有意识地与现代汉语进行比较，并用现代汉语语法知识加以分析。这段文字绝大部分实词含义和用法与现代汉语一致，只有“鼓”、“是”、“鸣”、“名”用法比较特殊。我们可以用词法知识进行分析。“鼓”现代是名词，而在“微风鼓浪”一句中，“鼓”处在主语和谓语之间，由名词活用为动词，陈述“微风”，支配宾语“浪”，意为“鼓动”。“是”现代是判断词，而在“是说也，人常疑之”一句中，“是说”是偏正短语，是“之”指代的对象，作“疑”的宾语，“是说”应是名词性偏正短语，“是”是代词，限制“说”，意思是“这个”。“鸣”是动词，“虽大风浪不能鸣也”一句中，“鸣”后省略代词“之”。补充完整后的句子应是“虽大风浪不能鸣之(钟磬)也”。按照现代汉语句子成分分析法提取该句主干为：浪鸣之。可以看出主语“浪”和宾语“之”之间产生了“主语使宾语怎样”的意味，据此可以判断“鸣”为动词的使动用法，可理解为“使……鸣”。“名”，现代是名词，在“而此独以钟名”一句中，用句子成分分析法可以看出：“名”处在谓语位置，作谓语。但依据现代汉语的词类知识名词一般不作谓语，由此可推断“名”是名词活用为动词，作谓语，意为“命名”。

同样，用句法知识比较分析这段文字，可以看出，大多数文言句式与现代汉语一致。而“得双石于潭上”、“石之铿然有声者，所在皆是也”两句的表达习惯就与现代汉语不一样。为了让学生清楚地认识古汉语的特殊句式，教者可用现代汉语的句法知识加以分析。“得双石于潭上”这个句子的主语是“李渤”，承前句省略，谓语是“得”，宾语是“双石”，这三个词按现代汉语常式句表达习惯组成一句话就是：“李渤得双石”。而原句中“于潭上”是个介宾短语，现代汉语中介宾短语一般作状语修饰谓语。据此，“于潭上”应作“李渤得双石”这个句子的状语，这样，该句的完整表达应是“李渤于潭上得双石”，把这个句子与“得双石于潭上”比较，学生自然可以发现原文句子介宾短语后置了，从而掌握状语后置句式。“石之铿然有声者，所在皆是也”一句中，“所在皆是也”意为“到处都是这样”，这是个缺少主语的句子，表达完整应该是：“(什么)到处都是这样”。“什么”是该句陈述说明的对象，这个对象就是“石”，“石”后“铿然有声”似乎与“石”构成主谓关系，但这样一来，原句就成为两个句子，这两个句子形成并列关系，表达两层意思，即：“石(头)铿然有声”、“石(头)所在皆是”，这显然不符合作者本来要表达的意思。那么“铿然有声”是不是作状语呢?用句法知识分析可以看出，“铿然有声”是动词性状谓短语，一般作谓语。据此，“铿然有声”只有作“石”的定语，意为“铿锵作响的石头”，是一个名词性偏正短语，正好与后面的“所在皆是”构成主谓关系。这样，学生就可以认识古汉语的定语后置句式。

论文摘要：用计算机来处理汉语信息包括“字处理”、“词处理”和“句处理”三个阶段。“句处理”是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比较多：词性的判断；短语、句子的结构分析；歧义现象分析等等，最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律，再用形式化的方式描述出来，以便利于计算机处理。论文

关键词：中文信息处理现代汉语语法句处理

用计算机来处理汉语信息，就是汉语信息处理，又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。“字处理”、“词处理”分别与汉字和词汇有关，在此主要谈谈“句处理”。

句处理的主要内容是，怎样使计算机理解自然语言（如现代汉语）的句子的意思，又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识，将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题，许多问题在人看来还是比较容易解决的，但计算机就解决不了。也有一些问题，本身在学术界就有不同的观点，那么，就给中文信息处理增加了更大的困难。

用计算机来处理中文信息，遇到了很多困难，从现代汉语语法的角度来看，主要有以下一些问题：

一、词性的判断

由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能，不同的词，词性意义可能不同，同一个词出现在不同的地方，词性意义也可能不同，汉语中，大多数词有固定的词性，但有些词的用法比较特殊。例如：

1。他花了十块钱买了一盆花。

2。你用那个锁把门锁上。

3。他比雷锋还雷锋。

这三个句子中分别有两个“花”、“锁”、“雷锋”。但它们只是音同、形同，词性和意义都不同。句子1中的第一个“花”是动词，“花费”的意思，第二个“花”是名词，“植物”的意思。句子2中的第一个“锁”是名词，即“锁子”的意思，第二个“锁”是动词，是“锁住”的意思。句子3中第一个“雷锋”是名词，表示人名，第二个“雷锋”是形容词，表示“雷锋的精神、品质等”。具有一定语言知识的人大体上都能分清它们的区别。从传统语言教学的角度来讲，句子1中的两个“花”是词形、读音相同，但词性和意思都不一样，且两个“花”的意思之间没有联系，所以属于同音词。句子2中的两个“锁”，也是词形、读音相同，词性和意思都不一样，但两个“锁”意思间有联系，所以属于兼类词。句子3中的两个“雷锋”词形、读音相同，词性和意思都不一样，意思也有联系，但第二个“雷锋”属于词类活用。Ⅲ从教学的角度看，这种分类比较细致，便于人们的理解和掌握，但是，从中文信息处理的角度来看，这种分法太细，不便于计算机掌握。

目前，在中文信息处理中，是这样来定义兼类词的：亢世勇认为“兼类词有广义兼类词和狭义兼类词。广义兼类词就是中文信息处理中所说的现代汉语的同形词，对于计算机而言，只要词形相同，不管读音是否相同、意义是否相通，是同形异音词、同形同音词，还是一词多义、一词多种用法，都是相同的，都要从多个当中选一个。狭义的兼类词就是指一般的现代汉语着作定义的，‘同形同音、意义上有一定的联系，且具有两类或两类以上词的语法功能的词”’。陆俭明认为，兼类词是“指同字形、同音而意义不同或词性不同的词”。如果按这种定义理解，以上三个句子中的两个“花”、“锁”、“雷锋”都可以称之为兼类词。因为，中文信息处理的目的是让计算机能根据具体环境判断出词的词性，从而准确理解其中的含义就可以了。尽管如此，但是，汉语词类是多功能的，一类词不需要发生词形变化就可以充当不同的句子成分，不同类的词可以充当相同的句子成分，这样就给兼类词区分带来了更多的麻烦。因而，兼类词的选择是计算机词性自动标注的一个“瓶颈”。尽管信息处理专家运用了规则排歧、统计概率排歧或者两者结合起来等多种方法进行排歧，但到目前为止，还没有一种方法、一种系统能够彻底解决这个问题。

二、短语、句子的结构分析

由于汉语缺乏形态。所以。语序和虚词成了汉语中表示语法的主要手段。有些短语、句子的结构不好理解，需要形式和意义结合起来分析。例如：

A组：a。陕西+甘肃+宁夏（“陕西+甘肃+宁夏”三者为联合关系）

b。中国+（北京+陕西）（“中国”与“北京陕西”是偏正关系。“北京”与“陕西”是联合关系）

C。中国（陕西（西安））（“中国”与“陕西西安”是偏正关系，“陕西”与“西安”也是偏正关系）这一组中的abe三个短语对人来说，都很容易分清楚，但计算机目前还很难区分，要让计算机分辨清楚，就得把三个处所名词组合在一起构成a类、b类、e类不同关系的条件与规则研究清楚，并将这些条件与规则加以形式化输入到计算机内。

B组：开始讨论（述宾关系）分析研究（联合关系）研究结束（主谓关系）

取下来（述补关系）看完再说（连谓关系）叫他回来（兼语关系）

生产管理（定中关系）讽刺说（状中关系）介绍写（不构成合法的句法关系）

这组是现代汉语里“动词性词语+动词性词语”构成的种种不同的结构关系，对人来说，通过讲解大致可以分辨，可是让计算机要分清楚，就非常难，因为我们至今还没有总结出“动词性词语+动词性词语”构成各种不同句法关系的具体规则。换句话说，“动词性词语+动词性词语”在什么条件下一定构成合法的什么句法关系，能构成什么样不同的句法关系，我们至今还说不清楚。

C组：天气好——好天气（主谓——偏正）很好——好得很（偏正——述补）

来人了。——人来了。（述宾——主谓）

一张票三元钱。——三元钱一张票。（主谓——主谓）这一组都是由于语序的不同而形成的结构和意义都不同的短语和句子。这些结构对人而言，稍加学习就可以理解，但这些给计算机理解意思增加了难度。需要人们把这些语序的`变化形成的不同的结构概括出规律来，再用形式化的方式描述出来。输入到计算机里。

三、歧义现象

现代汉语短语结构的歧义是进行汉语句法分析的一大障碍。“句处理”要解决的核心问题是排歧问题，计算机面对的歧义，不只是我们人所能感觉到的诸如下面这样一些句子的歧义现象：

（1）他正在输血。（他正给病人输血。／他病了，正输血。）

（2）看望的是病人。（你看望的那个人是病人。/看望你的那个人是病人。）

（3）我们急需进口产品。（我们急需进口的产品。/我们急需从国外进口产品。）

某些在人看来不存在歧义的句子计算机会认为有歧义。例如：

（4）a他被警察叫去罚了一百块钱。

b他被警察叫去写了一份检查。例（4）a句和b句，在人的眼里结构是不一样的。a句“被警察”这个介词结构一直管到底。全句意思是“他被警察叫去，他被警察罚了一百块钱”：而b句“被警察”这个介词结构只管到“叫去”，管不着“写了一份检查”。可是，计算机分辨不清楚。要让计算机分辨清楚，我们就得将“PP+VPI+VP2”（PP代表介词结构，VP1和VP2分别代表紧挨着的不同的动词性词语）这种结构中的PP对后面动词性词语管辖的范围及其条件与规则进行充分、准确的描写，并加以形式化，“交给”计算机。而这一类现象与规则我们过去根本就没有考虑过，更不用说研究了。

其实以上所举的例子都存在歧义问题，因此，也可以这么说，“句处理”要解决的核心问题是排歧问题。

中文信息“句处理”的研究工作，上个世纪80年代就开始了，最早进行“句处理”研究工作就是基于规则展开的，但上个世纪90年代初，基于规则的“句处理”研究工作遇到了重重困难与难关，主要是语言学家所提供的语言规则远远不能满足信息处理的需要。目前，为了解决好中文信息处理中的“句处理”难题，出现了一个竞相研究、竞相发展的局面。对于句处理，提出的各种策略和途径，归纳起来。主要有基于规则和基于统计这两种策略。基于规则的研究者，一般求诸专家的理性知识，由人来对语言知识进行抽象：基于统计者，一般求助于计算机对大规模语料库真实文本的统计分析，由计算机来抽象出语言知识。各种策略和途径，目前，我们还很难说哪一种是唯一正确的。各种策略和途径，表面看不同，其实，最终都需要依赖可靠的汉语知识来驱动计算机正确处理自然语言（汉语）。因此，“无论是比较传统的基于规则的处理策略，还是90年代以来方兴未艾的基于统计的方法，在对语言知识的需求这一点上实际上都是共同的。所不同者，走规则路线的研究者一般求诸专家的理性知识，由人来对语言知识进行抽象（比如以带有合一条件的规则形式给出）。而走统计路线的研究者一般求助于计算机对大规模的语料库的统计分析，由计算机来抽象出语言知识（比如以一定的数据结构记录的统计结果等）。两种路线孰优孰劣，不能笼统判断，只能跟具体的应用目标结合起来，由实践结果来评价。”目前，越来越多的学者提倡把两种方法结合起来使用。因此，相信在不久的将来，我们会攻克难关，实现计算机对自然语言的处理与理解的目标，使中文信息处理技术处于世界领先地位。

参考文献：

1、兰宾汉、邢向东：现代汉语（下册）[M].北京：中华书局，2007，48.

2、亢世勇：面向信息处理的现代汉语语法研究[M].上海：上海辞书出版社，2004，177.

3、陆俭明：现代汉语语法研究教程（第三版），[M].北京：北京大学出版社。2005年，51.

4、詹卫东：面向中文信息处理的现代汉语短语结构规则研究[M].北京：清华大学出版社，2000，2.

他把去年完成的毕业论文发表了。可以用现代汉语层次分析法对这句话从大到小作如下分析：

第一个层次：他……发表了——主谓。（分出主语部分“他”）

第二个层次：把……发表了——状中。（分出中心词“发表”）

第三个层次：把……毕业论文——介宾。（分出介词“把”）

第四个层次：去年……论文——定中。（分出定语“毕业”）

第五个层次：去年完成的论文——定中。（分出中心词“论文”）

第六个层次：去年完成——状中。

用现代汉语层次分析法分析单句，可以从大到小，也可以从小到大。只是需要分析者基本功扎实，头脑清醒。

索引序列
层次聚类分析与研究论文
期刊层次分类
聚类分析论文主题
毕业论文聚类分析
现代汉语语法研究层次分析论文
返回顶部

层次聚类分析与研究论文