您好,欢迎来到星星旅游。
搜索
您的当前位置:首页一种新的空间权重矩阵选择方法

一种新的空间权重矩阵选择方法

来源:星星旅游
第29卷第6期 2012年6月 统计研究 Statistical Research VOI.29.No.6 Jun.2012 一种新的空间权重矩阵选择方法 任英华游万海 内容提要:空间权重矩阵选择问题一直是空问计量经济学中的一个难题,权重矩阵的选择正确与否关系到模 型的最终估计结果。本文在空间滞后模型框架下,把空间权重矩阵选择问题转化为变量选择问题,然后利用CWB 方法进行变量选择。中国城市服务业集聚机理实证研究显示,利用本文提出的方法所选取的空间权重矩阵较为合 理,进而可以减少因为空间权重矩阵误设问题而引起的模型估计偏误。在大样本情形下,该方法可以非常有效地 降低计算成本。 关键词:空间滞后模型;空问权重矩阵;Component—wise Boosting方法 中图分类号:C812 文献标识码:A 文章编号:1002—4565(2012)06—0099—07 A New Selection Method of Spatial Weight Matrix Ren Yinghua&You Wanhai Abstract:Spatial weight matrix will affect the estimation results of the mode1.How to select an appropriate spatial weight matrix is an important issue in spatial econometrics.The paper applies a component—wise boosting algorithm to deal with the selection issue of a spatial weight matrix in spatial lag models.It shows the selection issue of spatial weight matrix can be reformulated as a variable selection problem and then use the component・wise boosting method to select variables. The empirical results from the mechanism of urban service industry aggregation demonstrate that the chosen spatial weight matrix is rational and using it can reduce the estimated bias effectively.Besides,the method can reduce the computation cost effectively in large sample cases. Key words:Spatial Lag Model;Spatial Weight Matrix;Component—wise Boosting Algorithm 一、引言 包括移动窗口回归、地理加权回归,局域加权回归, 这些方法的共同特征是用变化的邻居来代替原来的 预设固定的邻居,体现动态变化。尽管如此,在实际 研究中学者们通常都是主观地选择某一种权重矩阵 进行应用,而对于如何合理选择空问权重矩阵研究 的还很鲜见。国外学者Kooijman(1976)提出通过 空间计量经济学理论认为一个地区空间单元上 的某种经济地理现象或某一属性值与“邻近”地区 空间单元上同一现象或属性值是相关的。这里的 “邻近”可以指地理空间上的相邻,也可以指经济或 者社会发展相近。新经济地理学理论中强调的规模 报酬递增、路径依赖、不完全竞争、邻里溢出效应都 属于这一理论范畴。这种“邻近”关系在空间计量 经济学理论中通常是通过定义空问权重矩阵实现 的。由于模型估计结果在很大程度上依赖于空间权 重矩阵选择,因此,如何正确选择空间权重矩阵十分 重要。 最大化Moran指数选择相应空间权重矩阵,具体实 际运用时,更一般地是通过最大化空间自相关系数 来选择空问权重矩阵。Meen(1996)利用第一阶段 回归的残差构建权重矩阵W。Bhattacharjee et al (2005)提出根据数据分布估计空间权重矩阵,然而 他们提出的方法只适用于空间误差模型。Holloway 和Lapar(2007)提出使用贝叶斯边际似然函数法选 择空间权重矩阵。Aldstadt和Getis(2006)提出 实际运用中常用的空间权重矩阵有二元邻接、 k-nearest、距离n次方倒数,且学者们不断提出新的 空问权重矩阵定义方法,包括带宽距离衰减、高斯距 离衰减等。另外一些方法试图放宽“邻居”的定义, 本文为教育部人文社会科学基金项目金融集聚演化机理与 空间溢出效应研究:理论模型与实证分析(11YJC630170)阶段成果。 ・1oo・ 统计研究 2012年6月 AMOEBA(A Muhidirectional Optimal Ecotope-Based Algorithm)过程,基于局域统计指数,使用网格搜索 空间自相关法来构造空间权重矩阵。以上方法的一 个共同之处是模型需要被直接或者间接估计。尽管 现在计算机处理这些估计过程很容易,但是选择简 单的方法较为重要。Kostov(2010)利用Component. wise Boosting(下文简称CWB)方法来选择空间权重 矩阵。该方法的主要思想是预先设定一组空间权重 矩阵,把空间权重矩阵选择问题转化为变量选择问 题。与传统变量选择方法相比,CWB方法不仅可以 在一定程度上减少空间权重矩阵的误设,而且由于 CWB方法能在负自由度下拟合模型,容易实现,大 大降低了计算成本。 基于此,本文利用Component.wise Boosting (CWB)方法,在空间滞后模型框架下把空间权重矩 阵选择问题转化为变量选择问题,然后利用CWB 方法进行变量选择。以中国261个地级及以上城市 为样本,研究了城市服务业集聚内在形成机理,验证 了CWB方法选取空间权重矩阵的适用性。 二、模型与研究方法 (一)空间滞后模型 在主流的经济文献中,地区间的空间依赖性受 到越来越多的关注,文献普遍认为忽略空间依赖性 所得到的结果将是有偏的,那么该如何体现地区问 的空间作用呢?Brueekner(2003)提出了体现地区 间互动作用的两类理论模型:溢出模型和资源流动 模型。两者的主要区别是前者体现了本地区的决策 被邻近地区决策直接影响,而后者体现了本地区的 决策不被邻近地区之间决策直接影响,而是通过资 源间接影响。值得注意的是,溢出模型或者资源流 动模型都属于空间滞后模型。 空间滞后模型形式为: Y=AV/y+ + (1) 其中,Y为n×1维因变量, 为 ×k维解释变 量, 为n× 维空间权重矩阵,A为空问自回归系 数。空间依赖性的表现形式不止空间滞后模型一 种,常见的还包括空问误差模型,然而忽略空间滞后 比忽略空间误差所带来的结果更为严重,故本文主 要针对空间滞后模型进行讨论。 (二)研究方法 为了估计模型(1),现有实证研究文献的通常 做法是预先设定一个或者多个空间权重矩阵,常用 的有基于地理邻接关系的0~1权重矩阵、距离权重 矩阵、经济权重矩阵等;然后分别进行模型的参数估 计与稳健比较。这样容易导致空间权重矩阵误设问 题,进而导致模型估计结果有偏。 与以往研究不同,本文首先基于理论基础预先 设定了一组空间权重矩阵,然后利用数据驱动方式 (Data.driven)从中选择出与数据特征最为相符的空 间权重矩阵,从而可以大大减少空间权重矩阵误设 问题。本文的主要拓展工作就在于把空间权重矩阵 选择问题转化为变量选择问题,进而利用机器学习 领域中的Boosting方法进行变量选择。 1.Boosting方法。在实际应用中存在很多变量 选择方法,最常见的有逐步回归法,包括了向前和向 后两种,此外还包括LASSO(Tibshirani,1996)、 Boosting方法(Buhlmann and Hothorn,2007)等。相 对其他变量选择方法,Boosting方法的一个主要优 点是其能在负自由度下拟合模型,即预测变量个数 超过观测值个数。Boosting方法包含了许多种类, 是机器学习中常用的方法。机器学习是根据过去观 测值,研究提高预测精度的一种自动技术。以下给 出Boosting方法的一般描述: 假如有一组观察值(Y , ),i=1,2….,/'t,其 中Y为因变量, 为一组解释变量。在一般线性模 型中,Y对 的条件期望表示为E(Y l ) =hi ( )),其中hi.)为一个固定响应函数。与 一般线性模型不同,在Boosting中,叼( )不要求为 协变量 的线性函数,而可以表示为可加形式卵( ) =30+ ( ),其中, ( )定义为不同协变量 的一般表示,通常可以为线性形式、非参数平滑形式 等(Kneib et al,2009)。因此, Y=77( )+ =卢o+ , ( )+ (2) 针对式(2),需要解决两个问题。首先,需要一 种方法用于拟合模型;其次,应该选择哪些解释变量 进入模型及其以什么形式在模型中出现。Buhlmann 和Hothorn(2007)提出一种CWB方法处理变量选 择及模型选择问题,能够很好地解决这两个问题。 其基本思想是关于叼最小化期望损失函数E(p(Y, 叼( ))),即为: 叼 ( )=argminE(p(Y,7/( ))) (3) 其中,P(.,.)为损失函数。如I2一loss或者负 第29卷第6期 任英华游万海:一种新的空间权重矩阵选择方法 ・101・ 对数似然函数。在实际求解中,最小化E(p(y, 准则常被使用,且在线性模型中,Hurvich et al (1998)提出了修正AIC准则。Hansen和Yu(2001) 叼( )))等价于最小化n ∑ P(Y ,n(x ))。其实 经典估计同样是解决最优化问题,不同的是它只是 针对一个固定的_厂( )求解。因此,可以把Boosting 方法当作为广义上的模型估计方法。 给出77的初始值叼。,其迭代步骤主要为: ①计算负梯度 =一 l : ( , i=1,2,…, 。此处仇=1,…,m 。,m 表示最大 迭代次数,计算得到 =( 一, )。 ②利用( 一,/x )和( 一, ),通过定义 一个基过程(base procedure),得到莒 (.): (Xi,L, )  ——————— g ・(.)  (4)斗, 基过程的定义方式有多种,本文只考虑最小二 乘回归基过程: 鸯( )= “ (5) 其中, :∑ /∑ n x , =a ∑ 一 ③对应函数. 迭代更新过程: (.)= ,m-I(.)+瞎 (.)。当 ≠J , , (.)= , (.), ∈(0,1]。 CWB方法中仅有一个基学习(.厂)被选择作为 每步的更新迭代。在函数形式给定的情况下,选择 一个基学习也即对应选择了一个变量。需注意的 是,变量选择过程并不是选择最显著的变量,而是根 据最小化残差平方和选择变量的,即选择对模型拟 合贡献最大的那个变量(Kneib et al,2009)。 在实际应用中,需要选择合适的迭代步长/2以 及最大迭代次数m盯。 。选择较小的迭代步长需要较 多的迭代次数且计算时间更长,然而在实际中被证 明其预测精度更高且在/y充分小时(如 =0.1),其 预测结果总不会太差(Buhlmann和Hothorn,2007)。 选择 =0.1被实践证明效果很好(Kneib et al, 2009)。因此,为了得到较为稳健的结果,本文取不 同 值进行分析。 对于m 。的选择,也存在着多种标准。一种是 交叉验证(Cross—validation)方法(Buhlmann和 Hothorn,2007),其又包含了多种小类,如折叠交叉 验证法、抽样交叉验证法等,但是在高维数据中,这 种方法通常是非常耗时。这种情况下,另一种AIC 提出了gMDL(g-prior minimum description length)准 则,其以数据驱动方式在AIC准则和修正AIC准则 之间选择最优的,能够成功运用于Boosting方法处 理变量选择问题。因此,本文使用gMDL准则选择 最优迭代次数m 。。 2.模型估计与变量选择。在模型(1)中,解释 变量Wy存在内生性,运用普通最小二乘回归进行 估计得到的结果将会有偏。因此,通常可以使用极 大似然估计(ML)和工具变量估计(IV)或者广义矩 估计(GMM)进行估计。由于广义矩估计法不依赖 于干扰项的正态性假设,且计算较为简单;其次,在 包含其他内生性变量情况下(除了wy外),IV/ GMM方法是一种非常有效的方法。因此,本文主要 使用Kelejian et al(1998)提出的空间两阶段最小二 乘法对模型进行估计。鉴于IV/GMM估计也存在 一些不足,在实证分析部分,本文也利用了极大似然 法对模型进行稳健性估计。 本文进行变量选择的主要思想及步骤为: (1)针对每个权重矩阵w,构造空间滞后因变 量wy以及空间滞后解释变量WX; (2)选取WX作为内生变量wy的工具变量,针 对每个w,分别就wy对WX做回归,计算得到各个 w相应的拟合值吩,此时wy即投影成为吩; (3)对Y和X, 做回归。针对每一空间权重 矩阵,空间权重矩阵(w)选择问题转化为了变量 (昕)选择问题,然后利用CWB方法进行变量 选择。 需注意的是这样分步回归得到的标准误是不正 确的,需要进行调整,然而本文主要目的是进行变量 选择,因此没有影响。利用CWB方法进行变量选 择并不能保证只有唯一的空间权重矩阵被选取,然 而利用此方法选取了一些适合的权重矩阵将会大大 减少空间权重矩阵误设问题。当然,也可以通过其 他方法对这些潜在的空间权重矩阵作进一步选择, 最后选择出唯一的权重矩阵。相反,如果多个空间 权重矩阵被同时使用,这可以用来刻画更为复杂的 空间溢出过程。 为了模型能够识别,空间权重矩阵必须为外生。 基于地理距离的空间权重矩阵受到广泛运用的一个 重要原因是因为其潜在的外生性。本文主要研究我 ・102・ 统计研究 2012年6月 国城市服务业集聚内在形成机理,在地区间的潜在 互动关系缺乏直接可测情况下,基于地理距离的空 间权重矩阵可以被使用。因此,本文构造空间权重 矩阵为: , )= (6) 其中,d(i,J) 表示地区i与其最近的m个地 区. 之间的距离,而对于m+l,m+2….,其元素 设为0。这里距离算法采用欧氏距离d(i,J) =( I_7.( —Y ) )丁,其中地理坐标利用经纬度 转化得到。一个地区的位置可以用该地区的经纬度 来准确反映,本文使用经纬度确定一个地区的坐标。 经纬度数据来源于国家基础地理信息系统的shp格 式图层,并使用ArcGIS软件提取。需要注意的是有 个别地级市出现更名,在下载的shp格式图层中并 未包含其相关信息,本文对这些地级市做了仔细的 核对。如辽宁省锦西市为现在的葫芦岛市,吉林省 的浑江市为现在的白山市,安徽省的贵池市为现在 的池州市。 式(6)中 表示距离衰减指数,本文设置为 [0.1,4]区间,且以0.1为步长变化。本文研究样 本为中国261个地级及以上城市,考虑到城市数量 较大及其实际意义,将其都设为各自邻居不合理,所 以本文设置m=10,即考虑与该地区距离最近的10 个地区为其“邻居”,共有备选权重矩阵个数N=40 X 10=400,而样本观测值个数仅为261,出现了负 自由度,这种情况下一般的变量选择方法不适用,而 CWB方法能够在负自由度下拟合模型。 三、实证研究 【一)指标选取及变量描述 1.因变量。本文选择区位熵系数(LQ)衡量我 国城市服务业区域集聚程度。区位熵是衡量产业专 业化的重要指标,可充分比较不同地区服务业集聚 程度,确定该地区服务业集中状况在全国所处的位 置。计算公式为: LQ=(E /E )/(E /E ) (7) 其中,E 指区域 内产业 的就业人数,E指区 域i内的总就业人数,E 指区域 内产业. 的总就 业人数, 指区域k内的总就业人数。区位熵系数 越大,该区域现代服务业集聚程度越高。 2.解释变量。根据现代服务业区位选择的相关 文献,本文侧重从规模经济、交易成本、市场规模等 方面研究城市服务业集聚的影响因素,将城市服务 业集聚的影响因素分为核心变量和控制变量两组。 第一组为核心变量,包括规模经济、交易费用和 市场规模。 规模经济:对于规模经济的衡量,有着各种各样 的方法,如利用企业平均规模来衡量规模经济,或者 采用企业的最小有效规模。基于数据可获得性基础 上,本文使用各地区服务业增加值占全国的比重来 衡量,用SCALE表示。 交易费用:本文使用土地价格来测度交易费用。 与制造业不同,现代服务企业选址大都集中在城市 中心或者其周边,此时土地价格成为交易费用的主 要部分。由于从现有公开的统计资料中难以找到合 适的衡量土地价格的方法,所以本文采用GDP与城 市面积比值来衡量,用COST表示。 市场规模用人口密度和工业发展水平两个指标 来衡量。人口密度用每平方米土地上拥有的人口来 衡量,反映生活服务业的市场规模,用DEN表示。 本文使用工业增加值来衡量工业发展水平,反映生 产性服务业的市场规模,用INDUS表示。 第二组为控制变量,包括规模以及地理位 置因素。 规模:用各地区消费支出占当地GDP 的比重来反映,用GOV表示。 为了避免虚拟变量陷阱,本文只同时控制了东 部和中部虚拟变量。东部地区虚拟变量EAST,设属 于东部省份的城市为1,其余城市为0。中部地区虚 拟变量MID,设属于中部省份的城市为1,其余城市 为0。 (二)模型设定 根据以上理论及变量的选择,本文的线性模型 形式设定如下: LQ = +/31SCALE +/32COST +/33DEN +/34INDUS +/35GOV + (8) 式(8)中,p为待估参数,i为1,2….,261个地 级及以上城市,8为随机误差项。模型中同时加入 了东部虚拟变量EAST和中部虚拟变量MID,用于 反映地理位置对现代服务业集聚的影响,其他变量 含义同上。本文所用样本包括中国261个地级及以 上城市,基础数据主要来源于2009年的《中国城市 统计年鉴》。实证研究主要借助于R12.2(mboost 第29卷第6期 任英华游万海:一种新的空间权重矩阵选择方法 ・103・ 包、spdep包)、ArcGIS和GeoDa 0.9.5三个软件 完成。 (三)实证结果 1.利用CWB方法进行空间权重矩阵选择。为 了使得到的结果较为稳健,本文取不同v值进行了 分析,分别取v=0.05,0.1,0.2,0.3,0.4,0.5,0.6, 并使用gMDL规则判别最优迭代次数,设置初始的 迭代次数为10000次,所得结果如下: 表1 依据gMDL规则选取的空间权重矩阵结果 v值 lv=0.05 V=0.1 v=0.2 V:0.3 V=0.4 v=0.5 V:0.6 最优迭代次划8496 4110 1996 1250 874 678 493 权重矩阵个别 19 l8 19 18 18 19 19 从表1可以看出,选取不同的迭代步长,根据 gMDL规则选取的空间权重矩阵个数都保持在18 个或者19个,选取结果较为稳健。但是随着迭代步 长的不同,最优迭代次数差别很大,迭代步长越小, 迭代次数越多。 为了使结果更为直观,本文使用如下记号呈现 结果:nxWy。例如,nl0W2表示与该地区最近的10 个地区作为其邻居,且距离采用平方倒数形式计算。 从以上结果可以看出,在最大迭代次数10000以内, 迭代都终止。Friedman(2001)指出,实际应用中大 部分选择较小的,选取较小的将能得到更精确的结 果且Boosting过程对较小敏感性较小。因此,本文 选择v=0.05来分析。在v:0.05下,被选取的空 间权重矩阵为:nlW0.1、n2W2.3、n2W2.4、n2W2.5、 n3W2 n4W0 1 n5W0.1 n5Wl 8 n5W1 9 n5W2 n6W0 1 n8W0 3 n8W0 4 n8W0.5 n8W0.8 n8W0.9、n9W0.1、nl0W1.1、nl0W1.2。通过仔细对 比不同v值下选取的空间权重矩阵,本文选取 nl0W1.2作为下一步分析,理由如下:本文的主要 思想是把空间权重矩阵选择问题转换为对变量选择 问题,然后利用CWB方法进行变量选择。在利用 CWB方法进行变量选择时,虽然未给出各个变量所 对应的标准误,但是各个变量对应的系数是给出的, 这里选择nl0W1.2,正是根据变量系数大小来选择 的。系数越大,表示该变量越重要,因此这里选择了 对应系数最大的那个变量。为了判断结果是否具有 稳健性,下文还对其他不同的空间权重矩阵进行回 归,对模型进行了稳健性检验。 2.城市服务业集聚形成机理实证研究。利用 空间计量经济学的提前是变量存在空问自相关性, 常用的空间自相关性检验指数为Moran指数,计算 公式为: n n∑∑ (,JQ —tq)(tQ—tq) Moran ,=旦 ——— I'————一 (9) S ∑∑ i:1 J=1 式中,s = 耋( 一 , = 其中LQ表示城市服务业集聚度,n为261,表示地 区总数。计算得到2003—2008年的区位熵Moran 指数,如表2。 表2 211113—211118年区位熵Moran指数 年份 2o03 20H04 20o5 2oo6 2007 2008 Moran值 0.2432 0.2566 0.2502 0.2538 0.2996 0.2926 P统计量 0.0010 0.oo10 O.0010 0.0O0o 0.0Oo0 0.0000 注:基础数据来源于2004—2009年《中国城市统计年鉴》,P值 为蒙特卡洛模拟999次得到。 从表2可以看出,2003—2008年的Moran指数 均在1%水平下显著为正,初步说明我国城市服务 业发展存在空间集聚特征。 为了直观地判断我国城市服务业发展的空间集 聚特征,本文给出了Moran指数散点图(见图1)。 图1展示了空间滞后W—LQ作为纵轴和LQ(注: LQ20O8指我国261个地级及以上城市2008年服务 业集聚度)作为横轴的分布情况。其中,LQ为现代 服务业的集聚度,W—LQ表示邻近值的加权平均值。 根据散点图,可将各个地级及以上城市现代服务业 的发展分为4个象限的集群模式,分别识别一个地 区及其与邻近地区的关系:图的右上方的第1象限, 表示高集聚增长的地区被高集聚的其他地区所包围 (HH),代表正的空间自相关关系的集群;左上方的 第2象限,表示低集聚增长的地区被高集聚增长的 其他地区所包围(LH),代表负的空问自相关关系的 集群;左下方的第3象限,表示低集聚增长的地区被 低集聚增长的其他地区所包围(LL),代表正的空间 自相关关系的集群;右下方的第4象限,表示高集聚 增长的地区被低集聚增长的其他地区所包围(HL), 代表负的空间自相关关系的集群。第1、第3象限 正的空间自相关关系揭示了区域的集聚和相似性, 而第2、第4象限负的空间自相关关系揭示区域的 异质性。如果观测值均匀地分布在4个象限则表明 地区之间不存在空间自相关性。从图1可以看出, Moran’S I=0.2926,且在1%显著性水平下显著(通 ・104・ 统计研究 2012年6月 过999次抽样得到),说明我国各城市服务业发展 确实存在着空间的集聚现象,地区差异比较显著。 因此有必要在纳入空间效应下对我国服务业集聚度 影响因素进行分析。由图2也可知,中国城市服务 业集聚水平存在地区差异。其中服务业集聚水平排 名前5的地区包括三亚市、安康市、张家界市、北京 市、菏泽市。集聚程度最高地区的集聚水平值是最 低地区的4.73倍。 W LQ2008 o o o。 。e . o ob o o o _ 鹣 。 瓣。cb 。  争: 。。 。LQ2008 图1 中国城市服务业集聚水平Moran指数散点图 (Moran s l=O.2926) 图2 中国城市服务业集聚水平差异 从上述分析可以看出,我国城市服务业发展存 在空间集聚特征。利用CBW选取的空间权重矩 阵,对我国城市服务业集聚影响因素进行实证分析, 这里同时使用空间两阶段最小二乘法和极大似然 法①对模型进行估计,估计结果如表3: 从表3估计结果可以看出,两种方法估计结果 基本一致,Spatial lag系数可以看出在5%显著性水 平下为正,说明现代服务业集聚在各市之间存在显 著的空间依赖性,且表现为正。从回归的各系数可 表3城市服务业集聚影响因素模型估计结果 解释变量 两阶段估计结果 极大似然估计结果 常数项 一2.7780…(一16.7297) 一2.7435” f一19.15511 空间滞后系数 0.2183 (2.2206) 0.2715…f4.6226) 规模经济 0.7188“ (17.8502) 0.7128” f23.7258) 交易费用 一0.0691…(一4.0652) 一0.0661…(一3.8549) 人口密度 0.0749…(3.9718) 0.O7oo…(3.8239) 工业发展水平 0.01O5(1.0167) 0.0106(0.9137) 规模 0.0381(1.5855) 0.0405(1.4750) 东部虚拟变量 0.0395 f1.8311) 0.0459 (1.94301 中部虚拟变量 0.0051(0.2831) 0.0082(0.3942) 注:括号中为对应z统计量; ,”,…分别表不显著性水平 10%,5%,1%。除东部和中部虚拟变量外,其他变量均为自然对数 形式。 以看出,以服务业增加值占GDP比重衡量的服务业 规模经济、人口密度均在1%显著性水平下为正,东 部地区虚拟变量在10%显著性水平下为正,说明规 模经济、人口密度对城市服务业集聚有显著正向促 ∞ 躲 进作用。以土地价格衡量的交易费用在1%显著性 ∞ ∞舳 %∞ 水平下为负,说明交易费用对现代服务业集聚起到 阻碍作用。然而工业发展水平、规模对城市服 务业集聚未起到显著作用。 为了进一步评价模型拟合效果,本文对模型估 计所得残差进行空间相关性检验,以检验利用本文 方法所选取的空间权重矩阵是否能很好地消除空间 相关性。利用Lagrange Multiplier检验(原假设H0 为:回归残差不存在空间自相关),得到检验统计量 LM值为2.92,其所对应的P值为0.09,在5%水平 下不能拒绝原假设,可以认为残差不存在空间自相关 性。因此,说明了本文所选取的空间权重矩阵较好地 刻画了空间相关性,使得模型估计结果更为可靠。 3.模型稳健性检验。利用本文提出的方法所 选取的空间权重矩阵并不是唯一的,上文只针对权 重矩阵nl0W1.2进行了分析,而未对其他权重矩阵 作讨论。为了检验本文所选取的权重矩阵对模型估 计结果稳健,本方同时利用其他权重矩阵对模型进 行估计。 从估计结果可以看出,针对不同空间权重矩阵, 虽然变量的系数出现一些小的波动,但是从系数符 号及显著性水平来看,均未出现显著差异,说明从总 体上来看,结果非常稳健。与表3估计结果对比,也 未发现显著变化。因此,本文认为利用CWB方法 所得到的权重矩阵均能较好地刻画空间数据的真实 ①空间两阶段最小二乘估计使用R种stsls函数,极大似然估 计使用lagsarlm函数。 第29卷第6期 任英华游万海:一种新的空间权重矩阵选择方法 ・lO5・ 生成过程,体现地区问的空间溢出效应,使得模型估 计结果更稳健。此外,为了避免遗漏变量所引起的 spatial lag models[J].Environment and Planning B:Planning and Design.2010(37):533—549. 模型估计偏误,本文进一步在模型中加入WX,估计 结果未发生很大改变①,说明了本文设定的模型形 式较为合理。 从上述实证例子可以发现,利用本文的方法所 [6]Brueekner J K.Strategic interaction among govemments:an overview of empiircal studies[J].International Regional Science Review, 2003(26):175—188. [7]Kelejian H,Prucha I R.A generalized spatila two stage least squares procedure for estimating a spatial autoregressive model with 选取的空间权重矩阵能很好地拟合数据,较好地刻 画了城市服务业集聚现象所呈现出来的空间相关 性,得到模型估计结果较为合理和准确。此外,以上 autoregressive disturbances[J]Journal of Real Estate Finance and Economics,1998(17):99—121. [8]Tibshirani R.Regression shrinkage and selection via the lasso[J]. Journal of the Royal Statistical Society Series,1996(58): 267—288. 例子也可以看出,本文所用方法在负自由度下也适 用,即当预测变量个数超过观测值个数时,也能准确 地拟合模型。 [9]Freund Y,Schapire R.Experiments with a new boosting algorithm [J].In proceedings of the thitreenth international conference on machine learning.Moran Kaufmann Publishers Inc,San Francisco, CA,1996. 四、结论 空间权重矩阵的合理设定是完成空间计量模型 [1O]Kneib T,Hothorn T,Tutz G.Vailable selection and model choice in geoadditive regression models[J].Biometircs,2009(65):626 —估计的前提,以往实证研究中对空问权重的设定往 往过于主观,如常用基于地理位置的二元邻接矩阵 (0~1)、距离权重矩阵,或者考虑社会经济因素的 经济权重矩阵。与此不同,本文利用数据驱动 (Data—driven)方式进行选择,这样可以有效地减少 空间权重矩阵设定的随意性。具体来说,本文在空 间滞后模型框架下,把空间权重矩阵选择问题转化 为变量选择问题,然后利用CWB方法进行变量选 择。研究结果显示:利用本文提出的方法所选取的 空间权重矩阵较为合理,可以减少因为空间权重矩 634. [1 1]Buhlmann P,Hothorn T.Boosting algorithms:regularization, prediction and model fitting[J].Statistical Science,2007(22):447 —505. [12]Hurvieh C,Simonoff J,Tsai C-L.Smoothing parameter selection in nonparametric regression using an improved Akaike information criterion[J].Journal of the Royal Statistical Society Series B,2007 (60):271—293. [13]Hansen M,Yu B.Model selection and minimum description length principle[J].Journal of American Statistical Association,2001 (96):746—774. [14]Moulaert,F.and Gallouj,C.The loeational geography of advanced producer ifrms:the limits of economies of agglomeration[J].The services of industires Journal,1993(13):91—106. 阵误设问题而引起的模型估计偏误。此外,在大样 本情形下,本文所用方法可以非常有效地降低计算 成本。 参考文献 [1]Kooijman S A L M.Some remarks oil the statistical analysis of鲥ds especially with respect to ecology[J].Annals of Systems Research, 1976(5):113—132. [15]Breandan O hUallachain and Timothy F.Leslie.Producer Services in the Urban Core and Suburbs ofPhoenix Arizona[J].Urban Studies, 2007(44):1581~1601. 作者简介 任英华,女,浙江东阳人,湖南大学金融与统计学院副教 [2]Bhattacharjee A,Jensen—Buder C.Estimation of spatila weights matrix in a spatil erraor model,with an application to difusion in 授,博士。研究方向为经济统计,计量经济理论与应用。 游万海,男,福建龙岩人,湖南大学工商管理学院博士研 究生。研究方向为经济统计,计量经济理论与应用。 housing demand,DP0519,Centre for Research into industry, Enterprise,Finance and the Firm,University of St Andrews,2005. [3]Holloway G,Lapat M L A.How big is your neighbourhood?Spatila implications of market participation among Filipino smallholders (责任编辑:何锦义) [J].Journal ofA cultural Economics,2007(58):37—60. [4]Aldstadt J,Getis A.Using AMOEBA to Create a Spatila Weights Matirx and Identifying Spatial clusters[J].Geographical Analysis, 2006(38):327—423. ①规模经济对应系数为0.7024…(z value=23.4296),交易 费用为一0.0812…(z value=一4.2366),人口密度为0.0971…(z value:3.9589),工业发展水平为0.0074(z value=0.5729),规 模为0.0583 (z value=1.9283)。 [5]Kostov P.Model boosting for spatial weighting matirx selection in 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- stra.cn 版权所有 赣ICP备2024042791号-4

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务