摘要:目前光伏输出功率概率建模中,参数分析方法需预先假设参数分布,非参数分析方法中常用的核密度估计的带宽值选取方法不统一,在此情况下提出一种非参数方法——正交级数密度估计,对数据分布不附加任何假设,基于正交级数理论直接建立光伏电源输出功率的概率模型。利用江西南昌及浙江嘉兴两地的光伏电源输出功率历史实测数据进行仿真,结合拟合优度检验和误差分析,验证了所提模型的准确性和有效性。对于不同时段、不同地区光伏电源输出功率的随机特性,所提方法具有良好的适用性,在样本容量变化时模型保持稳定性。
关键词:光伏功率;概率模型;正交级数密度估计;核密度估计;拟合优度检验
0 引言
随着可再生能源需求的增长,光伏发电发展迅猛[1],在电力系统中所占比例越来越大,其对电力系统规划、仿真、调度和控制的影响也引起极大关注[2]。由于易受天气等因素影响[3],光伏输出功率具有随机特性,其概率分布特性对分布式电源的规划、运行及可靠性分析具有重要的指导意义[4]。
目前,对于光伏电源输出功率概率分布特性的分析主要分为两大类,即参数分析方法和非参数分析方法。参数分析方法需先假定光伏电源输出功率或影响光伏输出功率的主要因素满足某些已知分布,再通过实际数据求取分布函数的参数信息。文献[5]假定光伏电池板输出功率服从正态分布,结合辐照度的Beta分布、温度与光伏输出功率之间的线性函数关系,推导得到了同时考虑辐照度与温度的概率模型。文献[6]根据光伏输出功率的历史数据,分别基于 Normal、Weibull、Gamma分布进行了概率建模,但未计算模型误差,无法判断模型的准确度。文献[7]运用古典概率获得辐射度、倾斜度、集电极输出等预期值,将晴朗系数和散射系数作为随机变量进行分析和仿真。这种假设光伏电源输出功率、辐照度或散射系数等服从某种参数分布的方法尽管较为简单,但缺乏灵活性,在参数的选取上带有主观性,存在模型的设定偏差。其次,现有研究表明单一的参数分布不具有普遍适用性,光伏输出功率受诸多因素的影响[4]。
参数估计要求密度函数已经具有某种特定的数学形式且只包含少量未知参数,而非参数分析方法无需对光伏电源输出功率特性作任何先验假设,完全通过历史数据挖掘数据的分布特征,从而避免了模型分布形式选择不当带来的误差[8],具有更好的适用性和稳健性。非参数估计中运用较为广泛的核密度估计模型,该模型的核心问题在于最优带宽h的求取。文献[9]采用穷举法求得积分均方误差最小时的h。文献[10]将积分均方误差作为目标函数,在求目标函数最小的基础上加上拟合优度检验作为约束条件求得最优带宽。现有的研究表明,核密度估计对于光伏输出功率的估计有一定的正确性,但对模型进行不同的误差分析将得到不同的h,目前尚未有统一的计算带宽值的方法,也无法保证计算方法的适用性。
本文提出了一种基于正交级数密度估计的光伏输出功率非参数估计方法,无需假定数学模型,完全根据已知样本数据进行分析。基于非参数正交级数密度估计理论建立光伏电源输出功率的概率模型,其无需考虑带宽值的选取,计算过程简单、速度快;同时,利用南昌和嘉兴两地区的历史实测数据,依据拟合优度检验和误差分析对模型进行了评估,验证了模型的正确性和普适性。
1 光伏电源的正交级数密度估计
1.1 正交级数理论
设x是属于实数集R上的随机变量,若其概率密度函数 f(x)在区间[a,b]上满足 f∈L2(a,b),即(L2是满足左式的一个空间表达,除非另外说明,否则假定 a=0、b=1)[11],则 f(x)可以表示成正交级数的形式,为:
其中,φj(x)称为 L2(a,b)的一组标准正交基。 对任意f∈L2(a,b),φj(x)满足如下条件:
a.对于所有的 j,φj(x)满足(即标准化);
b. 对于 i≠j,有(即正交);
c.在序列 φ1、φ2、… 中,与每个 φj都正交的函数为零函数。
基的系数βj表示为:
通常的基函数有Hermite基、Laguerre基、余弦基。基的选择主要依赖于密度的支撑[12]。一般情况下,当 f(x)的支撑是(-∞,∞)或(0,∞)时,使用Hermite 基和 Laguerre 基;如果 f(x)具有紧支撑,可以选取余弦基。 本文中,f(x)具有紧支撑[Pmin,Pmax](Pmax、Pmin分别为光伏输出的最大、最小有功功率),故选择余弦基作为标准正交基[12]。
1.2 基于正交级数密度估计的光伏电源概率模型
设某光伏电源的输出功率 P∈[Pmin,Pmax]为一定义在实数集上的随机变量,其概率密度函数为f(P),P1、P2、…、Pn是来自 P的独立同分布 IID(Independent and Identically Distributed)样本,其中n为样本数。显然 P 满足 f∈L2(Pmin,Pmax)。 将 P 投影到区间[0,1]上可得随机变量 p=(P-Pmin)/(Pmax-Pmin),其概率密度函数 g(p)满足 g∈L2(0,1),p1、p2、…、pn为来自 p 的IID样本。则p的概率密度函数可以写成如下形式:
对于 g∈L2(0,1)选择余弦基做密度估计,即则因此 βj的无偏估计为:
根据式(1)—(4),定义 g(p)的正交级数估计如式(5)所示[11]。
其中,为收缩系数。本文采用截断估计法选择收缩系数,取为示性函数 I(若 j≤J,则 I=1;否则 I=0),则可得到 g(p)的截断估计为:
其中,J为取舍点。增加J将减小偏差但将增大方差,为了强调风险函数对于J的依赖,记风险估计(J)如式(7)所示[11]。
其中,有(A)+=max(A,0)
选择使(J)最小化时的J作为。最终,p的概率密度函数为:
2 正交级数密度估计模型的检验
2.1 拟合优度检验
拟合优度检验是用来检验一类数据的分布是否与某种理论分布相一致。本文中利用其验证正交级数密度估计模型是否能够反映光伏电源输出功率的随机性、间歇性的特点。选取χ2检验和K-S检验这2种常见的检验方法作为衡量指标。
χ2检验主要用于无序分类变量的统计推断,判断2个样本率及构成比之间的差别。设归一化后的光伏电源输出功率样本数据为 p1、p2、…、pn,其概率分布为G0(p),将样本数据划分为k组没有交集的数据,则 Pearson χ2 检验统计量为[13]:
其中,vi为第 i个区间的观察频数;pi为 G0(p)在第 i个区间的理论概率值。
原假设H0:密度估计与光伏电源输出功率分布没有差别。计算得 χ2值,它表示观测值与理论值的偏离程度。χ2的自由度为m-1,根据计算结果及自由度可以确定在H0成立的情况下当前统计量的概率 P*。 给定置信水平 α 的条件下,当 χ2< χ2α,m-1时,P*> α,接受假设 H0;反之,拒绝 H0,即观测值与理论值存在较大误差,正交级数密度估计不适用。
χ2检验的结果与分组情况有关,而分组方法带有随意性,会丢失一部分信息,特别对于在分组区间上有相同概率的不同分布,Pearson χ2 检验无法区分[13]。
为了解决上述问题,本文引入一种典型的EDF(Empirical Distribution Function)检验——K-S检验,其通过描述G0和经验分布函数Gn之间的差异充分反映样本信息。通过K-S检验的分布无关性,在一定程度上弥补了Pearsonχ2检验的不足[14]。K-S检验方法是将样本数据的累计频数分布与特定理论分布进行比较,若两者间的差距很小,则推论该样本符合理论分布。将光伏输出功率数据由小到大排序得p(1)≤p(2)≤…≤p(n),经验累积分布函数如下:
理论分布与经验累积分布之间的最大垂直差距Dn定义为:
Dn的值越小,代表2种分布之间的差异越小,即拟合程度越高。
在样本容量及置信水平确定的情况下,查表或者根据公式可以得到相应的值,称为临界值。用检验统计量的值与临界值作比较,小于临界值时表示通过拟合优度检验,反之表示未通过。本文中,χ2检验的临界值通过查表得到,K-S检验的临界值根据公式(置信水平95%)计算得到。
2.2 误差分析
拟合优度用于检验实际观测值与理论值之间的差异,在确定密度估计函数后,需要对其进行误差分析以判断准确性。本文采用平均误差百分数MAPE(Mean Absolute Percentage Error)和均方根误差 RMSE(Root Mean Squared Error)作为指标。
其中分别为归一化后的光伏电源输出功率的正交级数密度估计分布和直方图在第r个区间的概率。
指标值越小表示经验分布与理论分布之间的差异越小,说明正交级数密度估计模型与实际观测数据分布的差异越小。
3 算例分析
3.1 数据说明
利用江西南昌某地区典型季度的光伏出力实测数据(采样间隔为10 min)和浙江嘉兴某地区半年的光伏电源实测数据(采样间隔为5 min)进行仿真分析。经纬度、日照时间和年均温度都是影响光伏出力的因素,两地的地理气候信息如表1所示,可以通过其分析本文模型在不同光伏发电环境下对光伏电源输出功率密度估计的适用性。
表1 南昌和嘉兴两地地理气候信息
Table 1 Geographic and climatic information of Nanchang and Jiaxing
3.2 与核密度估计方法的对比
(1)核密度估计带宽选择。
核密度估计主要是运用一组观测的且来自一个未知分布函数的随机变量来估计其密度函数[15]。核密度估计法在光伏、风力发电等领域已有广泛使用。文献[10]验证了核密度估计法的正确性,同时通过与Beta、Weibull等传统模型的对比表明了该模型的拟合度更高,适用性更强。
核密度估计模型的关键问题在于最优带宽h的选取。h值过大会造成密度曲线过于平滑,不能正确反映实际数据的变化趋势;h值过小会导致密度曲线欠平滑、波动大。带宽h的选择原理是使估计的模型与真实测量值最接近。然而带宽的选择不可能使核估计的偏差和方差同时减小,故需要在两者之间做权衡[16]。
文献[17]将渐进积分均方差AMISE(Asymptotic Mean Integrated Squared Error)作为目标函数进行最小化的优化运算(简称方法1),通过求导得到带宽h的表达式为:h=0.9 min(样本标准差,样本四分位距 /1.34)n-1/5。
文献[10]通过选取正态分布 N(0,1)和 N(0,4)2种不同的核函数(简称方法2),使两者均方积分误差最小,加上 χ2检验和K-S检验作为约束条件求得带宽值,再求两者的平均值作为总体密度的核估计的 h,即:
其中,分别为核密度估计模型的 χ2、K-S 检验的统计量;分别为 χ2、K-S 检验统计量的门槛值。基于不同误差分析将得到不同的h。
(2)拟合优度检验对比。
本文采用正交级数估计和以上2种核密度估计方法对模型进行拟合优度检验。
选取南昌3月和嘉兴半年的光伏实测数据,用3种方法得到的概率密度曲线分别如图1、图2所示。图中,p为正则化后的光伏电源输出功率(标幺值)。
由图1可以看出:在取一个月光伏数据的前提下,本文方法和方法2的密度曲线都可以做到兼顾模型的拟合优度和曲线的平滑度,而方法1的曲线过于平滑,无法反映光伏输出功率的多峰性;在前2个峰值处,本文方法的拟合程度最高,较之方法2更好地反映了峰值特性。
图1 南昌3月份数据的概率密度曲线
Fig.1 Probability density curve based on data of March of Nanchang
图2 嘉兴半年数据的概率密度曲线
Fig.2 Probability density curve based on data of half year of Jiaxing
图2中,选取嘉兴地区半年的光伏实测数据,当数据量增加时,方法2和本文方法的概率密度曲线基本重合,都能够满足拟合优度的要求,体现多峰性。结合图1、图2可以看出,方法1的概率密度曲线总体形状相似,适用于单峰值性的光伏数据拟合,本文方法和方法2的偏离程度小,与直方图无显著差异,对于具有多峰性的数据同样适用。
从图1、图2中可以大致看出拟合效果,下文通过 χ2和K-S检验具体说明模型给定的理论分布是否可以刻画实际数据的分布情况。
3种密度估计方法的拟合优度检验结果(α=0.05)如表2所示。由表可见:方法1的2项指标均大于临界值,该模型得出的分布不能正确反映实际分布;本文方法和方法2的检验结果均满足要求,验证了模型的正确性。在全年的4个典型月份中,本文模型得到的检验结果都是最优的,说明模型在不同的时间段内都具有一定的适应度。以南昌3月的数据为例,方法1、方法2的 χ2检验统计量分别是本文方法的548倍和55倍;K-S检验结果分别是本文方法的8.33倍和3.37倍。嘉兴数据的检验结果显示,当数据量增大时,3种模型的K-S检验维持在一个相对稳定的值,本文方法和方法2的χ2检验统计量增幅较小,方法1的 χ2值则有明显增加。此时,核密度估计和正交级数密度估计可以保持良好的稳定性,同时不影响理论分布的准确性,具有良好的模拟精度和模拟效果。
表2 3种密度估计方法的拟合优度检验结果
Table 2 Results of fitting goodness test for three density estimation methods
正交级数和核密度估计法都依赖于大量的历史数据,无需对模型进行任何假设,通过计算得出参数的值,但是正交级数模型无需考虑带宽值的选取问题。带宽值作为核密度估计的核心,文献[10]采用内点法进行计算。由式(14)可知,当数据量增大时,所需的计算时间更多。本文仿真程序均在MATLAB R2014a环境下编写,测试计算机硬件环境为英特尔四核i5-2310 CPU、8GB内存,操作系统为Windows7 64 bit。正交级数密度估计的计算时间总共为1~2 s,核密度估计在带宽值给定的前提下所需时间也为1~2 s,但是计算带宽值的时间在分钟级,所以核密度估计的整体所用时间大于正交级数估计。
通过检验结果和仿真验证了本文模型的普遍适用性和良好的稳定性。正交级数密度估计与核密度估计相比,最大的优点在于不需要计算带宽值,简化了计算量,同时避免了不同误差分析带来的不同结果,减少了估计值的不确定因素。
(3)误差分析对比。
通过拟合优度检验确定了模型的可用性,实际应用中还需要对其进行误差分析以判断得到的拟合曲线与实际数据分布之间的差异。以上文中提及的MAPE和RMSE作为指标,对南昌和嘉兴的数据进行分析,结果如表3所示。
表3 3种密度估计方法的误差分析
Table 3 Results of error analysis for three density estimation methods
由表3可以看出,在单个月份的误差分析中,本文所提的正交级数密度估计模型在各项分析中的误差均为最小:MAPE在1%以内,RMSE在0.002以内。随着数据量的增大,该模型的RMSE减小,MAPE也在2%以内,体现了其稳定性。对照表2、表3可以看出,在嘉兴数据的分析过程中,核密度法与正交级数法的结果极为接近,说明两者都能够适应大数据量的计算,而本文方法的计算速度更具优势。通过误差分析,说明本文模型与实测数据的差异最小,再次验证了正交级数模型的准确性和有效性。
4 结语
本文基于正交级数密度估计理论建立光伏电源输出功率的概率模型,避免了核密度估计模型中带宽值的计算,并根据南昌和嘉兴两地的光伏实测数据进行了仿真分析。对比不同月份、不同地区和不同时间维度的仿真结果可知,本文所建模型能反映光伏电源的随机特性,不受时间、空间环境的约束,且拟合精度高、稳定性强、计算速度快、适用性广。本文模型在光伏、风力发电及负荷预测等方面都有研究价值。