![]() |
|
使用最小二乘法对已知数据进行最佳直线拟合,并返回描述此直线的数组。因为此函数返回数值数组,所以必须以数组公式的形式输入。
直线的公式为:
y = mx + b 或者
y = m1x1 + m2x2 + ... + b(如果有多个区域的 x 值)
式中,因变量 y 是自变量 x 的函数值。M 值是与每个 x 值相对应的系数,b 为常量。注意 y、x 和 m 可以是向量。LINEST 函数返回的数组为
{mn,mn-1,...,m1,b}。LINEST 函数还可返回附加回归统计值。
语法
LINEST(known_y's,known_x's,const,stats)
Known_y's 是关系表达式 y = mx + b 中已知的 y 值集合。
如果数组 known_y's 在单独一列中,则 known_x's 的每一列被视为一个独立的变量。
如果数组 known-y's 在单独一行中,则 known-x's 的每一行被视为一个独立的变量。
Known_x's 是关系表达式 y = mx + b 中已知的可选 x 值集合。
数组 known_x's 可以包含一组或多组变量。如果只用到一个变量,只要 known_y's 和 known_x's 维数相同,它们可以是任何形状的区域。如果用到多个变量,则 known_y's 必须为向量(即必须为一行或一列)。
如果省略 known_x's,则假设该数组为 {1,2,3,...},其大小与 known_y's 相同。
Const 为一逻辑值,用于指定是否将常量 b 强制设为 0。
如果 const 为 TRUE 或省略,b 将按正常计算。
如果 const 为 FALSE,b 将被设为 0,并同时调整 m 值使 y = mx。
Stats 为一逻辑值,指定是否返回附加回归统计值。
如果 stats 为 TRUE,则 LINEST 函数返回附加回归统计值,这时返回的数组为 {mn,mn-1,...,m1,b;sen,sen-1,...,se1,seb;r2,sey;F,df;ssreg,ssresid}。
如果 stats 为 FALSE 或省略,LINEST 函数只返回系数 m 和常量 b。
附加回归统计值如下:
统计值 | 说明 |
se1,se2,...,sen | 系数 m1,m2,...,mn 的标准误差值。 |
Seb | 常量 b 的标准误差值(当 const 为 FALSE时,seb = #N/A) |
r2 | 判定系数。Y 的估计值与实际值之比,范围在 0 到 1 之间。如果为 1,则样本有很好的相关性,Y 的估计值与实际值之间没有差别。如果判定系数为 0,则回归公式不能用来预测 Y 值。有关计算 r2 的方法的详细信息,请参阅本主题后面的“说明”。 |
sey | Y 估计值的标准误差。 |
F | F 统计或 F 观察值。使用 F 统计可以判断因变量和自变量之间是否偶尔发生过可观察到的关系。 |
df | 自由度。用于在统计表上查找 F 临界值。所查得的值和 LINEST 函数返回的 F 统计值的比值可用来判断模型的置信度。 |
ssreg | 回归平方和。 |
ssresid | 残差平方和。 |
下面的图示显示了附加回归统计值返回的顺序。
说明
斜率 (m):
通常记为 m,如果需要计算斜率,则选取直线上的两点,(x1,y1) 和 (x2,y2)。斜率等于 (y2 - y1)/(x2 - x1)。
Y 轴截距 (b):
通常记为 b,直线的 y 轴的截距为直线通过 y 轴时与 y 轴交点的数值。
直线的公式为 y = mx + b。如果知道了 m 和 b 的值,将 y 或 x 的值代入公式就可计算出直线上的任意一点。
斜率:
=INDEX(LINEST(known_y's,known_x's),1)
Y 轴截距:
=INDEX(LINEST(known_y's,known_x's),2)
如果您将示例复制到空白工作表中,可能会更易于理解该示例。
示例 1 斜率和 Y 轴截距
A | B | |
---|---|---|
1 | 已知 y | 已知 x |
2 | 1 | 0 |
3 | 9 | 4 |
4 | 5 | 2 |
5 | 6 | 3 |
公式 | 说明(结果) | |
=LINEST(A2:A5,B2:B5,,FALSE) | 返回斜率 (2) | |
=INDEX(LINEST(A2:A5,B2:B5,,FALSE),2) | 返回截距 (1) |
提示 示例中的公式也可以以数组公式输入。在将公式复制到一张空白工作表的A7单元格后,选择以公式单元格开始的区域 A7:B7。按 F2,再按 Ctrl+Shift+Enter。
示例 2 简单线性回归
A | B | |
---|---|---|
1 | 月 | 销售 |
2 | 1 | 3100 |
3 | 2 | 4500 |
4 | 3 | 4400 |
5 | 4 | 5400 |
6 | 5 | 7500 |
7 | 6 | 8100 |
公式 | 说明(结果) | |
=SUM(LINEST(B2:B7, A2:A7)*{9,1}) | 估算第 9 个月的销售值 (11000) |
通常,SUM({m,b}*{x,1}) 等于 mx + b,即给定 x 值的 y 的估计值。
示例 3 多重线性回归
假设有开发商正在考虑购买商业区里的一组小型办公楼。
开发商可以根据下列变量,采用多重线性回归的方法来估算给定地区内的办公楼的价值。
变量 | 代表 |
y | 办公楼的评估值 |
x1 | 底层面积(平方英尺) |
x2 | 办公室的个数 |
x3 | 入口个数 |
x4 | 办公楼的使用年数 |
本示例假设在自变量(x1、x2、x3 和 x4)和因变量 (y) 之间存在线性关系。其中 y 是办公楼的价值。
开发商从 1,500 个可选的办公楼里随机选择了 11 个办公楼作为样本,得到下列数据。“半个入口”指的是运输专用入口。
A | B | C | D | E | |
---|---|---|---|---|---|
1 | 底层面积 (x1) | 办公室的个数 (x2) | 入口个数 (x3) | 办公楼的使用年数 (x4) | 办公楼的评估值 (y) |
2 | 2310 | 2 | 2 | 20 | 142,000 |
3 | 2333 | 3 | 2 | 12 | 144,000 |
4 | 2356 | 4 | 1.5 | 33 | 151,000 |
5 | 2379 | 4 | 2 | 43 | 150,000 |
6 | 2402 | 2 | 3 | 53 | 139,000 |
7 | 2425 | 4 | 2 | 23 | 169,000 |
8 | 2448 | 2 | 1.5 | 99 | 126,000 |
9 | 2471 | 2 | 2 | 34 | 142,900 |
10 | 2494 | 3 | 3 | 23 | 163,000 |
11 | 2517 | 4 | 4 | 55 | 169,000 |
12 | 2540 | 2 | 3 | 22 | 149,000 |
公式 | |
=LINEST(E2:E12,A2:D12,TRUE,TRUE) |
注意 示例中的公式必须以数组公式输入。在将公式复制到一张空白工作表后,选择以公式单元格开始的区域 A14:E18。按 F2,再按 Ctrl+Shift+Enter。如果公式不是以数组公式输入,则返回单个结果值 -234.2371645。
当作为数组输入时,将返回下面的回归统计值,可用该值可识别所需的统计值。
多重回归公式,y = m1*x1 + m2*x2 + m3*x3 + m4*x4 + b,可通过第 14 行的值得到:
y = 27.64*x1 + 12,530*x2 + 2,553*x3+ 234.24*x4 + 52,318
现在,开发商用下面公式可得到办公楼的评估价值,其中面积为 2,500 平方英尺、3 个办公室、2 个入口,已使用 25 年:
y = 27.64*2500 + 12530*3 + 2553*2 - 234.24*25 + 52318 = $158,261
或者,可将下表复制到示例工作簿的单元格 A21。
底层面积 (x1) | 办公室的个数 (x2) | 入口个数 (x3) | 办公楼的使用年数 (x4) | 办公楼的评估值 (y) |
2500 | 3 | 2 | 25 | =D14*A22 + C14*B22 + B14*C22 + A14*D22 + E14 |
示例 4 使用 F 和 R2 统计
在上例中,判定系数(或 r2)为 0.99675(函数 LINEST 的输出单元格 A17 中的值),表明在自变量与销售价格之间存在很大的相关性。可以通过 F 统计来确定具有如此高的 r2 值的结果偶然发生的可能性。
假设事实上在变量间不存在相关性,但选用 11 个办公楼作为小样本进行统计分析却导致很强的相关性。术语“Alpha”表示得出这样的相关性结论错误的概率。
如果 F 观测统计值大于 F 临界值,表明变量间存在相关性。F 临界值可以从许多的统计类书籍的 F 统计临界值表中查到。如果一项单尾实验的 Alpha 值为 0.05,自由度(在大多数表中缩写成 v1 和 v2)v1 = k = 4,v2 = N - (k + 1) = 11 - (4 + 1) = 6,其中 k 是回归分析中的变量个数,n 是数据点的个数。F 临界值为 4.53。
F 观测值为 459.753674(单元格 A18 中),远大于 F 临界值 4.53。因此回归公式可用来对该地区的办公楼进行评估。
示例 5 计算 T 统计
另一个假设检验可以检验示例中的每个斜率系数是否可以用来估算示例 3 中的办公楼的评估价值。例如,如果要检验年数系数的统计显著水平,用 13.268(单元格 A15 里的年数系数的估算标准误差)去除 -234.24(年数斜率系数)。下面是 T 观察值:
t = m4 ÷ se4 = -234.24 ÷ 13.268 = -17.7
如果查阅统计手册里的表格,将会发现:单尾、自由度为 6、Alpha = 0.05 的 t 临界值为 1.94。既然 t 的绝对值为 17.7,大于 1.94,则年数对于估算办公楼的评估价值来说是一个显著变量。用同样方法,可以测试自变量的统计显著水平。下面是每个自变量的 t 观察值。
变量 | t 观察值 |
底层面积 | 5.1 |
办公室个数 | 31.3 |
入口个数 | 4.8 |
使用年数 | 17.7 |
这些值的绝对值都大于 1.94。因此,回归公式的所有变量都可用来估算区域内的办公楼的评估价值。
相关功能