2025年教材课本高中数学选择性必修第二册人教B版


注:目前有些书本章节名称可能整理的还不是很完善,但都是按照顺序排列的,请同学们按照顺序仔细查找。练习册 2025年教材课本高中数学选择性必修第二册人教B版 答案主要是用来给同学们做完题方便对答案用的,请勿直接抄袭。



2. 回归直线方程
我们已经知道,线性相关的两个变量之间的关系可以用一次函数来近似刻画,那么怎样找出对应函数的表达式呢?这就是接下来要讨论的问题.
尝试与发现
某地区从某一年开始进行了环境污染整治,得到了如下数据:
|第x年|1|2|3|4|5|6|7|
|----|----|----|----|----|----|----|----|
|污染指数y|6.1|5.2|4.5|4.7|3.8|3.4|3.1|

(1)作出这些成对数据的散点图,直观地判断污染指数y与x是否线性相关.如果是,进一步判断是正相关还是负相关.
(2)在知道y与x线性相关的前提下,你能找出近似描述y与x之间关系的一次函数表达式吗?根据所得到的关系式,你能估计出该地区第8年的污染指数吗?
根据尝试与发现中的数据,可作出散点图如图4−3−2所示. 可以看出,y与x之间的关系可近似地用一次函数表示,而且随着时间x的增加,污染指数y大致是减少的,因此y与x线性相关,而且是负相关.
 图432    图433

为了找出近似描述y与x之间关系的一次函数表达式,我们可先在图4−3−2中作出一条直线,使得成对数据构成的点分布在直线的附近. 例如,通过点(1,6)和(7,3)的直线就满足条件,如图4−3−3所示. 根据已知的两点就可以得出所要的函数表达式
$y = - 0.5x + 6.5$.
更进一步,代入x = 8,就能得到第8年污染指数的估计值y = 2.5.
当然,类似的直线我们可以找出很多条(从而也可以得到很多个一次函数表达式),现在这一条是不是“最好”的直线呢?用什么样的标准来衡量好还是不好呢?
注意到函数表达式$y = - 0.5x + 6.5$确定之后,我们不仅可以算出x = 8的值,而且还可以算出x = 1,2,3,…,7的值,也可以得到已知数据的实际值(也称为观测值)与预测值之间的误差(一般称为残差),如下表所示.
|第x年|1|2|3|4|5|6|7|
|----|----|----|----|----|----|----|----|
|污染指数y|6.1|5.2|4.5|4.7|3.8|3.4|3.1|
|预测值$-0.5x + 6.5$|6|5.5|5|4.5|4|3.5|3|
|误差|0.1|-0.3|-0.5|0.2|-0.2|-0.1|0.1|

这也可以用图4−3−4来表示,图中橙色的点就是预测值对应的点,误差的绝对值就是蓝色的点与相应的橙色的点之间的距离.
                 图434

统计学意义上“最好”的直线,指的是所有误差平方和最小的直线. 可以证明,对于上述污染指数与时间的数据,误差平方和最小的直线为
$\hat{y} = - 0.475x + 6.3$,
这称为y关于x的回归直线方程,其中$\hat{y}$读作“y估”,表示y的估计值. 根据这个方程,可以得到第8年的污染指数估计值为
$-0.475×8 + 6.3 = 2.5$.
一般地,已知变量x与y的n对成对数据$(x_i,y_i)$,$i = 1,2,3,\cdots,n$. 任意给定一个一次函数$y = bx + a$,对每一个已知的$x_i$,由直线方程可以得到一个估计值
$\hat{y}_i = bx_i + a$,
如果一次函数$\hat{y}=\hat{b}x+\hat{a}$能使残差平方和即
$(y_1 - \hat{y}_1)^2 + (y_2 - \hat{y}_2)^2 + \cdots + (y_n - \hat{y}_n)^2=\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2$
取得最小值,则
$\hat{y}=\hat{b}x+\hat{a}$
称为y关于x的回归直线方程(对应的直线称为回归直线). 因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.
可以证明,给定两个变量y与x的一组数据之后,回归直线方程$\hat{y}=\hat{b}x+\hat{a}$总是存在的______________________________,而且
$\hat{b}=\frac{\sum_{i = 1}^{n}(x_i - \overline{x})(y_i - \overline{y})}{\sum_{i = 1}^{n}(x_i - \overline{x})^2}=\frac{\sum_{i = 1}^{n}x_iy_i - n\overline{x}\overline{y}}{\sum_{i = 1}^{n}x_i^2 - n\overline{x}^2}$,
$\hat{a}=\overline{y}-\hat{b}\overline{x}$.
其中,$\hat{b}$称为回归系数. 它实际上也就是回归直线方程的斜率. 回归直线方程确定之后,就可用于预测.
需要注意的是,上述公式中,$\overline{x}$指的是$x_1$,$x_2$,$x_3$,…,$x_n$的平均数,即
$\overline{x}=\frac{1}{n}(x_1 + x_2 + \cdots + x_n)=\frac{1}{n}\sum_{i = 1}^{n}x_i$;
类似地,$\overline{y}$是$y_1$,$y_2$,$y_3$,…,$y_n$的平均数,即$\overline{y}=\frac{1}{n}\sum_{i = 1}^{n}y_i$. 另外,由计算公式可以看出,回归系数$\hat{b}$的计算并不容易,实际计算过程中,我们可以通过列表的方法逐步进行计算.
例如,对于上述尝试与发现中的数据来说,可以首先算得$\overline{x}=4$,$\overline{y}=4.4$,接着列表如下.
|x|1|2|3|4|5|6|7|
|----|----|----|----|----|----|----|----|
|y|6.1|5.2|4.5|4.7|3.8|3.4|3.1|
|$x - \overline{x}$|-3|-2|-1|0|1|2|3|
|$y - \overline{y}$|1.7|0.8|0.1|0.3|-0.6|-1|-1.3|
|$(x - \overline{x})(y - \overline{y})$|-5.1|-1.6|-0.1|0|-0.6|-2|-3.9|
|$(x - \overline{x})^2$|9|4|1|0|1|4|9|

从而可知
$\sum_{i = 1}^{7}(x_i - \overline{x})(y_i - \overline{y})=-5.1 - 1.6 - 0.1 + 0 - 0.6 - 2 - 3.9=-13.3$,
$\sum_{i = 1}^{7}(x_i - \overline{x})^2=9 + 4 + 1 + 0 + 1 + 4 + 9 = 28$.
因此
$\hat{b}=\frac{-13.3}{28}=-0.475$,$\hat{a}=4.4-(-0.475)×4 = 6.3$.
所以y关于x的回归直线方程为
$\hat{y}=-0.475x + 6.3$.

拓展阅读
“回归”一词的由来
《现代汉语词典(第7版)》中,“回归”的解释是“回到(原来的地方)”;地理学中,“回归线”是指地球赤道南北各$23^{\circ}26'$处的纬线,太阳直射点在南回归线与北回归线之间来回移动. 看了这些,你是不是感觉到回归直线方程中的“回归”与上面这些说法相差很大?
统计学中的“回归”一词,是统计学家高尔顿引入的. 早在19世纪80年代,高尔顿就开始了亲代与子代(即父母亲与子女)之间相似特征(身高、性格等)的研究. 他收集了一些亲代的身高x与子代的身高y的成对数据,并作出了散点图,发现y与x的关系可以借助一次函数来近似表示,而且总体上亲代的身高增加时,子代的身高也增加.
但是,高尔顿在研究过程中,发现了一个有趣的现象. 他收集的数据显示,总体上亲代的平均身高为68英寸(约为172.72 cm),子代的平均身高为69英寸,子代的平均身高比亲代的平均身高高1英寸(约为2.54 cm). 于是,一个自然的推想是:平均身高为63英寸的亲代,其子代的平均身高应约为64英寸;平均身高为72英寸的亲代,其子代的平均身高应约为73英寸. 但实际数据显示:平均身高为63英寸的亲代,其子代的平均身高为67英寸,增加量为4英寸;平均身高为72英寸的亲代,其子代的平均身高为71英寸,增加量为-1英寸. 也就是说,平均身高不同的亲代,其子代的平均身高增加量并不相等,但子代的平均身高有回归于中心(即总体平均值)的趋势.
正是由于这种现象的存在,高尔顿引入了“回归”一词. 虽然不是所有相关关系中都会发生类似的现象,但从那以后,“回归”就成了相关关系讨论中一个约定俗成的词了.
答案:

查看更多完整答案,请扫码查看

关闭