在scikit-learn中，回归模型的可视化评估是一个重要环节。
它帮助我们理解模型的性能，分析模型的预测能力，以及检查模型是否存在潜在的问题。
通过可视化评估，我们可以更直观地了解回归模型的效果，而不仅仅依赖于传统的评估指标。

1. 残差图

所谓残差，就是实际观测值与预测值之间的差值。

残差图是指以残差为纵坐标，以任何其他指定的量为横坐标的散点图。
如果残差图中描绘的点围绕残差等于0的直线上下随机散布，说明回归直线对原观测值的拟合情况良好。反之，则说明回归直线对原观测值的拟合不理想。

下面做一个简单的线性回归模型，然后绘制残差图。

from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import PredictionErrorDisplay

fig, ax = plt.subplots(1, 2)
fig.set_size_inches(10, 4)

X, y = make_regression(n_samples=100, n_features=1, noise=10)
ax[0].scatter(X[:, 0], y, marker="o")
ax[0].set_title("样本数据")

# 初始化最小二乘法线性模型
reg = LinearRegression()
# 训练模型
reg.fit(X, y)
y_pred = reg.predict(X)

ax[0].plot(X, y_pred, color="red")
display = PredictionErrorDisplay(y_true=y, y_pred=y_pred)
ax[1].set_title("残差图")
display.plot(ax=ax[1])

plt.show()

左边是随机生成的样本数据，其中的红线是训练之后拟合的线性模型。
右边是根据scikit-learn中提供的PredictionErrorDisplay模块生成的残差图。

2. 对比图

对比图将实际目标值与模型预测值进行对比，直观地展示模型的预测能力。
通常，我们希望看到实际值与预测值沿着一条\(y=x\)的直线分布，这意味着模型预测非常准确。

下面用一些混乱度高的样本，来看看对比图的效果。

from sklearn.datasets import make_regression
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import PredictionErrorDisplay

fig, ax = plt.subplots(1, 2)
fig.set_size_inches(12, 6)

# 混乱度高，noise=100
X, y = make_regression(n_samples=100, n_features=1, noise=100)
ax[0].scatter(X[:, 0], y, marker="o")
ax[0].set_title("样本数据")

# 初始化最小二乘法线性模型
reg = LinearRegression()
# 训练模型
reg.fit(X, y)
y_pred = reg.predict(X)

ax[0].plot(X, y_pred, color="red")
display = PredictionErrorDisplay(y_true=y, y_pred=y_pred)
ax[1].set_title("对比图")
display.plot(ax=ax[1], kind="actual_vs_predicted")

plt.show()

原始样本比较混乱，线性模型很难拟合，所以看对比图就可以发现，真实值和预测值差别很大。
越靠近对比图中间那个虚线的点，真实值和预测值越接近。

换一个混乱程度低的样本，再看看对比图的效果。

# 混乱度 noise=10，比如上面那个示例降10倍
# 上面代码只改这一行，其它部分代码不用改
X, y = make_regression(n_samples=100, n_features=1, noise=10)

从图中也可以看出，这次的模型拟合效果要好很多。

3. 总结

可视化的图形向我们传达了模型预测的准确性、线性假设的满足程度、误差项的独立性以及特征对预测的影响程度等信息，让我们对模型有更深入的了解。

通过图形化的方式，帮助我们更直观地理解回归模型的性能，发现模型潜在的问题，指导我们改进模型。
不过，可视化评估虽然直观，但并不能完全替代传统的量化评估指标。
两者应该相互补充，共同构成对回归模型性能的全面评价。

玄机博客

1.本站内容仅供参考，不作为任何法律依据。用户在使用本站内容时，应自行判断其真实性、准确性和完整性，并承担相应风险。

2.本站部分内容来源于互联网，仅用于交流学习研究知识，若侵犯了您的合法权益，请及时邮件或站内私信与本站联系，我们将尽快予以处理。

3.本文采用知识共享署名4.0国际许可协议 [BY-NC-SA] 进行授权

4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”您需知晓本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24个小时之内从您的电脑中彻底删除上述内容，否则后果均由用户承担责任；如果您访问和下载此文件，表示您同意只将此文件用于参考、学习而非其他用途，否则一切后果请您自行承担，如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。