本文探讨了基于机器学习算法的二手车估价模型构建过程,包括数据清洗、预处理、模型构建及结果分析。通过随机森林筛选关键变量并构建神经网络模型,实现高精度预测。同时,结合逐步回归分析探讨二手车交易的影响因素,发现顾客偏好与车辆特性密切相关。研究不仅提升了二手车估价的准确性,也为二手车市场策略制定提供了有力支持。
(一)数据清洗
本研究将训练集和验证集的数据合并,对全部数据简单清洗以便进行后续分析,具体操作步骤如下:
第一步,匿名变量处理
第二步,时间相关变量
第三步,变量筛选
(二)数据预处理
1.缺失值处理
我们使用SPSS软件对全部变量进行统计描述,本研究直接使用众数进行填。
2.离群值处理
首先,我们对二手车交易价格进行描述性分析,发现交易价格与其车辆各方面因素完全不符的异常离群值,给予剔除。
然后,本研究使用新车价和里程这两个明确与二手车交易价格相关的影响因素,计算库克(Cook)距离,用于诊断分析中是否存在异常数据。Cook距离越大说明从模型中排除个案之后,回归系数可能会发生越大的变化。
3.哑变量处理
哑变量,又称为虚拟变量(DummyVariables),它是人为虚设的变量,通常取值为通常取值为0或1。一般用来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量。本研究中将车辆颜色(众数=1,n=10)、国标码(众数=1,n=6)、国别(众数=779412)、厂商类型(众数=2)和燃油类型(众数=1,n=5)这5个变量转换为哑变量,以其各自的众数所代表的组别作为对照组。将哑变量引入预测模型,虽然使模型变得较为复杂,但可以更直观地反映出该自变量的不同属性对于二手车交易价格的影响,提高了模型的精确度和准确度。
4.归一化处理
归一化(normalization)是一种把数变为(0,1)之间的小数,即将有量纲的表达式,经过变换得到无量纲的表达式。本研究应用具体公式如下:
(三)预测模型构建
1.随机森林筛选变量
首先,我们构建500棵决策树,观察袋外误差的大小,所谓袋外误差是指在随机森林bagging法中可以发现每次约有1/3的样本不会出现在模型所采集的样本集合中,故没有参加决策树的建立,这些数据称为袋外数据,用于取代测试集误差估计方法,可用于模型的验证。这同时也体现了随机森林一个重要的优点,就是没有必要对它进行交叉验证或者用一个独立的测试集来获得误差的一个无偏估计。它可以在内部进行评估,也就是说在生成的过程中就可以对误差建立一个无偏估计。
然后,我们得到随机森林回归模型(Meanofsquaredresiduals:9.384635e-05,Varexplained:93.8%),对模型中重要变量进行筛选。本研究综合对准确性和异质性的进行考虑,选择%IncMSE和IncNodePurity值前10个变量,二者取并集。
2.神经网络构建
本文使用MATLABR2016a进行神经网络的构建,具体步骤如下:
(1)输入数据:训练输入数据(26×29983),预测数据(1×29983)。其中国别(country)、燃油类型(oiltype)、厂商类型(maketype)和国标码(carCode)以哑变量的形式纳入模型,因此输入变量个数变为22个。
(2)数据分组:训练集(trainingset)占比70%,验证集(validationset)占比15%、测试集(testset)占比15%。样本个按数分别为20995个、4499个和4499个。
(3)设定隐藏层:分别设定10层、20层和30层,选择最优模型。
(4)选择算法:本网络采用Levenberg–Marquardt算法进行训练,采用均方误差算法(MSE)计算误差。Levenberg-Marquardt方法,是非线性回归中回归参数最小二乘估计的一种估计方法,它将最速下降法和线性化方法加以综合。因为最速下降法适用于迭代的开始阶段参数估计值远离最优值的情况,通过两种方法结合起来可以较快地找到最优值。
开始训练网络,对网络的泛化能力检查标准,若连续6次训练误差无法降低,则结束训练任务。根据不同神经网络训练结果,本研究选择预测结果最好的隐藏层10层神经网络,此时的神经网络对各个数据集的拟合效果最优。接着,我们将选定的神经网络在训练过程中的误差、梯度、Mu因子和泛化能力等信息可视化,并且输出网络训练集、验证集、测试集回归的R值。R值代表着预测值与实际值之间的关系,该值越接近1说明效果越好。本研究根据回归检测结果,可以发现该神经网络训练效果较好,各个数据集R值都在0.97左右,其中全集综合R值为0.97245.
(四)预测结果
最后,我们保存神经网络为myNeuralNetworkFunction函数,将验证集的数据输入(26×29983),得到验证集二手车交易价格的归一化结果,其中负值结果直接转换为0处理。再根据归一化公式,计算真实的二手车交易价格。
(一)数据预处理
1.数据整合
首先,我们对交易周期数据进行简单清洗,增加交易结局(成交为2,下架为1)、交易周期(成交时间减去上架时间)和成交价格(成交车辆最后一次调整后的价格)。然后,我们结合前文处理的训练集数据,进行数据合并。最后,因本研究采用逐步回归法进行回归模型构建,而无序多分类变量(车辆颜色、国标码、国别、厂商类型和燃油类型)需要转换为哑变量,哑变量进入回归模型要求同时进入,同时退出。因此我们仅仅纳入里程、过户次数、载客人数、上牌时间、年款、排量、新车价、交易周期、成交价格和交易状态这些变量进行该问题的研究。
2.数据分组
首先,本研究剔除下架车辆,仅对交易成功的车辆进行分析。然后,对交易周期进行描述性统计,根据其中位数13天进行分组,交易周期小于13天为训练组,大于等于13天为验证组。最后,根据排量的大小来决定轿车级别:微型轿车的排量小于等于1.0L;普通级轿车的排量在1.0到1.6L范围内;中级轿车的排量在1.6—2.5L范围内;中高级轿车的排量在2.5到4.0L范围内;高级轿车的排量则大于4.0L。
(二)逐步回归分析
1.回归模型建立
逐步回归分析是一种从许多变量中选取最重要的变量,建立回归分析模型的方法。其具体操作步骤是一直边引入边剔除,直到既无新变量引人也无旧变量删除为止,从而建立最优的回归方程。本研究使用SPSS软件,采用逐步回归分析方法(条件:要输入的F的概率=0.1),对训练组中不同排量的车辆进行模型构建。根据线性回归模型的要求,我们还进行了共线性检查,要求方差膨胀因子(varianceinflationfactor,VIF:是自变量观察值之间共线性程度的数值,该值越大,共线性越严重)小于10。
对于多元线性回归模型,在对回归系数进行显著性检验之前,我们都应该对回归模型整体做显著性检验,这就是F检验。F值表示是模型中因变量和自变量之间的线性关系在总体上是否显著做出推断。本研究各个模型的方差分析结果如表6所示,显著性均小于0.05,可以认为因变量和自变量之间存在线性关系,回归方程是有使用价值的。在表5中,R表示拟合优度(goodnessoffit),用来衡量预测模型对观测值的拟合程度。该值越接近1,则说明预测模型拟合效果越好,越接近真实值。而且,调整后R²较调整前R²更精确,一般使用调整后的R²,来表示因变量的变化中有多大比重可以由自变量来解释。本研究结果表明,微型轿车预测回归模型的拟合效果最优(R²=0.8559),中高级轿车预测模型拟合效果相当较差(R²=0.7775)。
最后,根据自变量在各个模型中的显著性检验结果,当P>0.05时,该自变量在本模型中没有统计学意义,应当删除;当P
2.模型检验
本研究应用不同车型的回归方程,对验证集数据进行回归预测,得到预测价格与实际成交价格进行比对,以此来判断模型准确性。为此,我们使用SPSS,针对预测价格与实际成交价格构建包含拟合线的简单散点图。
但是,值得注意的是,我们发现预测值中存在负数。经过分析我们认为,多元线性回归的适用范围是由自变量的范围决定的,当预测个案的自变量超出训练集自变量取值范围时,线性回归模型不再适用。例如,在微型轿车回归模型中,训练集上牌时间范围是0.463年至11.953年,而在验证集中,车辆id=13516的个案上牌时间为12.290年超过自变量取值范围,已经不能用该回归方程预测可靠结果。因此,我们需要更多的样本量,扩充训练集,增大自变量的取值范围。多元线性回归模型中,包括很多自变量,影响因素众多,自变量取值问题只是其中之一,还需要进行更多更深入的研究。
(一)研究策略
经过上述分析后,本研究旨在通过对变量分析,来探索顾客更倾向于购买具有那些因素的二手车,进一步探索二手车交易影响因素,促进二手车交易的实现。我们使用SPSS软件,根据交易结局(成交为2,下架为1)结合多个变量(年款、过户次数、载客人数、车辆颜色、国标码、国别、厂商类型和燃油类型)进行分析。
(二)数据预处理
我们将年款、过户次数、载客人数转换为有序变量,由于后续分析中不能出现0,我们将过户0次定义为1,过户1次为定义为3,以此类推。过户次数、年款和载客人数在后续分析中之间按秩排序;车辆颜色、国标码、国别、厂商类型和燃油类型则定义为名义变量;交易结局就是本次研究的观察指标。最后,我们还是按照排量将车辆进行分组,分析客户购买不同车型车辆时所关注的主要因素。
(三)多维度偏好分析
多维偏好分析也称为“分类数据的主成分分析”,其分析的原理就是最优尺度变换和主成分分析思想的结合,实质上属于因子分析和主成分分析方法的扩展。主要用于分析客户对商品的偏好倾向。本次研究使用SPSS软件,应用降维中最优尺度方法进行多维偏好分析。将8个变量纳入模型当中,根据Alpha信度系数来判断模型的可信度检验。由下表可见,例如微型轿车模型中的alpha系数为91.8%,而且前两个维度累计共携带了63.521%的信息量,均说明分析结果可信。
以上内容由58汽车提供。如有任何买车、用车、养车、玩车相关问题,欢迎在下方表单填写您的信息,我们将第一时间与您联系,为您提供快捷、实用、全面的解决方案。
原创文章,作者:58汽车,如若转载,请注明出处:https://car.58.com/7173412/