【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享

  • 2023-01-05
  • John Dowson

11月17日,北京市丰台区市场监督管理局通过官方公众号发布民生领域“铁拳”典型案例,其中提到了“胖哥俩肉蟹煲”门店涉嫌使用过期变质食材案件。 案情显示,今年8月份,胖哥俩肉本站

【视频】K近邻KNN算法原理与R语言结合新冠疫情对股票价格预测|数据分享本站

  K-最近邻(K近邻)是一种用于回归和分类的监督学习算法。K近邻 试图通过计算测试数据与所有训练点之间的距离来预测测试数据的正确类别。然后选择最接近测试数据的K个点。K近邻算法计算测试数据属于K个训练数据的类的概率,并且选择概率最高的类。在回归的情况下,该值是“K”个选定训练点的平均值。

  假设有两个类别,A 和B,并且我们有一个新的数据点x1,那么这个数据点将位于这些类别中的哪一个。为了解决这类问题,我们需要一个K近邻算法。借助K近邻,我们可以轻松识别特定数据集的类别。考虑下图:

  接下来,我们将计算数据点之间的欧几里得距离。欧几里得距离是两点之间的距离,我们已经在几何学中研究过。可以计算为:

  Kvalue 表示最近邻的计数。我们必须计算测试点和训练过的标签点之间的距离。每次迭代更新距离度量的计算成本很高,这就是为什么 K近邻 是一种惰性学习算法。

  第一步是计算新点和每个训练点之间的距离。计算该距离有多种方法,其中最常见的方法是欧几里得、曼哈顿(用于连续)和汉明距离(用于分类)。

  本文的目标是使用各种预测模型分析Google股票数据集(查看文末了解数据获取方式)预测Google的未来股价,然后分析各种模型。

  预测算法是一种试图根据过去和现在的数据预测未来值的过程。提取并准备此历史数据点,来尝试预测数据集所选变量的未来值。在市场历史期间,一直有一种持续的兴趣试图分析其趋势,行为和随机反应。不断关注在实际发生之前先了解发生了什么,这促使我们继续进行这项研究。我们还将尝试并了解 COVID-19对股票价格的影响。

  我们使用Quantmod软件包获取了Google股票价格2015年1月1日到2020年4月24日的数据,用于我们的分析。为了分析COVID-19对Google股票价格的影响,我们从quantmod数据包中获取了两组数据。

  对于COVID-19之前的数据集,ADF测试给出的p值为 0.2093,该值大于0.05,因此说明时间序列数据 不是平稳的。

  对于COVID-19之后的数据集,ADF测试给出的p值为0.01974,该值 小于0.05,这说明时间序列数据是 平稳的。

  对于COVID-19之前的数据集,KPSS测试得出的p值为 0.01,该值小于0.05,因此说明时间序列数据 不是平稳的。

  对于COVID-19之后的数据集,KPSS测试给出的p值为 0.01,该值小于0.05,这说明时间序列数据 不是平稳的。

  从残差图中,我们可以确认残差的平均值为0,并且方差也为常数。对于滞后>

  0,ACF为0,而PACF也为0。

  因此,我们可以说残差表现得像白噪声,并得出结论:ARIMA(2,1,0)和ARIMA(1,1,1)模型很好地拟合了数据。或者,我们也可以使用Box-Ljung检验在0.05的显着性水平上进行检验残差是符合白噪声。

  在此,两个模型的p值均大于0.05。因此,在显着性水平为0.05的情况下,我们无法拒绝原假设,而得出的结论是残差遵循白噪声。这意味着该模型很好地拟合了数据。

本站  美联储9月货币政策会议拉开序幕,目前加息75基点已经被基本定价,隔夜美股三大指数平均跌幅1%左右

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186

评论留言

发表评论