永不过时的

引言

能源公司 1

领会,数据挖掘算法并非十全十美,在一些情形下她们也会失灵。 使用 K
均值算法(K-Means)时就可能会冒出那种景观,当然此时你可以品尝一下另一种办法——
K 宗旨聚类算法(K-Medoids),也许效果会更好。

在该网站此前的篇章《揭开机器学习的面纱》中,已经提出, K
均值算法用于聚类时效劳甚佳,而且在数额挖掘和机械学习园地,它也不无至关紧要的地方。Psanchezcri
就曾在她的小说《将 K 均值方法用于金融时序回报率聚类》中,将 K
均值算法用于分析经济时间序列的动向。

不过,纵然在网络上关于算法的文档浩如烟海的情状下,关于机器学习算法有时会失效的啄磨却并不多见。

故而,本文借由一个金融案例来浮现那几个题材。

思路

1)首先,大家在亚洲斯托(Stowe)克600指数的成份股中拔取三组共6只股票(在七个例外的部门中各选三只):

  • 金融部门:
    能源公司,  西班牙(Reino de España)沈阳比斯开银行 & 桑坦德银行
  • 非必需消费品:
      法兰西酩悦·百事吉(bisquit prvivilege)-路易·威登 & 古驰
  • 能源部门:
      英帝国石油集团 & 锡尼什港能源公司

2)搜集数据,并绘出在2013/01/01至2015/12/31中间那四只股票的价钱走势曲线。如下所示:

能源公司 2

3)采取日回报率作为总计目标,大家算出三组股票序列的相干距离。然后通过距离矩阵降维的法子,在二维欧氏空间中绘出每个点。

结果呈现那八只股票可以按机关展开分拣效果鲜明。下图以肉色菱形点、粉色正方形点、黑色圆点来标记七只股票,显然可以按机关分成三类:

能源公司 3

4)最后,大家将 K 均值算法运用于距离矩阵,聚类目的预先设定分成3类。由于
K
均值算法是从随机点起头的,每一遍运行结果也许截然不一致,本文大家先行设定运行那一个算法15次,即发生15个结果。当然,大家期望赢得聚类结果符合股票所属单位的骨子里情状。

结论

1)在约80%的聚类结果中,K
均值聚类算法取得了卓越的结果,聚类结果与这七只股票所属单位相符,如下图所示:

能源公司 4

2)在多余的20%的聚类结果中,算法则产出了聚类的谬误。例如,下图中错将三个不等机构的七只股票聚为一类(图中绿色菱形点和肉色正方形点),而将一如既往单位的多只股票分为两类(图中革命圆点):

能源公司 5

一旦我们采取与之思想相近的 K
主旨聚类算法,结果则可以高达100%的不错聚类率。那注明在聚类时,就像采纳重心会比用均值来衡量距离,效果更好。

能源公司 6

初稿链接:
http://quantdare.com/2016/04/k-means-vs-k-medoids/
原文作者:Fjrodriguez2
译者:Vector

网站地图xml地图