这三种方法的准确率如下:
虽然以 0 为基准的整体准确率最高,但是从做多策略能赚钱的角度来说,猜涨准确率更加重要。在这方面,后两种基准似乎更有效。又因为较均值来说,中位数不受异常值的影响,因此最终我们选择以中位数为基准对样本加标签。
上述推导看似“合情合理”,但我们无意中又踏入了第二个错误:仅仅追求样本内分类的准确性。
特征向量矩阵和标签向量都准备好之后,就可以使用 SVM 进行有监督学习了。为了能够解释特征的重要性,我们采用线性核(linear kernel)。具体计算中,采用 python 的 scikit learn 扩展包中的 SVM 函数。采用线性核时,特征向量的权重代表了特征向量的重要性。这些特征向量的权重为:
从特征向量的权重来看,两个收益率变量和星期四哑变量的重要性和其他几个向量完全不是一个数量级。对于其他几个哑变量来说,星期一和星期二这两个哑变量的权重为正,说明它们对分到标签为 1 的类(即收益率大于中位数)有正贡献。
从上述结果中我们可以推断出,在这些特征向量中,星期一和星期二这两个哑变量对于“猜涨”(分到标签为 1 的类)最关键。这就是我们用机器学习得到的模式。