QT_Test

【Return to Repositories】

本测试旨在重现一套比较简单且完备的量化框架

该框架基于现代投资组合理论，并应用主流的机器学习算法（SVM）进行分析

旨在初步形成一个量化投资的思路，辅助构建科学合理的投资策略

Anticipate Process

Preparation

SQL Queries
Initial Capital of Loopback Test (optional, default = 1 M)

Input

Stock Pool
Base Stock Index
Interval of Loopback Test
Windows of Preproession (optional, default = 365)
Windows of Loopback Trainning Test (optional, default = 90)
Windows of Loopack Portfolio (optional, default = year)
Change Frequency of Portfolio (optional, default =5)

Main Program


1
$ python Init_StockALL_Sp.py
2
$ python stock_index_pro.py
3
$ python main_pro.py

Output

Daily Trading Data in Stock Pool and Base Index
Result of SVM Model Evaluation
The Capital Situation during Loopback Test
The Stocks Holding in Last Loopback Test Day
Effect Index of Quantization
Visualization of Return and Withdrawal

Dependencies

测试使用的Python版本：3.6.8

测试使用的Anaconda版本：1.9.6

Installation or Upgrade for Tushare


xxxxxxxxxx
2
1
$ pip install tushare
2
$ pip install tushare --upgrade

Import Tushare


xxxxxxxxxx
1
1
import tushare as ts

tushare版本需大于1.2.10

Set Token


xxxxxxxxxx
1
1
ts.set_token('your token')

完成调取tushare数据凭证的设置，通常只需要设置一次

Initialize Pro API


xxxxxxxxxx
3
1
pro = ts.pro_api()
2
# 或者在初始化中直接设置token
3
pro = ts.pro_api('your token')

Main Data API


xxxxxxxxxx
3
1
pro.daily()       # 获取日K数据（未赋权）
2
pro.index_daily() # 获取指数行情
3
pro.trade_cal()   # 获取交易日历

Package

Time Handle


xxxxxxxxxx
1
1
import datetime

MySql Handle


xxxxxxxxxx
2
1
import pymysql.cursors
2
import sqlalchemy

Data Handle


xxxxxxxxxx
5
1
import numpy as np
2
import pandas as pd
3
from sklearn import svm
4
import pylab as *
5
import math

设计过程

数据采集预处理后建模

基于 Tushare 进行交易数据采集（股票，指数）
简单数据预处理，生成训练集
利用 SVM 算法进行建模，并预测涨跌情况，准备开发择时策略

模型评估和仓位管理

测试区间内评估指标的计算，包括：Precision，Recall，F1，Negative_Accuracy 等值
基于马科维茨理论的仓位管理分配，取 次最小的特征值和特征向量（最佳收益方向）

模拟交易测试及回测

模拟交易，包括：获取资金账户数据，执行买卖操作，更新持仓天数及买卖逻辑，更新资产表数据等
策略框架下，进行回测并计时（回测过程图示）
计算并返回量化策略评估指标，Return，Withdrawal，Sharp，Risk，IR 及 Tracking Error 等
对于Return，Withdrawal 的可视化展示

详细示例

获取数据并存储

股票行情

数据获取

$2010$ $1$ 个交易日）到最邻近交易日，股票池所有交易日的行情数据

注意更改 Init_StockALL_Sp.py 中的股票池


xxxxxxxxxx
3
1
# 设定需要获取数据的股票池, 比如与云计算、软件板块相关的标的
2
# 中兴通讯, 远光软件, 中国长城, 东方财富, 用友网络, 中科曙光, 中国软件, 浪潮信息, 宝信软件
3
stock_pool = ['000063.SZ', '002063.SZ', '000066.SZ', '300059.SZ', '600588.SH', '603019.SH', '600536.SH', '000977.SZ', '600845.SH']

如果对于股票代码，所属板块，上市状态，上市日期等情况不甚了解，可以优先查询股票的基本信息


xxxxxxxxxx
2
1
# 获取股票基本信息列表
2
data = pro.stock_basic()

存储至MySQL

部分示例

注意

对于使用 main_pro.pyInit_StockALL_Sp.py $Eig$ $5$

Init_StockALL_Sp.py $1000$ main_pro.py $5$ ，在 stock_info 表中会优先精简上述的 stock_all 表，既相当于从自己获取的数据库中，抓取回测所需股票池中的标的行情数据，这样会在一定程度上提高查询速度，示例不再赘述

指数行情

数据获取

$2010$ $1$ 个交易日）到最邻近交易日，参考指数所有交易日的行情数据

注意更改 stock_index_pro.py 中的基准指数

指数名称	赋予简称	交易所/Tushare编码
上证指数	SH	000001.SH
深圳成指	SZ	399001.SZ
上证50	SH50	000016.SH
沪深300	HS300	000300.SH or 399300.SZ
中证500	ZZ500	000905.SH or 399905.SZ
中小板指	ZX	399005.SZ
创业板	CY	399006.SZ

因为股票池中后续进行回测的股票两市均有，且市值相对较重，所以选择沪深 300 指数较为合理


xxxxxxxxxx
3
1
df = pro.index_daily(ts_code='000300.SH')
2
# 统一指数标注并删除原复杂指数代码标注
3
df['stock_code'] = 'HS300'

存储至MySQL

部分示例

利用SVM建模

单个SVM结果

从获取数据的特征，基于 SVM 做分类问题，来对于涨跌判断进行建模


x
1
from sklearn import svm
2
import DC
3
# DC是将原始行情数据划分成SVM训练的各项数据集的预处理类
4
5
dc = DC.data_collect(stock, start_date, end_date)
6
train = dc.data_train           # 训练集
7
target = dc.data_target         # 目标集
8
test_case = [dc.test_case]      # 测试集
9
model = svm.SVC()               # 建模
10
model.fit(train, target)        # 训练
11
ans2 = model.predict(test_case) # 预测

运行结果

SVM模型评价

有了单个 SVM 结果后，就可以通过遍历股票池中的标的，并对比 SVM 训练时，测试区间中的真实情况给予评价

机器学习常用评价指标公式如下

\begin{aligned} Acc (Precision) &= \frac{Tp(预测上涨且正确)}{Tp+Fp(预测上涨实际不上涨)} \\ Acc(Recall) &= \frac{Tp}{Tp+Fn(预测不上涨但实际上涨)} \\ F1 &=\begin{cases} \begin{array}{cc} 0, & Precision*Recall=0 \\ \frac{2*Precision*Recall}{Precision + Recall}, & else \end{array} \end{cases} \\ ACC\_Neg &=\frac{Tn(预测为不上涨且正确)}{Tn+Fn(预测为不上涨但实际上涨)} \end{aligned}

部分效果如下

再遍历所有回测区间内的交易日，来给出全部的预测情况及评价指标

$F1$ $1$ ，否则模型毫无意义

$F1$ 增大肯定不是坏事

$90\%$ $0$ 的情形

仓位管理

当然对于每一小段时间，我们还是需要从指标层面选择较强的标的来构建投资组合，这样在相同的收益率下，我们将承担更小的风险

$0$ ），并将特征向量中的正值线性归一化（理论上这一步会极大地降低收益），由于我们需要挖掘期望收益为正的策略，归一化可以增加我们的资金使用效率

现代投资组合理论的主要实现如下


xxxxxxxxxx
20
1
# 求协方差矩阵
2
cov = np.cov(np.array(list_return).T)
3
# 求特征值和其对应的特征向量
4
ans = np.linalg.eig(cov)
5
# 排序，特征向量中负数置0，非负数线性归一
6
ans_index = copy.copy(ans[0])
7
ans_index.sort()
8
resu = []
9
for k in range(len(ans_index)):
10
    con_temp = []
11
    con_temp.append(ans_index[k])
12
    content_temp1 = ans[1][np.argwhere(ans[0] == ans_index[k])[0][0]]
13
    content_temp2 = []
14
    content_sum = np.array([x for x in content_temp1 if x >= 0.00]).sum()
15
    for m in range(len(content_temp1)):
16
        if content_temp1[m] >= 0 and content_sum > 0:
17
            content_temp2.append(content_temp1[m] / content_sum)
18
        else:
19
            content_temp2.append(0.00)
20
    con_temp.append(content_temp2)

$2019$ ，所以记得在第一步尽量剔除次新股）的 return list 传入上述代码来得到

在 Portfolio.py 中，可以返回最小和次小两套特征值和特征向量，分别对应在投资可行域中最小风险组合，以及最佳收益组合（风险稍稍提高，收益明显提高），如下图所示

在正式的回测中，我们选取最佳收益组合来作为投资的仓位管理依据

回测

回测准备

$2019-07-24 → 2019-08-23$ (对于日 K 策略，回测区间小于一个月意义不大）

股票池为，中国软件，中兴通讯，浪潮信息，用友网络，宝信软件


xxxxxxxxxx
1
1
stock_pool = ['600536.SH', '000063.SZ', '000977.SZ', '600588.SH', '600845.SH']

$1.5\%$
$2.5\%$
其他参数，如前所述，或采取默认值
回测时我们根据收盘价进行交易（假设在资金量不大时一定可以成交到模型中计划的数量）

回测过程

$5$ 个交易日

投资组合建仓 $r_{Buy}=0.05\%$ ）

$100$ $100$ $i$ $Position(Stock_i)$

并按照如下公式更新资产信息

\begin{aligned} Capital(Date) =&\ Capital(Date-1) \\ &- r_{Buy}\cdot\sum\limits_{i=1}^NClose\_Buy(Stock_i,Date)\cdot Position(Stock_i) \\ Money\_Lock(Date) =&\ Money\_Lock(Date-1) \\ &+ \sum\limits_{i=1}^NClose\_{Buy}(Stock_i,Date)\cdot Position(Stock_i) \\ Money\_Rest(Date) =&\ Money\_Rest(Date-1) \\ &- (1+r_{Buy})\cdot\sum\limits_{i=1}^NClose\_{Buy}(Stock_i,Date)\cdot Position(Stock_i) \end{aligned}


xxxxxxxxxx
3
1
new_capital = deal_buy.cur_capital - vol * buy_price * 0.0005
2
new_money_lock = deal_buy.cur_money_lock + vol * buy_price
3
new_money_rest = deal_buy.cur_money_rest - vol * buy_price * 1.0005

$r_{Sell}=0.16\%$ ，如果在一个投资组合内，某标的被策略卖出，则会全部卖出，不涉及部分卖出的情况）的择时策略，当持仓非空时，依次进行如下步骤：

推进至回测区间内的下一交易日，对于 2-5 发生的情形，按照如下公式更新相关资产情况

\begin{aligned} Money\_Lock(Date) =&\ Money\_Lock(Date-1) \\ &-\sum\limits_{i=1}^NClose\_Sell(Stock_i,Date)\cdot Position(Stock_i) \\ Money\_Rest(Date) =&\ Money\_Rest(Date-1) \\ &+(1-r_{Sell})\cdot\sum\limits_{i=1}^NClose\_{Sell}(Stock_i,Date)\cdot Position(Stock_i) \\ Profit(Date) =&\ \sum\limits_{i=1}^N\{(1-r_{Sell})\cdot Close\_Sell(Stock_i,Date) \\ &-(1-r_{Buy})\cdot Close\_{Buy}(Stock_i,Date)\}\cdot Position(Stock_i) \\ Capital(Date) &=Money\_Lock(Date)+Money\_Rest(Date) \end{aligned}


xxxxxxxxxx
5
1
new_money_lock = deal.cur_money_lock - sell_price * hold_vol
2
new_money_rest = deal.cur_money_rest + sell_price * hold_vol * 0.9984
3
new_capital = new_money_lock + new_money_rest
4
new_profit = (sell_price * 0.9984 - init_price * 1.0005) * hold_vol
5
new_profit_rate = sell_price * 0.9984 / (init_price * 1.0005)

$4\%$ 时，止盈平仓该标的（GOODSELL）
未有符合条件的执行或者全部执行完后下一步
$3\%$ 时，止损平仓该标的（BADSELL）
未有符合条件的执行或者全部执行完后下一步
$4$ 个交易日只拥有货币资金，则返回投资组合建仓板块
$4$ 个交易日还存在未平仓的标的
- 如果回测周期没结束，进行全部平仓处理（OVERTIMESELL），跳出平仓板块，返回投资组合建仓板块
- 如果回测周期全部结束，则进行最后一次资金跟新，并输出回测结果
未有符合条件的执行则下一步
$-1$ （下跌时），预判平仓该标的（PredictSELL）
未有符合条件的执行或者全部执行完后下一步
执行资金情况更新
返回第一步

回测过程的简要流程图

输出评价

$4$ 个经典评价量化策略的指标，分别是

收益率
回撤率
夏普率及风险
信息比率及跟踪误差

这样既可以对回测效果有很好的刻画，又会在一定程度上杜绝过拟合的情形

收益率

这是我们最关心的，相当于是回测区间内的收益效率衡量

$t$ 交易日的账户权益或者指数，收益率计算公式如下

R_t=\frac{P_t-P_0}{P_0},\qquad t=0,1,2,...,T


xxxxxxxxxx
13
1
def Cal_Return_Rate(seq, yd=250):
2
    seqn = len(seq)
3
    Return_Rate = (seq[-1] / seq[0]) - 1
4
    Annual_Rate = math.pow((seq[-1] / seq[0]), yd / seqn) - 1
5
    Return_List = []
6
    Base_V = seq[0]
7
    for i in range(seqn):
8
        if i == 0:
9
            Return_List.append(float(0.00))
10
        else:
11
            ri = (float(seq[i]) - float(Base_V))/float(Base_V)
12
            Return_List.append(ri)
13
    return Return_Rate, Annual_Rate, Return_List

最大回撤率

指在回测区间内内任一历史时点往后推，资产（指数）走到最低点时的收益率回撤幅度的最大值

最大回撤用来描述实行投资组合建仓后（指数）可能出现的最糟糕的情况

最大回撤是一个重要的风险指标，对于对冲基金和数量化策略交易，该指标比波动率还重要

$P_i$ $i$ $P_j$ $P_i$ 后面某一天的资产指数

$j$ 交易日以及整体的最大回撤率计算如下

max_{drawdown}(j)=\frac{\max(P_i-P_j)}{P_i},\qquad i=0,1,2,...,T\quad j>i

max_{drawdown}=\max\limits_j(max_{drawdown}(j))\qquad j=1,2,...,T


xxxxxxxxxx
9
1
def Cal_Withdrawal_Rate(seq):
2
    Wdl_Rate_List = []
3
    max_temp = 0
4
    for i in range(len(seq)):
5
        max_temp = max(max_temp, seq[i])
6
        Wdl_Rate = (max_temp - seq[i]) / max_temp
7
        Wdl_Rate_List.append(round(Wdl_Rate, 4))
8
    Max_Index = Wdl_Rate_List.index(max(Wdl_Rate_List))
9
    return max(Wdl_Rate_List), Max_Index, Wdl_Rate_List

夏普率及风险

夏普率代表投资组合（指数）对于波动风险的微分，既单位风险所获得的超额回报率（相当于无风险利率）

该比率越高，策略承担单位风险得到的超额回报率越高，公式为

Sharpe\_ratio= \frac{R_p-R_f}{\sigma_p}

$R_p$ $R_f$ $\sigma_p$ 为区间波动率

注意，在主流的策略效果对比时，还是需要统一到年化来比较


xxxxxxxxxx
7
1
def Cal_Sharp_Rate(seq, Rf=0.015, yd=250):
2
    seqn = len(seq)
3
    seq_return = Cal_Return_Rate(seq)
4
    norisk_return = Rf * seqn / yd
5
    Risk = float(np.array(seq_return[2]).std())
6
    Sharp_Rate = (seq_return[0] - norisk_return) / Risk
7
    return Sharp_Rate, Risk

信息比率及跟踪误差

跟踪误差：投资组合与基准指数收益率差值的波动风险

主动投资组合策略可能会拥有较大的跟踪误差

被动复制指数策略通常拥有较小的跟踪误差

信息比率：代表投资组合与基准指数收益率差值对于跟踪误差的微分

既单位跟踪误差所获得的超额回报率（相对于基准指数）

该比率越高，策略承担单位跟踪误差得到的超额回报率越高，公式为

Information\_ratio=\frac{R_p-R_m}{\sigma_t}

$R_p$ $R_f$ $\sigma_t$ 为策略与基准每日收益率差值的区间标准差

同样，在主流的策略效果对比时，还是需要统一到年化来比较


xxxxxxxxxx
6
1
def Cal_Info_Ratio(seq, seq_base):
2
    seq_return = Cal_Return_Rate(seq)
3
    seq_base_return = Cal_Return_Rate(seq_base)
4
    sigma = float((np.array(seq_return[2]) - np.array(seq_base_return[2])).std())
5
    ir = (seq_return[0] - seq_base_return[0]) / sigma
6
    return ir, sigma