【量化投资】运用Python分析公募基金-轻识

运用Python分析公募基金

1、背景

学校财富管理课程的期末论文是分析中国各种投资标的的收益，笔者分配到的研究的细分类别为：通过大集合转公募基金的方式，成立的公募基金的收益分析。Python在量化投资，尤其是投资的分析、策略回测等方面有着广泛的运用，所以笔者结合在帅帅老师课程中学习的知识，运用Python对基金的收益进行分析。

2、数据来源

“巧妇难为无米之炊”，寻找高质量的数据是分析的第一步。本文的数据来自于Wind客户端。数据分为两个：

链接：https://pan.baidu.com/s/1JzJWxM9CyxTotldu5BjbjA 提取码：clki

3、数据分析

3.1 导入数据


def day_data(self):
    day_data = pd.read_csv(root_path+'/data/大集合转公募基金复权净值day.CSV', encoding='gbk')
    day_data.rename(columns={'Unnamed: 0': '交易日期'}, inplace=True)
    day_data['交易日期'] = pd.to_datetime(day_data['交易日期'])
    #day_rtn.set_index('交易日期', inplace=True)
    day_data.dropna(axis=1, how='any', inplace=True)
    return day_data

def index_day_data(self):
    index_day_rtn = pd.read_csv(root_path+'/data/中国基金加权指数day.csv',
                                 encoding='gbk')
    index_day_rtn.rename(columns={'Unnamed: 0': '交易日期'}, inplace=True)
    index_day_rtn['交易日期'] = pd.to_datetime(index_day_rtn['交易日期'])
    index_day_rtn['中国基金加权总指数'] = index_day_rtn['中国基金加权总指数'].pct_change()
    return index_day_rtn

在导入数据时，我们发现有许多缺失值，这是因为大部分大集合在2021年才转为公募基金，所以仅有几个月的收益。我们在此处采取最简单的数据清洗方式：将含有缺失值的基金删除。

这是整理后的数据：

3.2数据信息提取

观察数据，发现这些公募基金的名字既长又复杂，分析的时候一个一个输入名字肯定非常费时间。通过观察发现，这些基金的名字有个特点：基金名字的前两个或多个字，为基金公司的名字。如：海通的基金就命名为：海通量化价值精选一年持有B、海通海升六个月持有A等。

那么我们运用正则表达式，实现输入证券资管的名称，就得到其旗下的公募基金的名称。

def get_col_name(self):
    day_data = self.day_data()
    # 匹配正则表达式
    pattern = re.compile('^%s'% self.company)
    col_name = day_data.columns.tolist()
    choose_name = []
    for name in col_name:
        if pattern.match(name):
            choose_name.append(name)
    print(choose_name)
    return choose_name


def col_num(self):
    choose_name = self.get_col_name()
    num = len(choose_name)
    # print(num)
    return num

3.3 指数信息和基金信息按日期合并

def choose_data(self):
    choose_name = self.get_col_name()
    day_data = self.day_data()
    day_data = day_data[['交易日期', choose_name[self.fund_num]]]
    day_data[choose_name[self.fund_num]] = day_data[choose_name[self.fund_num]].pct_change()
    day_rtn = day_data
    # 和指数信息合并
    index_day_rtn = self.index_day_data()
    equity_day = pd.merge(day_rtn, index_day_rtn, on='交易日期', how='left' )
    equity_day.dropna(axis=0, how='any', inplace=True)
    equity_day.rename(columns={choose_name[self.fund_num]: '涨跌幅', '中国基金加权总指数': '指数涨跌幅'}, inplace=True)
    return equity_day

此处计算基金收益时运用了dataframe.pct_change()函数（Pandas dataframe.pct_change()函数计算当前元素与之前元素之间的百分比变化。默认情况下，此函数计算前一行的百分比变化）。

此处我们使用的是环比增长，假如想用对数收益率，则不可以使用dataframe.pct_change()函数。

3.4画收益率曲线

为了能够在以后的研究中，方便调用绘画收益率曲线的函数，我们新建一个专门存放自建函数的文档，将函数保存。

# ===绘制收益率曲线
# 绘制策略曲线
def draw_equity_curve(df, data_dict, time=None, pic_size=[16, 9], dpi=72, font_size=25, save_path='fig.jpg'):
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    # plt.style.use('dark_background')
    plt.figure(figsize=(pic_size[0], pic_size[1]), dpi=dpi)
    plt.xticks(fontsize=font_size)
    plt.yticks(fontsize=font_size)
    for key in data_dict:
        if time:
            plt.plot(df[time], df[data_dict[key]], label=key)
        else:
            plt.plot(df.index, df[data_dict[key]], label=key)
    plt.legend(fontsize=font_size)
    plt.grid()
    #plt.show(
    plt.savefig(save_path)

在主程序中调用绘画收益率曲线的函数：

def yield_curve(self):
    equity = self.choose_data()
    equity['equity_curve'] = (equity['涨跌幅'] + 1).cumprod()
    equity['benchmark'] = (equity['指数涨跌幅'] + 1).cumprod()
    equity = equity[['交易日期', 'equity_curve', 'benchmark', '涨跌幅', '指数涨跌幅']]
    return equity

def draw_curve(self, save_path = r'fig.jpg'):
    choose_name = self.get_col_name()
    equity = self.yield_curve()
    equity = equity.reset_index(drop=True)
    equity['交易日期'] = pd.to_datetime(equity['交易日期'])
    draw_equity_curve(equity, time='交易日期', data_dict={choose_name[self.fund_num]: 'equity_curve', '中国基金加权总指数': 'benchmark'},
                      save_path=save_path)

3.5 评价指标

对于基金的收益，仅仅看收益率曲线，获得的评价较为主观，要客观比较收益的好坏，还要借助指标，比如：年化收益率、最大回撤等，更加复杂的还有夏普比率、Jensen指数等，需要的评价指标加入一下自定义的函数strategy_evaluate（）即可。

# 计算策略评价指标
def strategy_evaluate(equity):

    # ===新建一个dataframe保存回测指标
    results = pd.DataFrame()

    # ===计算累积净值
    results.loc[0, '累积净值'] = round(equity['equity_curve'].iloc[-1], 2)

    # ===计算年化收益
    annual_return = (equity['equity_curve'].iloc[-1]) ** (
            '1 days 00:00:00' / (equity['交易日期'].iloc[-1] - equity['交易日期'].iloc[0]) * 365) - 1
    results.loc[0, '年化收益'] = str(round(annual_return * 100, 2)) + '%'
    # 计算当日之前的资金曲线的最高点
    equity['max2here'] = equity['equity_curve'].expanding().max()
    # 计算到历史最高值到当日的跌幅，drowdwon
    equity['dd2here'] = equity['equity_curve'] / equity['max2here'] - 1
    # 计算最大回撤，以及最大回撤结束时间
    end_date, max_draw_down = tuple(equity.sort_values(by=['dd2here']).iloc[0][['交易日期', 'dd2here']])
    # 计算最大回撤开始时间
    start_date = equity[equity['交易日期'] <= end_date].sort_values(by='equity_curve', ascending=False).iloc[0]['交易日期']
    # 将无关的变量删除
    equity.drop(['max2here', 'dd2here'], axis=1, inplace=True)
    results.loc[0, '最大回撤'] = format(max_draw_down, '.2%')
    results.loc[0, '最大回撤开始时间'] = str(start_date)
    results.loc[0, '最大回撤结束时间'] = str(end_date)

    return results.T

在主程序中调用业绩评价函数

def evaluate(self):
    equity = self.yield_curve()
    choose_name = self.get_col_name()
    # ===计算策略评价指标
    rtn_data= strategy_evaluate(equity)
    rtn_data.rename(columns={0: choose_name[self.fund_num]}, inplace=True)
    #print(rtn_data)
    return rtn_data

3.6运行程序

在运行程序前，要在目录里面建好保存收益率曲线和收益率评价的文件夹，如图所示：在company_name处输入基金公司的简称，num即返回基金公司下的基金数量，程序自动遍历其旗下基金，并将其收益曲线图存入chart，将其收益评价指标合并后存入sheet。

if __name__ == '__main__':
    company_name = '光大'
    analyse = Analyse(company=company_name, fund_num = 0)

    num = analyse.col_num()
    df_ret_analyse = pd.DataFrame()
    for i in range(num):
        name = analyse.get_col_name()[i]
        try:
            analyse = Analyse(company=company_name, fund_num=i)
            analyse.draw_curve(save_path = root_path + r'/result\chart/%s.jpg' % name)
            df = analyse.evaluate()
            df_ret_analyse = pd.concat([df_ret_analyse, df], axis=1)
        except:
            print(name + '数据错误')


    print(df_ret_analyse)
    df_ret_analyse.to_csv(root_path + f'/result\sheet\{company_name}retns.csv')

4、运行效果展示

在company_name处输入'光大'，查看光大资管的公募基金收益情况。运行后，收益率曲线已经全部保存至/result/chart点开其中一个查看：

收益指标则保存到了/result/sheet下：

5、完整代码

5.1 函数

import os
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np


# ===获取项目根目录
_ = os.path.abspath(os.path.dirname(__file__))  # 返回当前文件路径
root_path = os.path.abspath(os.path.join(_, '..'))  # 返回根目录文件夹

# ===绘制收益率曲线
# 绘制策略曲线
def draw_equity_curve(df, data_dict, time=None, pic_size=[16, 9], dpi=72, font_size=25, save_path='fig.jpg'):
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.rcParams['axes.unicode_minus'] = False
    # plt.style.use('dark_background')
    plt.figure(figsize=(pic_size[0], pic_size[1]), dpi=dpi)
    plt.xticks(fontsize=font_size)
    plt.yticks(fontsize=font_size)
    for key in data_dict:
        if time:
            plt.plot(df[time], df[data_dict[key]], label=key)
        else:
            plt.plot(df.index, df[data_dict[key]], label=key)
    plt.legend(fontsize=font_size)
    plt.grid()
    #plt.show(
    plt.savefig(save_path)


# 计算策略评价指标
def strategy_evaluate(equity):

    # ===新建一个dataframe保存回测指标
    results = pd.DataFrame()

    # ===计算累积净值
    results.loc[0, '累积净值'] = round(equity['equity_curve'].iloc[-1], 2)

    # ===计算年化收益
    annual_return = (equity['equity_curve'].iloc[-1]) ** (
            '1 days 00:00:00' / (equity['交易日期'].iloc[-1] - equity['交易日期'].iloc[0]) * 365) - 1
    results.loc[0, '年化收益'] = str(round(annual_return * 100, 2)) + '%'
    # 计算当日之前的资金曲线的最高点
    equity['max2here'] = equity['equity_curve'].expanding().max()
    # 计算到历史最高值到当日的跌幅，drowdwon
    equity['dd2here'] = equity['equity_curve'] / equity['max2here'] - 1
    # 计算最大回撤，以及最大回撤结束时间
    end_date, max_draw_down = tuple(equity.sort_values(by=['dd2here']).iloc[0][['交易日期', 'dd2here']])
    # 计算最大回撤开始时间
    start_date = equity[equity['交易日期'] <= end_date].sort_values(by='equity_curve', ascending=False).iloc[0]['交易日期']
    # 将无关的变量删除
    equity.drop(['max2here', 'dd2here'], axis=1, inplace=True)
    results.loc[0, '最大回撤'] = format(max_draw_down, '.2%')
    results.loc[0, '最大回撤开始时间'] = str(start_date)
    results.loc[0, '最大回撤结束时间'] = str(end_date)

    return results.T

5.2主程序

import pandas as pd
import re
from 基金收益分析.func.myfunc import *
class Analyse(object):
    def __init__(self, company='海通', fund_num = 0):
        self.company = company
        self.fund_num = fund_num
        pass

    def day_data(self):
        day_data = pd.read_csv(root_path+'/data/大集合转公募基金复权净值day.CSV', encoding='gbk')
        day_data.rename(columns={'Unnamed: 0': '交易日期'}, inplace=True)
        day_data['交易日期'] = pd.to_datetime(day_data['交易日期'])
        #day_rtn.set_index('交易日期', inplace=True)
        day_data.dropna(axis=1, how='any', inplace=True)
        return day_data

    def index_day_data(self):
        index_day_rtn = pd.read_csv(root_path+'/data/中国基金加权指数day.csv',
                                     encoding='gbk')
        index_day_rtn.rename(columns={'Unnamed: 0': '交易日期'}, inplace=True)
        index_day_rtn['交易日期'] = pd.to_datetime(index_day_rtn['交易日期'])
        index_day_rtn['中国基金加权总指数'] = index_day_rtn['中国基金加权总指数'].pct_change()
        return index_day_rtn

    def get_col_name(self):
        day_data = self.day_data()
        # 匹配正则表达式
        pattern = re.compile('^%s'% self.company)
        col_name = day_data.columns.tolist()
        choose_name = []
        for name in col_name:
            if pattern.match(name):
                choose_name.append(name)
        print(choose_name)
        return choose_name


    def col_num(self):
        choose_name = self.get_col_name()
        num = len(choose_name)
        # print(num)
        return num


    def choose_data(self):
        choose_name = self.get_col_name()
        day_data = self.day_data()
        day_data = day_data[['交易日期', choose_name[self.fund_num]]]
        day_data[choose_name[self.fund_num]] = day_data[choose_name[self.fund_num]].pct_change()
        day_rtn = day_data
        # 和指数信息合并
        index_day_rtn = self.index_day_data()
        equity_day = pd.merge(day_rtn, index_day_rtn, on='交易日期', how='left' )
        equity_day.dropna(axis=0, how='any', inplace=True)
        equity_day.rename(columns={choose_name[self.fund_num]: '涨跌幅', '中国基金加权总指数': '指数涨跌幅'}, inplace=True)
        return equity_day

    def yield_curve(self):
        equity = self.choose_data()
        equity['equity_curve'] = (equity['涨跌幅'] + 1).cumprod()
        equity['benchmark'] = (equity['指数涨跌幅'] + 1).cumprod()
        equity = equity[['交易日期', 'equity_curve', 'benchmark', '涨跌幅', '指数涨跌幅']]
        return equity

    def draw_curve(self, save_path = r'fig.jpg'):
        choose_name = self.get_col_name()
        equity = self.yield_curve()
        equity = equity.reset_index(drop=True)
        equity['交易日期'] = pd.to_datetime(equity['交易日期'])
        draw_equity_curve(equity, time='交易日期', data_dict={choose_name[self.fund_num]: 'equity_curve', '中国基金加权总指数': 'benchmark'},
                          save_path=save_path)

    def evaluate(self):
        equity = self.yield_curve()
        choose_name = self.get_col_name()
        # ===计算策略评价指标
        rtn_data= strategy_evaluate(equity)
        rtn_data.rename(columns={0: choose_name[self.fund_num]}, inplace=True)
        #print(rtn_data)
        return rtn_data

if __name__ == '__main__':
    company_name = '光大'
    analyse = Analyse(company=company_name, fund_num = 0)

    num = analyse.col_num()
    df_ret_analyse = pd.DataFrame()
    for i in range(num):
        name = analyse.get_col_name()[i]
        try:
            analyse = Analyse(company=company_name, fund_num=i)
            analyse.draw_curve(save_path = root_path + r'/result\chart/%s.jpg' % name)
            df = analyse.evaluate()
            df_ret_analyse = pd.concat([df_ret_analyse, df], axis=1)
        except:
            print(name + '数据错误')


    print(df_ret_analyse)
    df_ret_analyse.to_csv(root_path + f'/result\sheet\{company_name}retns.csv')

6、结语

此处的分析作为分析的一个框架，可以添加更多的有趣的研究内容，比如：对基金的收益数据可以计算其期望，方差，峰度，偏度等指标，对收益率也可以计算夏普比率等指标。可以更加深入的分析基金的收益的变动。

最后强烈推荐帅帅老师的python课程，科班程序员出生的帅帅老师，代码写的非常规范，初学者可以少走弯路。并且帅帅老师的答疑非常及时，仔细回复每个问题，笔者每次遇到网上查询不到答案的问题时，都会马上请教帅帅老师，节省了许多自己debug的时间！

总之，无论是初学者从头学习，还是老手查漏补缺，找一位专家答疑，帅帅的课程都物超所值。