通达信行情数据获取--python_利用 Python 获取余额宝历史收益数据

大家好，我是讯享网，很高兴认识大家。

最近想做一个关于用一些指数基金与余额宝组成的简单风险-无风险投资组合的实验计算，发现通达信之类的行情软件并没有提供完整的余额宝收益信息，如通达信仅有年化收益率的数据，并没有万份收益的数据。因此考虑利用 Python 做一个小的爬虫程序获取相关数据。

数据来源

简单的搜索了一下，发现网上推荐的网站多数指向一个叫理财收益网的网站，这里的较为详细的数据，不过这个网站的数据仅仅提供到2016年的12月底，17年的1月到2月并没有，所以不怎么符合条件。

然后再看了一下天天基金网，进入余额宝页面，在走势图旁边有一个历史收益的栏目，点击进去，可以看到有历史净值的数据，而且数据从 2013-5-30 到最近一天的数据，这里的数据比较适合，因此就选择从这里爬取数据。

网页分析

在编写爬虫程序之前，我们先分析一下这个网页。

9974774cbee2
讯享网

Paste_Image.png

我们可以看到，这张表格下面有一个分页栏，点击下面的页数切换数据。到这里，一般思路是先看看能不能找到这个网页的数据更新的 api，如果有，就可以直接通过拼接 url 传入参数来获取数据，如果不能的话，那可以考虑使用 selenium 之类的工具模拟点击实现。

我们先用 chrome 浏览器自带的开发者工具，尝试是否能够获取的数据更新的 api 。比较幸运，这个网站是可以获取到更新数据的 url 的。url 如下：

http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=000198&page=1&per=20

然后这个 url 的返回值如下：

var apidata=

{ content:"

净值日期	每万份收益	7日年化收益率（%）	申购状态	赎回状态
2017-03-17	1.0213	3.7480%	开放申购	开放赎回
2017-03-16	1.0147	3.7360%	开放申购	开放赎回
2017-03-15	1.0082	3.7230%	开放申购	开放赎回
2017-03-14	1.0066	3.7120%	开放申购	开放赎回
2017-03-13	1.0191	3.6990%	开放申购	开放赎回
2017-03-12	0.9931	3.6830%	开放申购	开放赎回
2017-03-11	0.9934	3.6740%	开放申购	开放赎回
2017-03-10	0.9998	3.6660%	开放申购	开放赎回
2017-03-09	0.9904	3.6540%	开放申购	开放赎回
2017-03-08	0.9873	3.6500%	开放申购	开放赎回
2017-03-07	0.9836	3.6460%	开放申购	开放赎回
2017-03-06	0.9882	3.6460%	开放申购	开放赎回
2017-03-05	0.9775	3.6420%	开放申购	开放赎回
2017-03-04	0.9777	3.6440%	开放申购	开放赎回
2017-03-03	0.9786	3.6450%	开放申购	开放赎回
2017-03-02	0.9829	3.6500%	开放申购	开放赎回
2017-03-01	0.9804	3.6500%	开放申购	开放赎回
2017-02-28	0.9821	3.6510%	开放申购	开放赎回
2017-02-27	0.9814	3.6520%	开放申购	开放赎回
2017-02-26	0.9806	3.6520%	开放申购	开放赎回

,records:1386

,pages:70

,curpage:1};

我们可以通过返回数据得到总页数，然后通过更改 url 中的page参数，再解释 content 里面的内容就可以获取到我们想要的数据了。

Python 爬虫程序

有了上面的分析和思路，我们就可以开始编写程序了。我的 python 环境为基于 Anaconda2 的 python 2.7.12 版本，代码在 macOS Sierra 10.12.3 通过。

第一步，我们首先要拿到数据的总页数，这里有个小 Tips，这个获取数据的 url 可以不需要 per 参数，然后它的输出是默认一页10行，我在代码中为了让 url 更短小好看，因此就省略了 per 参数。

获取总记录，总页数，当前页面的代码如下：

def obtain_info_of_data(symbol):

response = requests.get('http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=' + str(symbol))

# return format: var apidata={...};

# filter the tag

content = str(response.text.encode('utf8')[13:-2])

content_split = content.split(',')

# obtain the info of data, curpage, pages, records

curpage = content_split[-1].split(':')[-1]

pages = content_split[-2].split(':')[-1]

records = content_split[-3].split(':')[-1]

return {'curpage': curpage, 'pages': pages, 'records': records}

在这段代码中，有几个地方需要稍微注意一下。首先这个返回值要注意编码的问题 (python2.7)，然后这个返回值的格式有点像 json 格式但其实它并不是，它的前面有一个 var apidata = 以及最后多了一个 ; 。我们可以选择把它整理成 json 的格式，然后再做处理，不过我这里直接把前面到 { 的内容切掉，然后后面把 } 后的内容切掉，这样就可以得到一个以 , 分割的字符串，我们通过 split 函数对 , 进行分割，这样既可方便的把返回的字符串截取成 4 个我们需要的部分，然后后面的处理就比较简单了。

拿到这个数据相关描述信息后，我们可以开始接着爬去数据了，相关代码如下：

def obtain_data(symbol, dict_data_info):

cur_pages = int(dict_data_info['pages'])

pages = dict_data_info['pages']

records = dict_data_info['records']

data_return = []

url = 'http://fund.eastmoney.com/f10/F10DataApi.aspx?type=lsjz&code=%s&page=%s'

for cp in range(int(pages), 0, -1):

response = requests.get(url % (symbol, str(cp)))

content = response.text.encode('utf8')[13:-2]

data = content.split(',')[0][10:-1]

data_soup = bs4.BeautifulSoup(data, 'lxml')

line_of_data = len(data_soup.select('table > tbody > tr'))

for i in range(line_of_data, 0, -1):

row_of_data = []

date = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(1)' % i)[0].text

earning_per_10k = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(2)' % i)[0].text

annualized_return = data_soup.select('table > tbody > tr:nth-of-type(%i) > td:nth-of-type(3)' % i)[0].text

row_of_data.append(date)

row_of_data.append(earning_per_10k)

row_of_data.append(annualized_return)

data_return.append(row_of_data)

print 'Finished %i' % cp

cur_pages -= 1

if cur_pages == 1 and len(data_return) != int(records):

print 'Data Missing..'

return pd.DataFrame(data_return)

这段代码主要分为两个部分，一个是遍历页面，另一个是在页面用遍历每一行的数据。这里我们用到了 BeautifulSoup 库来处理 HTML 的内容，然后在函数的最后添加了一个简单的数据完整性炎症，最后以 pandas DataFrame 的格式返回。

小结

这个获取余额宝历史收益数据的小爬虫其实并不难，只要耐心分析一个网站的结构，理顺思路就可以完成，不过代码到这里，其实并不是很完善。如果希望将这些数据更方便的用于量化交易以及其他的一些实验，还需要把 Dataframe 里面的数据再做一些处理，如万分收益率转为以1为单位的收益率可能更方便计算，然后年化收益率规整话，去掉那个百分号等。

以上代码已经上传的 Github，可以下载运行。

通达信行情数据获取--python_利用 Python 获取余额宝历史收益数据

相关推荐