1000倍！ClickHouse存储A股数据实践-新资讯

本题目:1000倍!ClickHouse存储A股数据理论
做者:量化投资取机械进修大众号独家撰写
媒介
量化回测，苦于MySQL暂矣，特殊是停止股票日内果子构建剖析或齐市场果子测试的时分，每当按下回车时，MySQL便跟拾了魂一样，查询费时，年夜吞吐量读与也十分耗时.固然MySQL的劣化本领充足写一本书，但那些皆需求交给专业的DB工程师来做，量化挨工人出有才能更出偶然间捣腾那些.那有无省时省力，下效存储股票止情数据的处理方法呢.带着那个成绩，编纂部复杂的搜刮了一下，整体分为几个计划:
1.用两进造文件分日期分股票存储，比方HDF5.
2.运用SQL Server等撑持分区表的事件型数据库.
3.运用hive如许的离线数据堆栈.
4.用Greenplum等开源或贸易MPP数据堆栈.
5.InfluxDB, Kdb 战Clickhouse等开源或商用的专业时序数据库.
以上年夜局部手艺整体看去便是三个挑选:
1.存文件:最愚瓜的便是存csv文件，但需求脚撸一个文件治理零碎，后绝保护也费事.
2.经常使用数据库:MySQL或Mongo，那也是大师一样平常正在用的，好欠好专心里皆清晰.
3.专业时序数据库:贸易的KDB，鼎鼎年夜名，但一个字:贵.开源的InfluxDB，Clikhouse（欣喜连连）.
为何挑选Clickhouse?
实在正在2017年，量化投资取机械进修大众号便特地写了2篇文章引见了 Clickhouse，能够正在事先，社区借不敷完美战活泼，大师对 Clickhouse的认知度借不敷，可是我们不断感觉 Clickhouse是个好兵器!
ClickHouse:一款合适于构建量化回测研讨零碎的下功能列式数据库（一） 2017-07-27
ClickHouse:一款合适于构建量化回测研讨零碎的下功能列式数据库（两） 2017-07-28
为何Clickhouse合适且特殊合适量化研讨回测的场景，答复那个题，我们能够先理解几个观点.
OLAP VS OLTP
OLAP是联机剖析处置的简称，浅显的讲， OLAP的场景偏重对少量的数据停止多维度的剖析.数据批量导进后，剖析师需求对数据停止重复剖析，继续测试.数据读与的次数要近多于写进次数.OLTP是联机事件处置的简称，凡是是针对某一项大事务对数据停止不时的删编削查，比方正在线购物.买卖便是典范的OLTP场景.

很分明，量化研讨回测便是一个典范的OLAP场景，起首我们需求疾速的导进少量的汗青数据，然后我们需求对少量的汗青数据停止读与剖析. Clickhouse等专业的时序数据库便是为了知足OLAP的场景.而传统的干系型数据库次要里背OLTP的场景.
止式存储VS列式存储
取传统干系型数据库的止式存储分歧的是， Clickhouse接纳列式存储，比拟于止式存储，列式存储正在剖析场景下有着很多优秀的特征.

剖析场景中常常需求读少量止可是多数几个列.外行存形式下，数据按止延续存储，没有介入计较的列正在IO时也要全数读出，读与工夫严峻超时.而列存形式下，只需求读与介入计较的列便可，极年夜减速了查询.

统一列中的数据属于统一范例，节流了少量的存储空间，低落了存储本钱,从磁盘中读与响应数据耗时更短.

以是列式存储绝对于止式存储的长处总结起去:查得快，读的快.

用Clickhouse存储A股止情数据
装置
参考民圆文档，没有撑持Windows，如正在CentOS的装置（小编的效劳器是CentOS7.0），只需正在号令止施行以下代码:
sudo yum installyum-utils
sudo rpm –import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager –add-repo https://repo.clickhouse.tech/rpm/clickhouse.repo
sudo yum installclickhouse- serverclickhouse- client
sudo systemctl startclickhouse-sever
操纵
装置完以后，clickhouse会默许创立用户名为default，且暗码为空的用户.关于clickhouse的操纵能够经过以下几种体例:
1.clickhouse-client客户端
正在号令止输出clickhouse-client，默许运用default账户衔接localhost效劳器

2.mysql客户端
也能够经过mysql的客户端衔接clickhouse数据库，正在号令止施行以下代码:
mysql –protocol tcp -u default -P 9004

3.GUI的客户端:DBeaver, Pycharm专业版也能够衔接Clickhouse（引荐）:

导进数据
股票日度止情数据存ClickHouse表设想

只存储股票上市时期的价钱数据（年夜于即是上市日期，小于退市日期）
上市时期每一个买卖日皆存，假如出买卖，则价钱成交量及成交金额等皆存为-1（-1代表空值）.

*空值会影响服从，以是存储时把空值转换为-1

正在清算止情数据的时分也碰到了良多意念没有到的状况，比方久停上市的股票每周五借呈现有成交的止情数据.有些退市的股票纷歧定会有ST的形态，比方狂风影音间接从一般买卖转为待退市股票，并出有ST.量化第一步数据浑洗，固然耗时，但也是对本人担任.

建库
能够间接正在clickhouse-client施行以下语句，创立stock_data数据库:
CREATEDATABASEstock_data
建表
建库完了便是建表，只要数据表睹好了才干往内外导进数据:
CREATETABLEstock_data.stock_daily_price
( `trade_date`Date,
`sec_code`UInt32,
`open`Int32,
`high`Int32,
`low`In体育t32,
`close`Int32,
`volume`Int64,
`amount`Int64,
`adjfactor`Int32,
`st_status`Int16,
`trade_status`Int16
) ENGINE= ReplacingMergeTree
ORDERBY(intHash32(sec_code), trade_date)
阐明

默许皆长短空，假如答应空，则运用Nullable(Int32)的字段范例声明.
留意:amount战volume设置为Int64，避免数据超规模.
ENGINE是表引擎，默许运用MergeTree，那里运用ReplacingMergeTree是为了避免反复值.
ORDER BY暗示对某几列数据停止排序，比方那里对股票代码战日期停止排序，ORDER BY的列也会被设置为索引.

导进数据
我们运用python读与csv并停止数据浑洗后，正在存进clickhouse中，以是需求用python衔接clickhouse，有以下两种办法:

clickhouse-driver:次要用于操纵数据库，而没有是读写数据.假如用于读与数据，获得的数据借需求停止范例的转换，没有如间接用pandahouse去的便利.
pandahouse:相似pandas的to_sql战read_sql，能够将clickhouse的数据间接读与为Dataframe

数据范例为Decimal时，pandahouse会呈现非常报错，缘由萌宠是因为pandahouse外面出有对Decimal的数据范例做响应的转换，能够正在源文件做以下修正:
# conver.py

比照
编纂部一共正在数据库里存进了4300只股票一切的汗青止情，一共1100多万止，固然出有做严厉的速率测试，但对以下复杂查询语句正在统一机械的MySQL战Clickhouse停止了比照.
MySQL 2620ms VS Clickhouse 10ms
SELECT COUNT(sec_code) FROM stock_daily_price;
MySQL 725ms VS Clickhouse 18ms
SELECT COUNT(distinct (sec_code)) FROM stock_daily_price;
MySQL 10ms VS Clickhouse2.2ms
SELECT * FROM stock_daily_price WHERE sec_code= ‘600000.SZ’LIMIT 10;
量化研讨，特殊是多果子测试，常常需求获得上千只股票，分歧日期的价钱数据，以是我们正在Python中间接衔接数据库与数据，读与 1000只股票2017年-2020年的止情数据（皆运用in操纵符），此中:
Clickhouse用时: 132ms
MySQL用时 :145秒
Clickhouse的速率是MySQL的1000倍!
量化投资取机械进修微疑大众号，是业内垂曲于量化投资.对冲基金.Fintech.野生智能.年夜数据等范畴的支流自媒体.大众号具有去自公募.公募.券商.期货.银止.保险.下校等止业20W 存眷者，延续2年被腾讯云社区评比为”年度最好做者”.前往new.jpwyj.com，检查更多

未经允许不得转载：新资讯 » 1000倍！ClickHouse存储A股数据实践

1000倍！ClickHouse存储A股数据实践

相关推荐

评论 0

评论前必须登录！