huyutian

他強由他強，清風拂山崗；他橫由他橫，明月照大江。他自狠來他自惡，我自一口真氣足

:: 管理 ::

20 隨筆 :: 47 文章 :: 22 評論 :: 0 Trackbacks

HDF5格式非常適合保存層次化的結構數據集合。python下有pytable和h5py兩種接口方式支持存儲HDF5文件，pandas就支持直接讀寫pytable。保存數據量不太大（一般控制在2GB以內）的日線分鐘線數據用h5格式還是很方便的。pandas在讀取h5文件時，可以像數據庫一樣進行條件檢索。詳細資料可參考pandas.HDFStore的where參數。要使column可以在where語句中查詢，保存數據文件時需要增加index或者明確指定data_columns。但是指定過多的column為data_columns將會使得性能下降。
網上搜索后找到了關于pandas存儲HDF5文件性能優化的一些建議，原文在這里

1.不使用index，創建出來的HDF文件尺寸會小一些，速度也快一些。
2.通過store.create_table_index() 創建索引，對data_columns進行篩選時的速度沒有什么影響。
3.保存HDF時使用壓縮選項對數據的讀取速度影響很小，但是壓縮后，文件尺寸會顯著的變小。
使用pandas讀寫hdf5文件示例如下

#write
store=pd.HDFStore("./data/Minutes.h5","a", complevel=9, complib='zlib')
store.put("Year2015", dfMinutes, format="table", append=True, data_columns=['dt','code'])
# read
store=pd.HDFStore("./data/Minutes.h5","r")
store.select("Year2015", where=['dt<Timestamp("2015-01-07")','code=="000570"'])

posted on 2015-12-08 16:38 胡雨田閱讀(11937) 評論(0) 編輯收藏引用

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！



網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

huyutian

常用鏈接

留言簿(15)

隨筆檔案

文章分類

文章檔案

相冊

搜索

最新評論

閱讀排行榜

評論排行榜