sagantaf

IT関連の技術記事を書くブログ。

pandas〜データフレームをpickleファイルとして保存し効率的に開発する

pandasでデータを読み込んで色々手を加えたデータフレームをpickleファイルとして保存(ダンプ)する方法を書く。

毎回 jupyter-notebookを開いたときに最初から実行せずに、保存しておいた編集済みのpickleファイルを読み込むことで、かなりの時短になる。



サンプルデータフレームの作成

まずはサンプルのために簡単なデータフレームを作成する。

import pandas as pd
import joblib

df = pd.DataFrame([[1,2,3],[4,5,6]],['a','b'])

dfは以下のようになる。

0 1 2
a 1 2 3
b 4 5 6



データフレームの保存

joblib.dump(df, './sample.pkl')

joblib.dumpという関数を利用して、データフレームをファイルとして保存できる。 上記の場合、.pyファイルを実行、もしくはjupyter-notebookを起動したカレントディレクトリにファイルが保存される。



データフレームの読み込み

df2 = joblib.load('./sample.pkl')

df == df2

joblib.loadという関数を使うことで、ファイルの中身をデータフレームに格納できる。 結果は以下のように表示されるはず。

0 1 2
a True True True
b True True True