pandasでデータを読み込んで色々手を加えたデータフレームをpickleファイルとして保存(ダンプ)する方法を書く。
毎回 jupyter-notebookを開いたときに最初から実行せずに、保存しておいた編集済みのpickleファイルを読み込むことで、かなりの時短になる。
サンプルデータフレームの作成
まずはサンプルのために簡単なデータフレームを作成する。
import pandas as pd import joblib df = pd.DataFrame([[1,2,3],[4,5,6]],['a','b'])
dfは以下のようになる。
0 | 1 | 2 | |
---|---|---|---|
a | 1 | 2 | 3 |
b | 4 | 5 | 6 |
データフレームの保存
joblib.dump(df, './sample.pkl')
joblib.dumpという関数を利用して、データフレームをファイルとして保存できる。 上記の場合、.pyファイルを実行、もしくはjupyter-notebookを起動したカレントディレクトリにファイルが保存される。
データフレームの読み込み
df2 = joblib.load('./sample.pkl')
df == df2
joblib.loadという関数を使うことで、ファイルの中身をデータフレームに格納できる。 結果は以下のように表示されるはず。
0 | 1 | 2 | |
---|---|---|---|
a | True | True | True |
b | True | True | True |