機械学習からディープラーニングが大きく発展するきっかけにもなった
今回から、GoogleのTensorFlowなどのツールを使ってみます。
このあたりのツールを使うにあたっては、学習のために大量のデータを
取り扱う必要があるため、データを整理する関数等も
色々ありますね。
サンプルで、気象庁から気温のデータを読み込んでみます。
以下からダウンロードができます。
http://www.data.jma.go.jp/gmd/risk/obsdl/index.php
ダウンロードしたCSVファイルは、頭にヘッダーとして、
ダウンロードした日付や列の説明の行がついてます。
そのままだと、データを利用するのに適さないので、
編集することになりますが、Excelなどを使わなくても、
pandasを使えば、簡単に必要データのみを抽出することができます。
CSVからデータ用にファイルを読み込む場合、以下のようになります。
# CSVから読み込み(日付をインデックスで日付型、ヘッダーの6行を読み飛ばす)
df = pd.read_csv('data.csv', index_col=0, parse_dates=True,
skiprows=6, encoding='shift_jis', header=None)
# 不要な列を削除
df = df.drop([2, 3, 5, 6, 8, 9], axis=1)
# 列名を設定
df.columns = [
'avg_temp', # 平均気温
'max_temp', # 最高気温
'min_temp' # 最低
]
print(df.head()) # 最初の5行を表示
return df
これを実行すると、こんなイメージ
シェルパラボ(システム開発・ソフトウェア作成業務請負)
https://www.chomolungma.biz/


0 件のコメント:
コメントを投稿