機械学習からディープラーニングが大きく発展するきっかけにもなった
今回から、GoogleのTensorFlowなどのツールを使ってみます。
このあたりのツールを使うにあたっては、学習のために大量のデータを
取り扱う必要があるため、データを整理する関数等も
色々ありますね。
サンプルで、気象庁から気温のデータを読み込んでみます。
以下からダウンロードができます。
http://www.data.jma.go.jp/gmd/risk/obsdl/index.php
ダウンロードしたCSVファイルは、頭にヘッダーとして、
ダウンロードした日付や列の説明の行がついてます。
そのままだと、データを利用するのに適さないので、
編集することになりますが、Excelなどを使わなくても、
pandasを使えば、簡単に必要データのみを抽出することができます。
CSVからデータ用にファイルを読み込む場合、以下のようになります。
# CSVから読み込み(日付をインデックスで日付型、ヘッダーの6行を読み飛ばす) df = pd.read_csv('data.csv', index_col=0, parse_dates=True, skiprows=6, encoding='shift_jis', header=None) # 不要な列を削除 df = df.drop([2, 3, 5, 6, 8, 9], axis=1) # 列名を設定 df.columns = [ 'avg_temp', # 平均気温 'max_temp', # 最高気温 'min_temp' # 最低 ] print(df.head()) # 最初の5行を表示 return df
これを実行すると、こんなイメージ
シェルパラボ(システム開発・ソフトウェア作成業務請負)
https://www.chomolungma.biz/
0 件のコメント:
コメントを投稿