データアナリストくんのblog

データアナリストとして働いている人がちょっと調べる内容をまとめるブログ

2023-03-01から1ヶ月間の記事一覧

Pandasで文字型の数値を数値型に強制変換する

import pandas as pd ### dfは任意のpd.DataFrame() ### colは変換させたいカラム df.col = pd.to_numeric(df.col, errors='coerce') .astype(int) でも変換できるが、欠損値が含まれている場合エラーが発生し変換が行われない。 to_numeric の errors を使…

GAデータをAthenaで操作する

会社のDBにメディアのGA(Goole Analytics)ログがあって操作するときに 色々と今までのデータとは毛色が違ったので忘れないように。 ※一般的なGAログがどのような形で格納されているか分からないので、あくまで知っている内容で書きます。 struct型でデータ…

AWS Athena(Presto)で時間処理

いつも時間処理系のクエリを忘れてしまうのでメモ。。。 Presto time関連のドキュメント 文字型からdatetime型 'YYYY-MM-DD' → DATE(time_col) 'YYYY-MM-DDTHH:mm:ss+zzzz' → from_iso8601_timestamp(time_col) 'YYYYMMDD' → DATE_PARSE(time_col, '%Y%m%d')…

サイズの大きいファイルをLinuxで表示

Linuxで大きいサイズのデータを探すコマンド find /home -size +100M | xargs ls -l 意味:/homeディレクトリ配下で100MB以上のデータを表示 上記だとデータサイズはキロバイトで表示されるのでMBやGBで表示したい場合は以下 find /home -size +1000M | xarg…