SQL presto 時間型の変更まとめ

SQL presto 分析tips

型の種類 timestamp unixtime varchar date 型変換 bigint型のunixtime→人間にとって見やいvarchar型にする TD_TIME_FORMAT(x,'yyyy-MM-dd','JST') TD_TIME_FORMAT(1420038000 ,'yyyy-MM-dd','JST') -> 2015-01-01 [in] 1420093526 bigint(unixtime) [out] '…

2018-10-29

SQL presto bigint型のunixtimeから年月を取り出す方法

分析tips SQL presto

やりたいこと time = 1519822868 [bigint型のunixtime] から年月を取りだしたい方法 date_trunc('week',FROM_UNIXTIME(time)) 解説 bigint型のunixtime→ timestamp型 FROM_UNIXTIME(time) 年月だけ抜くには「月」で切り上げる date_trunc('month', x) ※x = …

2018-10-22

記事の自動タグ付け方法について

調べもの分析手法

記事の自動タグ付けがしたくて、事例を調べてみました！つまりどれが良さそう？ 1記事1タグなら：記事分類→分類ごとに出現頻度の高い単語をタグ付け 1記事nタグなら：本当は事例4のやり方が良さそう。ただBM25の使い方が理解できていない・・簡単にいうと…

2018-10-02

記事のメモ

増え続ける検索クエリをしっかり捉えて成果につなげるには？検索クエリ自動追加ツールの導入成功事例：ビズリーチ AdWords スクリプトで操作できる(複雑そうではないjsでかける) 検索クエリでimpしているもののうち、1週間で1件以上のCVが聞いているものだ…

2018-10-01

統計基礎用語おさらい（1）

参考参考 pythonで学ぶ新しい統計学の教科書（第一部～第二部）基本用語大枠記述統計：手持ちのデータを整理・把握する推測統計：未知のデータを推測する確率密度関数と確率質量関数確率質量関数：確率が計算結果として出てくる関数のこと（離散型の…

2018-08-23

多重共線性について調べたメモ

多重共線性とはモデル内の独立変数が他の独立変数と相関しているときに起こる状態多重共線性が起きると多重共線性があると、逆行列の計算の部分で、いわゆる「ゼロ割」（分母に0が来る）問題が発生 jojoshin.hatenablog.com 解決策まず相関行列で確認す…

2018-08-21

【pythonでの前処理】データの正規化、標準化する方法

データの正規化の方法単体?か、ベクトル単位によって大きく二通りある単体の場合：二種類あるデータの加算平均が0、分散が１になるように調整する（z-score noramalization(標準化)）データの最小値が0、最大値が1となるように調整する（min-max normali…

2018-07-04

python スクレイピング～タグの中のテキストと、リンクを取得する時～

スクレイピングして、タグの中身を取得する時の方法テキストのみ取得する時・findAll(text = True) で取得できる！ for news in contents: for anchor_text in news.findAll('a'): print(anchor_text.findAll(text=True)) #findAll(text=True) でテキスト…

2018-07-03

python pandasで欠損値を補完するとき　～平均、1次関数、決まった値～

python pandasで欠損値を補完するときのパターン列ごとの平均を入れる時隣り合った値の1次関数を入れる時決まった値を入れる時列ごとの平均を入れる時 df.fillna(df.mean().to_dict()) df.mean().to_dict() は列ラベルをキーに、平均値を値として持った…

2018-07-03

python pandasで欠損値を削除するとき　dropna()

df_log.dropna() 欠損値を1つでも含む行を削除 df_log.dropna(1) 欠損値を1つでも含む列を削除して返します。 df_log.dropna(subset=['Date', 'Product']) 欠損値の調べる範囲を指定することができる df_log.dropna(inplace=True) オプションを付けると、df_…

2018-06-19

Python スクレイピング findAll

findAll 使用例指定したURLをスクレイピングして、BeautifulSoupを用いてHTMLを取得した後にそのHTMLを分解してほしいデータを取ってくるときなどで使う指定したタグの中身を順に取得する soup = 取得したHTML for a in soup.findAll("table"): print(a) …

2018-06-18

ページャー「次へ」をクリックしてスクレイピングする方法 python

やりたいこと以下の上場企業のリストを取得したい。売上高：株式ランキング - Yahoo!ファイナンスページ下部にある「次へ」ボタンをクリックして全て取得したい。方法前提こういう状態のとき import time from bs4 import BeautifulSoup as bs import …

2018-05-29

pandas ilocで隣り合わない複数列を取得する方法

やりたいこと python pandas のDataFrameで、隣り合わせでない、飛んだ列を取得する df = pd.DataFrame( data=[[10, 5, 3, 1],[2, 4, 5, 2], [1, 3, 4, 2],[1, 5, 3, 4], [7, 6, 5, 4]]) たとえばこのdataframeの場合で1列目と、3列目~4列目のデータを取り出…

2018-05-29

2018/05/29　記事メモ

データ分析の記事 data.gunosy.io ユーザーの特定の行動をする確率の分布の密度比を利用して異常検知を置こうなう前提として分布には規則性があり、バグがあれば歪む密度比：TBD マーケの記事 US版メルカリのミッションは「モノを売ろうと思ったらメルカリ…

2018-05-28

2018/05/28　記事のメモ

データ活用事例の記事 Tokyo Editors Labに参加してきました - Gunosyデータ分析ブログニュースのテーマ×年代性別の分析目的：ユーザーの興味のある情報しか集まらない世界を脱するために、「ユーザーに対して幅広いニュースを読む事ができる環境・仕組み…

2018-01-28

where句とhaving句の実行順番の違い

実行順番 FROM → WHERE → GROUPBY → HAVING → SELECT → ORDERBY つまり GroupByでグルーピングする前に抽出するのがWhere句 GroupByでグルーピングした後に抽出するのがHaving句具体例「グレーパーカー」より売上額が高い商品の「名前」「商品の値段」「売…

けむブログ

データ分析に関する気付きや学びを記録するブログ

2018-01-01から1年間の記事一覧