けむブログ

データ分析に関する気付きや学びを記録するブログ

2018-01-01から1年間の記事一覧

SQL presto 時間型の変更まとめ

型の種類 timestamp unixtime varchar date 型変換 bigint型のunixtime→人間にとって見やいvarchar型にする TD_TIME_FORMAT(x,'yyyy-MM-dd','JST') TD_TIME_FORMAT(1420038000 ,'yyyy-MM-dd','JST') -> 2015-01-01 [in] 1420093526 bigint(unixtime) [out] '…

SQL presto bigint型のunixtimeから年月を取り出す方法

やりたいこと time = 1519822868 [bigint型のunixtime] から年月を取りだしたい 方法 date_trunc('week',FROM_UNIXTIME(time)) 解説 bigint型のunixtime→ timestamp型 FROM_UNIXTIME(time) 年月だけ抜くには「月」で切り上げる date_trunc('month', x) ※x = …

記事の自動タグ付け方法について

記事の自動タグ付けがしたくて、事例を調べてみました! つまりどれが良さそう? 1記事1タグなら:記事分類→分類ごとに出現頻度の高い単語をタグ付け 1記事nタグなら:本当は事例4のやり方が良さそう。ただBM25の使い方が理解できていない・・ 簡単にいうと…

記事のメモ

増え続ける検索クエリをしっかり捉えて成果につなげるには?検索クエリ自動追加ツールの導入成功 事例:ビズリーチ AdWords スクリプトで操作できる(複雑そうではないjsでかける) 検索クエリでimpしているもののうち、1週間で1件以上のCVが聞いているものだ…

統計基礎用語おさらい(1)

参考 参考 pythonで学ぶ新しい統計学の教科書(第一部~第二部) 基本用語 大枠 記述統計:手持ちのデータを整理・把握する 推測統計:未知のデータを推測する 確率密度関数と確率質量関数 確率質量関数:確率が計算結果として出てくる関数のこと(離散型の…

多重共線性について調べたメモ

多重共線性とは モデル内の独立変数が他の独立変数と相関しているときに起こる状態 多重共線性が起きると 多重共線性があると、逆行列の計算の部分で、いわゆる「ゼロ割」(分母に0が来る)問題が発生 jojoshin.hatenablog.com 解決策 まず相関行列で確認す…

【pythonでの前処理】データの正規化、標準化する方法

データの正規化の方法 単体?か、ベクトル単位によって大きく二通りある 単体の場合:二種類ある データの加算平均が0、分散が1になるように調整する(z-score noramalization(標準化)) データの最小値が0、最大値が1となるように調整する(min-max normali…

python スクレイピング ~タグの中のテキストと、リンクを取得する時~

スクレイピングして、タグの中身を取得する時の方法 テキストのみ取得する時 ・findAll(text = True) で取得できる! for news in contents: for anchor_text in news.findAll('a'): print(anchor_text.findAll(text=True)) #findAll(text=True) でテキスト…

python pandasで欠損値を補完するとき ~平均、1次関数、決まった値~

python pandasで欠損値を補完するときのパターン 列ごとの平均を入れる時 隣り合った値の1次関数を入れる時 決まった値を入れる時 列ごとの平均を入れる時 df.fillna(df.mean().to_dict()) df.mean().to_dict() は列ラベルをキーに、平均値を値として持った…

python pandasで欠損値を削除するとき dropna()

df_log.dropna() 欠損値を1つでも含む行を削除 df_log.dropna(1) 欠損値を1つでも含む列を削除して返します。 df_log.dropna(subset=['Date', 'Product']) 欠損値の調べる範囲を指定することができる df_log.dropna(inplace=True) オプションを付けると、df_…

Python スクレイピング findAll

findAll 使用例 指定したURLをスクレイピングして、BeautifulSoupを用いてHTMLを取得した後にそのHTMLを分解してほしいデータを取ってくるときなどで使う 指定したタグの中身を順に取得する soup = 取得したHTML for a in soup.findAll("table"): print(a) …

ページャー「次へ」をクリックしてスクレイピングする方法 python

やりたいこと 以下の上場企業のリストを取得したい。 売上高:株式ランキング - Yahoo!ファイナンス ページ下部にある「次へ」ボタンをクリックして全て取得したい。 方法 前提 こういう状態のとき import time from bs4 import BeautifulSoup as bs import …

pandas ilocで隣り合わない複数列を取得する方法

やりたいこと python pandas のDataFrameで、隣り合わせでない、飛んだ列を取得する df = pd.DataFrame( data=[[10, 5, 3, 1],[2, 4, 5, 2], [1, 3, 4, 2],[1, 5, 3, 4], [7, 6, 5, 4]]) たとえばこのdataframeの場合で1列目と、3列目~4列目のデータを取り出…

2018/05/29 記事メモ

データ分析の記事 data.gunosy.io ユーザーの特定の行動をする確率の分布の密度比を利用して異常検知を置こうなう 前提として分布には規則性があり、バグがあれば歪む 密度比:TBD マーケの記事 US版メルカリのミッションは「モノを売ろうと思ったらメルカリ…

2018/05/28 記事のメモ

データ活用事例の記事 Tokyo Editors Labに参加してきました - Gunosyデータ分析ブログ ニュースのテーマ×年代性別の分析 目的:ユーザーの興味のある情報しか集まらない世界を脱するために、「ユーザーに対して幅広いニュースを読む事ができる環境・仕組み…

where句とhaving句の実行順番の違い

実行順番 FROM → WHERE → GROUPBY → HAVING → SELECT → ORDERBY つまり GroupByでグルーピングする前に抽出するのがWhere句 GroupByでグルーピングした後に抽出するのがHaving句 具体例 「グレーパーカー」より売上額が高い商品の「名前」「商品の値段」「売…