Carpe Diem

備忘録

BigQuery

BigQueryのパーティション分割テーブル、日付別テーブル

概要 BigQueryにおける分割テーブルは パーティション分割テーブル 大きな1つのテーブル 日付別テーブル(レガシー) 複数テーブル の大きく2種類あり、さらにパーティション分割テーブルは 取り込み時間による分割 時間単位カラムによる分割 整数範囲によ…

BigQueryからBigtableへアクセスしてデータ分析

概要 Bigtableは数十億行、数千列規模に拡張可能な分散型NoSQLですが、 特定のカラムファミリのみ持つ行を全て抽出する といった時にcbt(CLIツール)やSDKではiterateしてデータをハンドリングするため、大規模データ分析の用途では使いづらさがあります。 そ…

マイグレーションデータの完全性をチェックする方法

概要 オンプレからクラウドに移行(マイグレーション)した場合や、クラウド上でセルフホスティングしていたDBをマネージドDBに移行した場合に問題となるのが「データは欠損なく移行されたか」です。 データの数が少なければプログラミングで差分チェックな…

BigQueryのIAM設定をアーキテクチャから理解する

概要 BigQueryはIAMロールを設定する際にハマる事が多いので、アーキテクチャを理解しておくときちんと権限付与することができます。 BigQueryのアーキテクチャ BigQueryのアーキテクチャは以下のように ストレージ コンピュート の大きく2つに分かれていま…

EmbulkでMongoDBのデータをBigQueryへ

概要 ユーザの行動ログで利用しているデータがDBにあるので、それをまるっとBigQueryへ書き込む方法をEmbulkを使って説明します。 BigQueryにマスタデータを保存する理由は? 単純に行動ログに保存される関連データがIDのみで保存されていると、詳細が知りた…

BigQueryのデータをUpdateする

概要 BigQueryは基本的にはログなど解析目的で利用するため、データ自体を更新することはありません。ただ 一部間違ったログが入ってしまった データの洗い替えが必要になった みたいなケースが起き、解析結果が期待するものにならない場合は更新処理が必要…

GoでBigQueryにデータを追加する

概要 GoでのBigQueryの使い方です。 認証周りが以前と変わっており、JWTを使ってゴニョゴニョしてた部分をライブラリ側で吸収してくれるようになったのか使う側は簡単になりました。 環境 go 1.8.3 サービスアカウントキーの作成 API Console Credentials pa…