文系人間がデータサイエンティストを目指すブログ

中学で数学をあきらめた超文系人間が、大学院に進学し、データサイエンティストを目指すという無謀なブログです。

【スポンサーリンク】

データ分析およびITの初心者が、GoogleのBigQueryを使って、つまづいた8つのこと

Excelファイルで遊びはじめて早2年、基本情報処理技術者試験に2回連続で落ちるなど遺憾無くそのおバカっぷりを発揮している私ですが、「「使っている」と言うだけで、マウンティングできる」Googleのビッグデータ分析向けデータウェアハウス、BigQueryを曲がりなりにもトライアルしてみたので、使う際につまづいたことをまとめていきたいと思います。

 

なお、IT業界に詳しくない方におかれましては、「あぁ、なんか意味不明なことをやってるな」と、IT業界に詳しい方におかれましては、「えw?そんな基本的なところで躓いたんw?」とご笑納いただければ幸いです。

 

【何をしたかったか?】

環境の変化により、パワーのあるマシンを使えなくなった直後のタイミングで、サイズ合計2GB、合計1600万行、138個のCSVファイルを集計、編集、加工しなきゃいけないことに。

 

以前なら、サーバーにインストールしたTableau desktopで編集、加工していれば、コーヒー飲みながら1時間以内でできていた作業ですが、不運にもその環境が使えなくなったので、泣く泣く別の方法を考えることに。

 

ある程度詳しい方であれば、「MySQLですればいいやん」とかお感じになられると思いますが、

そもそも私は、

「前処理」→Access or Tableau or Excel or SQL(サーバーにデータが蓄積されているときのみ)

「可視化」→Tableau or  Excel

「統計解析」→R  or Excel

という、なんちゃってデータ分析者だったので、「素人にも簡単に使えますよ」とGoogle様が謳っているBigQueryに「マウンティングできるかも」というスケベ心もあり、チャレンジしてみることに。

 

【つまづき1.アップロードできるファイルのサイズに制限があります】

BigQueryに代表されるGoogle Cloud Platformには色々なサービスがあり、「何が何かわからん」状態になること必須なのですが、とりえず今回は前処理したいだけなので、BigQueryだけ使うことに。

BigQueryにデータを投入するには、

1.ファイルのアップロード

2.Google Cloud Strageから引っ張ってくる

という主に2パターンあるのですが、あんまり他のサービスとか使いたくないので、1.のファイルのアップロードを試みてみることに。

 

Dailyのデータファイルだったので、1日ごとにcsvファイル(1日あたり約12MB)をアップロードをしようとしたところ、【10MB以上のファイルはアップロードできません】【英語】無慈悲な通知が。

 

やむなくGoogle Cloud Strageからファイルを移していく方法に切り替えることに

 

【つまづき2.Google Cloud StrageからBig Queryへの投入は1ファイル単位】

Google Cloud Strageへのファイルのアップロード自体はそんなに難しいことじゃなく、1つであろうと、138個であろうと、ファイル名を選択してするだけ。もちろん複数個でも可能。

問題が、Google Cloud Strage→BigQueryへのファイル移設の際、1ファイル単位でしか移設できなかったこと。

もしかしたら私が知らないだけで、便利な方法はあるのかもですが、138個のファイルを移設する作業は、さすがに飽きました。

 

【つまづき3.カラム名は英語only】

データを移設する際には、他のSQLサーバーにデータを取り込むのと同じく、列名(カラム名)とデータ形式を指定いなければいけないのですが、列名(カラム名)は英語しか使えません。

アホーな私は「CSVファイルの列名と同じにしよう!」と日本語を入れたのですが、当然ながら拒否されます。

当たり前すぎる・・・・・。

 

【つまづき4.日本語を含むファイルの場合、文字コードに注意】

取り込んでるファイルは、日本語を含むCSVファイルだったのですが、無事BigQueryに投入後、プレビューしてみると見事に日本語が文字化けしている・・・・・

調べてみると、そもそものcsvファイルの文字コードがANSIだったことに起因するとのこと。なので、138個のcsvファイルの文字形式をそれぞれUTF-8に変換していったのですが、さすがに飽きました。

 

【つまづき5.独特のSQLクエリ】

そもそもやりたいことの第一は、1つ1つのdailyのファイルを合算することだったので、select ~ from ~ union と何も考えずに打ち込んだのですが、BigQueryにはUNION句はありません。

まぁ、もともとのUNION句の性質とBigQueryがカラム志向だと言うことを知ってしまえば納得できるんですが、SQLに関しては、他にも一般的なDBとちょくちょく違う点があるので、検索しながらやってみるのがよろしいかと。

 

【つまづき6.クエリを開始する際には実行する場所を選択してください】

SQLクエリを書いたら、あとは赤字の「RUN QUERY」をクリックしてワクワクしながら結果を待ちたいところですが、何回押してもQuery Failedとの結果が・・・。正しいクエリを書いてるし、ここまでさせといてなんでやねん!と怒りの気持ちに駆られますが、慌てず、Show OptionsをクリックしてProcessing Location(実行する場所)を選んでください。

MUSTな項目を隠すんじゃねーよ」

とか思わないで・・・・

 

【つまづき7.Bigという名前に甘えないで、テーブル合算は常識の範囲内で】

上記の設定が終わって、無事クエリを書いて実行したところ、38秒後くらいに「大きすぎて時間がかかりすぎてるので終了します」との無慈悲な通知英語で表示されました。

 

さすがに138個のファイル、合計すれば1600万行を一度に結合するのはアホすぎたか

ただ、よく見ればRegacy SQLが云々と英語で書いてあったので、回避方法はあるのかも。これについては引き続きトライアルかな。

 

【つまづき8.抽出結果がExcelの限界を超える可能性】

すったもんだがあって、作業が完了。抽出結果をcsvにexportしようしたところ、excelのレコードの上限に引っかかってしまうと言う笑えない事態に。

テキスト化→Tableauに読み込ませるが可能だったので、結果的に事なきを得たんですが、最終的にどのフォーマットで誰に渡すか?を意識しないとエラい目に遭うな、を予感させる事態だったのでした。

 

【まとめ】

以上、色々書いてきましたが、ほとんどが私の「説明書を読まずにやってみる性格」と「英語力のなさ」に起因するものかと。実際、一度覚えるとスラスラと使えますしね。

 

しかし、つい1年前までスペックの低いPCとExcelで数字遊びしていた身分としては、クラウドってほんまに便利やなぁ、と。早いし、安いし、どこでも使えるし。

これを知ってるか知らないかで、何かと差が出てしまうのは当たり前だな、と思うのでした。

 

最近流行りの「AIが人間の仕事を奪う」にも通じることがありますが、結局はITをはじめとするツールって「使う側と使われる側(使わない側)の差が開いてくる」だけじゃないかな、と。

もちろん得られるものと失うものの比較検証は必要だと思いますが。

と、話を大きくして終わりたいと思います。

 

ではでは。

 

※参考にした本

 

スッキリわかる SQL 入門 ドリル215問付き! (スッキリシリーズ)

スッキリわかる SQL 入門 ドリル215問付き! (スッキリシリーズ)

 

 

 

プログラマのためのGoogle Cloud Platform入門 サービスの全体像からクラウドネイティブアプリケーション構築まで

プログラマのためのGoogle Cloud Platform入門 サービスの全体像からクラウドネイティブアプリケーション構築まで

 

 

 

ビッグデータ分析・活用のためのSQLレシピ

ビッグデータ分析・活用のためのSQLレシピ

 

 

データを扱うのを生業にして、これだけは伝えたいこと

昔から、

「目に見えない事項の法則を見つける」のが好きだった。

 

よく周りを観察するし、

見たことない事象

体験したことのない人には、好奇心がありありと湧いた。

 

今思えば、典型的なアナライザータイプだったと思う。

 

中学生時代に数学で挫折して以来、

もっぱら数式とは縁のない生活を送ってきたが、

法学部という、論理的思考力が問われる学問を学んだのは、

不思議な感じである。

 

そんな私が、データを扱うことを趣味にして早1年、

AIだ、BigDataだ、Iotだと世の中は何やら騒がしいが、

 

「目の前の事実を事実として受け入れる勇気があ人」

 

が、今後のキーになるのかな、と思ったり。

 

 

統計学が最強の学問である

統計学が最強の学問である

 

 

法律と会計とデータの扱い方

 

個人的にはこれがキーワード

【読んだ】爆走社長の天国と地獄 大分トリニータ vs 溝畑宏

元々判官贔屓な性質を持っている。かつ、少々素直ではない性格である。

 

大多数の人が、「A」と言えば言うほど、「本当に「A」何だろうか?」と思ってしまう人間である。

 

自慢じゃないが、小保方晴子さんの「あの日」も真っ先に読んだ人間だ。

 

あの日

あの日

 

 

さて、新年早々、愛するセレッソ大阪が2冠を達成したこともあり、セレッソ大阪の岡野前社長に思いを馳せた。また、チームの重要なキーマンである清武弘嗣を生んだ大分トリニータについて関心を持ち、その両者に共通するキーワードとして浮かんだのが、「溝畑宏」と言う人物である。

 

いち地方クラブである大分トリニータを、ナビスコカップ優勝にまで導き、一時は「地方クラブの星」などと各種メディアに取り上げられたものの、大分トリニータを崩壊させた張本人と言われ、大分トリニータをJ2降格させ、自身も社長を辞任したにも関わらず、自身は観光庁の長官横滑りし、わが町大阪にも深く関わっていると言う、経歴だけ見たらロクでもない人間のように思えてくる。

しかし、それだけの(世間的には)大失態がありながら、世の中から姿を消さないと言うのは何かある人物なのであろう、と言うことで氏に関する書籍を探したところ、amazonで見つけたのが、この本である。

 

 

爆走社長の天国と地獄: 大分トリニータv.s.溝畑宏 (小学館新書)

爆走社長の天国と地獄: 大分トリニータv.s.溝畑宏 (小学館新書)

 

 著者が「オシムの言葉」などを手がけた木村元彦氏であると言うのも相まって、すぐに購入した。

 

私がこの本を読み進めるに当たって、常に意識した視点は以下の3つである。

①溝畑氏は大分トリニータで実際に何をしたのか

②溝畑氏は何がすごかったのか?

③溝畑氏は何がダメだったのか?

 

実際に読み進めて見ると、あまりにも生々しく読むのを途中でやめようかと思うくらいのエピソードが多い。もちろん真偽の程は別にして。

 

①については、本書の中で生々しく描かれている。もう少し細かく言うと

「そんなの『課長 島耕作』の中の世界だけだと思っていた!」

である。

 

課長 島耕作(1) (モーニングコミックス)

課長 島耕作(1) (モーニングコミックス)

 

 

②については、目的のためなら手段を選ばない、と言う氏の姿勢であり、

③については、個人が動く際に注意しなければならない「大きな枠組み」のことについてである。 

 

本書を読み終わって、溝畑氏の大分トリニータへの愛は本物だったのではないか、という印象を持った。

しかしその反面「こう言うタイプの人間と関わりたくないな」と思ったし、だからこそ氏が大分トリニータを追われることになったんだろうな、と思った。

また、セレッソ大阪の岡野前社長はこんな人ではないと思ったし、岡野社長に対して申し訳ない気持ちが芽生えた。

この気持ちが私の判官贔屓的な発想に起因するものではないと思う。

 

最後になるが、現在の氏の姿を知りたくて

www.mizohata-hiroshi.jp

を訪問したところ、大変後悔した。

 

個人的な意見として、氏が●●ハラで話題になっても全く驚かない。しかしながらすごい人物だと言うのは認識できる1冊である。

 

何かをしようとしているが、逆境の中にいる人には、控えめにオススメしたい。

だってオレはプロだから

改めて濃い1年だった。

 

仕事に関しては、

紆余曲折あったけど、

昨年からコツコツと積み重ねてきた物を形にすることができたし、

外部からもありがたい評価をいただく事ができた。

私自身の納得とさらなる精進が必要という課題は残ったものの、

今までの10年の会社員人生を考えたら、充実していた部類に入ると思う。

 

プライベートでも、幼い頃からずっと応援してきたセレッソ大阪の初タイトルの場に、

2度も立ち会うことができた。(レディースのリーグカップと、トップチームのルヴァン杯)

 

そして今は、元旦に行われる天皇杯決勝を家族全員で応援に行くために、

東に向かう新幹線の中でこの文章を書いている。

 

仕事もプライベートもそれなりに順調だったのに、

それでもやっぱり「しんどかったー」と思うのは、

自分の中でどこか心の拠り所にしていたものが、

なくなってしまった1年だったからというものある。

 

・大好きでお世話になっていたお店が閉店してしまったこと

・祖母が亡くなったこと

・家族のこと

・お世話になった先輩と離れてしまったこと

今まで当たり前にあったものをなくすのは、それなりにきついと思ったし、

物事には永遠なんてないんだなと改めて思わされた。

 

そういう状況下で気持ち的に弱りそうになりながらも、

「オレはプロだし」と自分に言い聞かせ、

逃げずに色々なことと向き合えた1年だった。

 

「プロ」って言葉に「は?お前ごときが?」と言われるのは重々承知であるが、

僕は「役割を全うする」という言葉に置き換えて使っていた。

 

家族も、会社も、スポーツクラブも、ひいては社会全体が、

誰かが何らかの「役割」を果たすから成立している訳で。

目立つ、目立たない。報われる、報われない。

そんなことを目的とせず、

私が自分の役割を全うすることで

「誰かの役に立つ事ができる」

かつ

「私自身もそれをしたいと思っている」

かつ

「誰かがちゃんと応援してくれている」

のであれば、

どんなに困難が予想されようと迷いなく役割を全うしよう。

そう思い続けた1年でした。

 

来年はさらなる強い「気持ち」が必要になることは想像に難くないけど、

年末年始に会いたい人と会え、家族とも十分な時間を過ごせ、

さらにはセレッソ大阪を応援できる。

そういう最大限リラックスでき、楽しめる環境下で、

新年を迎えれることを幸せに思う。

 

 ※左ききのエレン

「天才になれなかったすべての人へ」

がキャッチコピーの漫画。

 

凡人の王道をいく私は、何度もこの作品に救われました。

組織の中で、悩み、壁にぶち当たっている人にはぜひとも読んでほしいです。

左ききのエレン 1 (ジャンプコミックスDIGITAL)

左ききのエレン 1 (ジャンプコミックスDIGITAL)

 
左ききのエレン(1): 横浜のバスキア

左ききのエレン(1): 横浜のバスキア

 
左ききのエレン(10): 左ききのエレン・後

左ききのエレン(10): 左ききのエレン・後

 
左ききのエレン(2): アトリエのアテナ

左ききのエレン(2): アトリエのアテナ

 
左ききのエレン(8): 物語の終わり

左ききのエレン(8): 物語の終わり

 
左ききのエレン(5): エレンの伝説

左ききのエレン(5): エレンの伝説

 
左ききのエレン(9): 左ききのエレン・前

左ききのエレン(9): 左ききのエレン・前

 
左ききのエレン(4): 対岸の二人

左ききのエレン(4): 対岸の二人

 
左ききのエレン(3): 不夜城の兵隊

左ききのエレン(3): 不夜城の兵隊

 
左ききのエレン(7): 光一の現実

左ききのエレン(7): 光一の現実

 
左ききのエレン(6): バンクシーのゲーム

左ききのエレン(6): バンクシーのゲーム

 

 

では、来年もよろしくお願いします!

(来年こそはブログ更新頻度をあげたいな・・・)

【書評】君たちはどう生きるか

数年前、高校の同級生に

「俺、今までの人生で後悔したことないわー」

っていうと、瀕死の珍獣を見るような目で見られた。

 

こちらとて、自慢するわけでもなく、

綺麗事を述べたわけでもなく、

その時の感想を率直に述べただけなのに、

そんな目で見られるとは思ってなかったので、

それ以降友達付き合いを差し控えさせていただいている。

その方がお互いのためだと思っているからだ。

 

高校生くらいまで、

「人と違うこと」

が、ものすごいコンプレックスだった。

 

今思えば、自意識過剰だと思うのだが、

天然パーマな自分に、激しくコンプレックスを感じていたので、

「どうせ自分なんて大切にされない」

って価値観が根底に育まれたのであろう。

 

その後、化学文明の進歩で、

「縮毛矯正」という技術が発明されたおかげで、

私のコンプレックスは消え去った。

と、同時に「天パ」から「堂本光一ばりのストレートヘア」への

ビフォーアフターを経験することにより、

人の評価に左右されていた自分がアホーらしくなった。

 

そしていつしか、

「人にどう思われるか」を重要視する価値観が、

「自分が後悔しないためには」に変わっていった。

 

その結果が

前述の

「俺、人生で後悔したことないわー」

発言である。

 

もちろん、選択として間違いはたくさんしてきたし、

人にいっぱい迷惑もかけてきた。

さらに、抜群に物覚えが悪い。

だからこそ言えることかもしれないが、

「まぁ、自分で決めたことやし」

の破壊力は抜群だし、

裏返しの

「まぁ、俺が決めたことじゃないし」

の言い訳のそれらしい感も抜群である。

 

前置きが長くなって恐縮だが、

世の中に「正解」などない。

あるのは、もっともらしい「正解」のフリをした「何か」である。

 

自分の「正解」とは何なのか?

それをわかっている人間はしなやかで強い。

そんなことを考えさせられる一冊である。

 

漫画 君たちはどう生きるか

漫画 君たちはどう生きるか

 

 

ちなみに、この本が戦前に書かれたということに驚かされる。

じゃあ結局あの戦争は何だったのか?

という疑問が湧いてくるが、それについては、 

昭和史 1926-1945 (平凡社ライブラリー)

昭和史 1926-1945 (平凡社ライブラリー)

 

 これを念入りに読むようにしている。

 

 複眼的な視野って大事よね。

子供と話していると痛感する今日この頃。

【雑記】祖父に関する自分ごと

今は亡き祖父の家に住みはじめて、もうすぐ2年になる。

祖母が老人ホームに入居してから空き家になっていたのを、唯一大阪に在住している孫である私たち家族が、空き巣対策を兼ねて住むことになった。

 

私は自他共に認めるおじいちゃんっ子だった。

祖父は大阪市の敬老パスを使って、幼い私をあちこちに連れ回してくれた。そしていろんなことを教えてくれた。多分、新幹線にはじめて乗ったのも祖父と一緒だった。私の「社会科目」好きは、間違いなく祖父の影響であると思う。

小学校に入学してから、祖父の家を訪れる機会が減ったように思う。そして小学5年生の冬、祖父が亡くなった。亡くなる1年ほど前に、ふと出来心で昔みたいなやりとりをしたくなった。思えば、甘えたい気持ちの照れ隠しだったのかもしれない。何を質問したかは覚えていない。ただ、祖父の「おじいちゃんはもうわからん。もうお前の方が詳しいわ」との言葉に、ものすごくショックを感じたのを覚えている。

 

私たちがこの家で暮らすようになってから、寝る前には子供たち一緒に、祖父が祀られている仏壇に「おっきいじいじおやすみ」とお参りをするようにしていた。祖母が亡くなってからは、「おっきいじいじ、おっきいばあばおやすみ」とお参りにするようにしていた。

祖母の四十九日法要が終わり、仏壇が我が家からなくなった。私は直系の孫ではないので当然のことではある。

 

祖母が亡くなったということにまだ実感がない。悲しいはずなのに涙が出てこない。寝る前の「おっきいじいじおやすみ」という祖父への祈りがないことにもまだ慣れることができない。

 

そういえば、祖父が亡くなってから、自分の中でずっと後悔していたことがある。ものすごく可愛がってもらっていたにも関わらず、私は祖父の葬儀で泣かなかった。祖母に「あんた、おじいちゃんにあんなけ可愛がってもらってたのに、よくそんなにヘラヘラできるな」と叱責されるくらい泣かなかったように記憶している。

 

 

祖母の四十九日法要の日、私は家族と一緒に妻の実家に帰省していた。家に帰ると、親族のどなたかが見つけたのだろう。祖父の葬儀の日の写真が机の上に置いてあった。

 

f:id:restart0814:20171030004628j:plain

写真の中の私は、ちゃんと泣いていた。

 

人間の記憶って結局はそういうもんなんだろうな、と思った。

出来事にどんな色をつけるかは自分次第。それを身をもって知った秋の夜長である。

 

 色即是空。

禅的生活 (ちくま新書)

禅的生活 (ちくま新書)

 

 

【雑記】社会人になって10年目になった。生まれてこのかた34年になった。

気がつけば、大学というモラトリアム機関を出て就職して10年たった。

すっかりおっさんである。

満員電車ではいらぬ誤解を与えぬよう気をつけるようにしている。

愛想笑いだけで34年間生きてきたが、

そろそろそれも許されなくなってくるのだろう。

 

この10年を振り返ってみると、

「思ってた以上に平凡だけど、思ってたより悪くない」

という印象である。

 

そりゃ、失敗は沢山したし、

悔し涙を何回も流した。

辛くて辛くて、逃げ出したくなった時もいっぱいあるけど、

その都度、助けてくれる人がいて、

影で応援してくれる人がいて、

当時は辛くても、今となってはいい思い出に消化できている。

むしろ財産になっている。

そういう経験をできるのが、

就職することのメリットかな、とすら思う。

 

あんまり詳しく書くとアレだけど、

自分に合っていることも見つけれたし、

そのことを通じて、お金をもらえて、かつ社会に還元できるなんて、

サイコーに幸せだな、とも思う。

 

今は学生時代の友達の活躍を素直に応援できるし、

消息不明の友人を思い出してたまに心配している。

人見知りは治らない。

性欲はほぼない。

 

先日、祖母が亡くなった。

実は、今でも信じられないのだが、

周囲の話を総合して見ると、確かに亡くなったようだ。

 

亡くなる1年ほど前、倉庫から祖母の手帳を見つけた。

今から50年ほど前の手帳だった。

当時祖母は50歳手前だと思う。

中身を見ると、祖母は日記をつけていた。

たまに短歌も作っていた。

私は末孫なので悠々自適に暮らしている祖母の姿しか知らないが、

日記には、妻として、3人の母親として、

急激に流れていく時代に取り残される専業主婦の恐れ、

子供の成長を喜びつつも、巣立っていく寂しさが入り混じった、

母としての想いが綴られていた。

 

なんだ、いつの時代も一緒なんだ。

 

人の日記を盗み見といて、その程度の感想である。

 

とりあえず、人と自分を比較しないことが、幸せへの第一歩なんだろうな。

相変わらず、そう思ってる。

どうでもいいことを真剣に悩んでいるときは、

大概ヒマなときである。

 

リハビリのために、ブログを更新しただけです。

すいません。

 

※私みたいな自意識過剰な人間は、何回も読むべき本。ただし、めちゃんこ痛い。 

嫌われる勇気―――自己啓発の源流「アドラー」の教え

嫌われる勇気―――自己啓発の源流「アドラー」の教え

 

 

 

幸せになる勇気――自己啓発の源流「アドラー」の教えII

幸せになる勇気――自己啓発の源流「アドラー」の教えII

 

 

ではでは今日はこの辺で。

【スポンサーリンク】