データサイエンティストにはなれなかった

データ活用について考えていくブログ

分析環境やツールについて

私が普段の分析で使っている環境やツールについて簡単に説明します。

 

■マシンについて

OS:Windows7 32bit

メモリ:4GB

マシンは一般的なものです。

工夫すればこの程度のマシンでもできることは少なくありません。

 

■ソフトについて

・ActivePerl

Perlスクリプト言語の1つです。

分析対象となるデータから必要なものを抽出して整形するために利用します。

歴が浅いため、新しいことを行う際は色々調べたりするのに時間がかかってしまいます。

 

MeCab

日本語の形態素解析を行うためのソフトです。

テキストを投げると単語に分割して返してくれます。

例えば、このブログのタイトルを投げると

SE    名詞,固有名詞,組織,*,*,*,*
採用    名詞,サ変接続,*,*,*,*,採用,サイヨウ,サイヨー
の    助詞,連体化,*,*,*,*,の,ノ,ノ
新入    名詞,一般,*,*,*,*,新入,シンニュウ,シンニュー
社員    名詞,一般,*,*,*,*,社員,シャイン,シャイン
が    助詞,格助詞,一般,*,*,*,が,ガ,ガ
データ    名詞,一般,*,*,*,*,データ,データ,データ
サイエンティスト    名詞,一般,*,*,*,*,サイエンティスト,サイエンティスト,サイエンティスト
に    助詞,格助詞,一般,*,*,*,に,ニ,ニ
なる    動詞,自立,*,*,五段・ラ行,基本形,なる,ナル,ナル
まで    助詞,副助詞,*,*,*,*,まで,マデ,マデ
EOS
と返ってきます。

デフォルトの設定だとデータとサイエンティストが切れてしまいますが、辞書に手を加えれば切れないようにすることも可能です。

 

・R

今最も流行っている?統計解析ソフトです。

Rはオープンソースなので、様々な分析手法や可視化をサポートするパッケージが世界中で開発されており非常に便利です。

また、勉強会も頻繁に開催されており、その資料が公開されているため

後学にとって勉強しやすい環境が整っています。ありがたいです。

http://lab.sakaue.info/wiki.cgi/JapanR2010?page=%CA%D9%B6%AF%B2%F1%C8%AF%C9%BD%C6%E2%CD%C6%B0%EC%CD%F7

 

・KNIME

こちらもRと同様に統計解析を行うためのソフトです。

ノードをGUIで繋げていくことで解析のフローを実現するので

コマンドを打って解析を行うのに不慣れな方や定期的に定型の解析を行う方にとっては便利かもしれません。

機械学習について全く知らなかった私は

デフォルトで用意されている機械学習系のノードを全て分析対象となるデータに対して適用してみるなんてことをしました。

設定しなければならないパラメータと各アルゴリズムについて調べ、実行してみて精度や実行時間を調べるという感じです。

 

・Excel

皆様お馴染み表計算ソフト。

レポートを作成するためのグラフを書く際に利用します。

 長年使っていますがまだまだ極められそうな気がしています。

 

■番外編

私はなぜだかPerlに足を突っ込んでしまいましたが

新しく始める方はPythonを習得された方が良いかもしれません。

Pythonには機械学習のライブラリscikit-learnなどがあり、

前処理から後の高度な解析までシームレスに行えるそうです。

私もPerlからの乗り換えを検討しながら今後勉強していきたいです。

 

(参考)python機械学習ライブラリscikit-learnの紹介

http://sucrose.hatenablog.com/entry/2013/05/25/133021