統計・R

Rで統計解析をはじめたい人が最初に理解すべきこと

2022-05-14

統計処理を行うとき、色々な方法があります。カンタンな統計解析であればExcelなどの表計算ソフトを使ってもできます。でも、研究者が論文を書くときや、膨大なデータでExcelではフリーズしてしまうようなときにはそうも行きません。

さまざまな統計解析ソフトがありますが、おすすめしたいソフトの一つにR(ダウンロードはこちらから)があります。

R Projectのウェブサイト画面

この記事では、Rを使ってみたい方、Rに興味があるという方にR言語を使ったプログラミングを行う入口に立てるように記事をまとめました。この記事を読んだだけで、Rが仕えるようになるという訳ではないけれど、この記事を読むことで全然イメージがわかなかったプログラミングやRを使う流れがイメージできるようになると思います。

興味がある方は是非最後まで読んで下さい。

この記事のポイント

  • プログラミングを覚える前に、Rを使った方がいいのかをまずは判断しよう。
  • プログラミングを学びたい人はRStudioの画面や使い方をおぼえよう。
  • Rの基本コードとコードの構造がイメージできるようになろう。
  • 誰かのサンプルコードを参考に真似してみる流れをおぼえよう。

そもそもRが必要なのか悩んでいる人へ

まず、Rに興味がある方も、実際に始める前にどんな人にRがおススメなのかを事前に紹介したいと思います。Rは色々なメリットがありますが、同時にデメリットもあります。

Rのメリット
・無料で使える
・拡張性があり、可能な統計処理の幅も広い

Rのデメリット
・プログラミングの学習が必要
・パッケージによっては信頼性が低いものもある

といった感じです。これからがっつり統計処理をやっていきたいという人にとっては、無料で使えて拡張性の高いRはとても良いのですが、論文を書くために、ちょっとだけ統計処理ができればそれでOKと言う人にとっては、学習の負荷が大きいというのはRの大きなデメリットで、そういった方には、そこまで積極的におススメもできません。

その場合には有料でも良ければJMPXLSTATなどのような視覚的に理解しやすく、解析しやすいソフトのほうがおススメです。Rを使う場合でも、EasyRというソフトで統計処理を行うほうが視認性が高く、マウス操作だけで解析ができるので遥かに簡単です。

EasyRは操作性が良いのですが、できる解析自体は限定的であることと、統計処理を行うためにデータを解析できる形に並び替えたりする必要があります。つまり、エクセルなどでクリーニングを行う必要があるのですが、データが多い場合にはこの作業が大変です。さらには、ビッグデータなどをつかおうとするとExcelは直ぐにフリーズしてしまうので、この場合にはクリーニング作業からRで行う方向で考えるのがおすすめなので、EasyRよりは普通にRを使う(RStudioを使う)のがおすすめです。

と言うことでもしもRを使おうか迷っているという方は、むやみやたらと始めるのではなく、自分がこれから解析しようとしているデータの大きさと解析の内容を考慮した上で、本当に必要かじっくりと考えてみて欲しいなと思います。

くわしく知りたい人はこの記事へ

no image
【STEP0-1】Rってなに?RStudioとEZRの違いは?

この記事は統計処理ソフトのRを初めて使う人のためのシリーズです。この章ではRStudioをインストールするまでの流れを紹介していきます。楽しくRを学びましょう。

続きを見る

RとRStudioをインストールしよう!

いろいろな統計ソフトのなかでもRを使いたいという方は最初にインストールをしなければいけません(当たり前ですが)。Rは統計処理の基本ソフトで、RStudioやEasyRなどのソフトはRを使うためのソフトと理解すればいいと思います。一応、Rだけでも解析は行うことができますが、プログラミングを行う場合にはRStudioないと大変ですし、ちょっとした解析であれば、EasyRを使えば、マウス操作だけで解析ができるのでとても便利です。

EasyRを使う場合でも、RStudioを使う場合でも、先にRをインストールする必要があるので注意しましょう!この順番は間違えないようにしましょう!

Rのインストールの手順

  1. R Projectのホームページのdownload R
  2. CRAN Mirrorsの一覧のJapanまで画面をスクロールして、
    https://cran.ism.ac.jp/ (The Institute of Statistical Mathematics, Tokyo)
    https://ftp.yz.yamagata-u.ac.jp/pub/cran/ (Yamagata University)
    のどちらかを選択(どちらでも問題なく動作すると思います)
  3. Linux、Mac、Windowsの中からPC環境に合わせてダウンロードしましょう
  4. ダウンロード後はすぐにインストールしましょう

RStudioのインストールの手順

  1. RStudioのウェブサイトから自分の用途に合ったRStudioを選択しましょう
    多くの場合はRStudio Desktopを使えばよいと思います
  2. 自分のPC環境にあったRStudioをダウンロードしましょう
  3. ダウンロード後はすぐにインストールしましょう

最初は戸惑うかもしれませんが、難しいことは特にないので上記の流れでインストールできると思います。

くわしく知りたい人はこの記事へ

no image
【STEP0-2】Rをインストールしてみよう

この記事は統計処理ソフトのRを初めて使う人のためのシリーズです。この章ではRStudioをインストールするまでの流れを紹介していきます。楽しくRを学びましょう。この記事ではRをダウンロードする方法を紹介しています。

続きを見る

くわしく知りたい人はこの記事へ

no image
【STEP0-3】RStudioをインストールしよう!

この記事は統計処理ソフトのRを初めて使う人のためのシリーズです。この章ではRStudioをインストールするまでの流れを紹介していきます。楽しくRを学びましょう。この記事ではRStudioをダウンロードする方法を紹介しています。

続きを見る

RStudioの基本画面の見方を覚えよう!

つぎにRStudioの基本画面の見方を紹介します。RStudioを開くと初めに "New Project" からプロジェクトの作成を行います。プロジェクトは一つの解析のまとまりになります。プログラミングコードはスクリプトという画面に書いて行くのですが、新しいプロジェクトを作成したときには、最初はスクリプトが表示されていないので、左端のプラスマークから "R script" を選択すると、上のように4つの画面になります。これがRStudioを使うときの基本的な画面の状態だと思ってください。

この4つの画面を見ると最初は???となると思いますが、とても便利な画面です。左側の上半分の画面がスクリプトでプログラミングコードを書く場所です。この画面がおそらく最もながくにらめっこする場所になります。そして、左側の下半分の画面はコンソールと呼ばれ、プログラミングを実行した時に出力される画面になります。つまり統計処理を行った結果が見れるのがこちらの画面です。

続いて右側の画面の説明になりますが、上半分はGlobal Environmentを表示している画面で、自分が読み込んだデータや名前を付けた解析結果、作成した関数など、オリジナルのデータなどが一覧となっています。解析を行っていると、解析途中のデータに名前を付けて保存することはかなり多いので、自分でも分からなくなったりすることが多々あります。そんな時に確認を行うのに便利なのがこの画面です。最後に右下の画面で保存したファイルを見たり、開いたりすることができます。また、統計解析で図を出力するときにはこの画面のタブが切り替わり図が表示されます。他に、Rの拡張機能であるパッケージの一覧が載っているタブもあります。この画面は他と比べると使用頻度が少ないかもしれません。

この4つの基本画面とその使い方を覚えたら準備はOKなので、いよいよコードを書いて行きます。

くわしく知りたい人はこの記事へ

no image
【STEP0-4】RStudioの画面の見方と簡単な使い方を知ろう!

この記事は統計処理ソフトのRを初めて使う人のためのシリーズです。この章ではRStudioの基本画面の見方、使い方を紹介します。主にコンソール画面、スクリプト、オブジェクトそしてファイルの画面があるので初めに使い方から覚えましょう。

続きを見る

基本コードを覚えてコードの骨格を理解しよう!

次にコードを書くときでも、サンプルコードをチェックするときでも大事な基本コードとRのプログラミング構造を紹介します。

まず覚えて欲しいのは下記の11のコードです。もちろん、下記の11コードを覚えれば完ぺきって言う意味ではありません。プログラミングコードを見てちんぷんかんぷんで挫折しないためにも、最低限必要な基本コードという意味です。

=オブジェクトを定義するときや、関数の中でオプションを指定するときに使用します
<-オブジェクトを定義するときに使用します。”<-” の形は左向きの矢印を意味していて、左側にオブジェクトの名前を、右側に中身を記載します
#この記号以降はコードを読まない
[ ]オブジェクトの中のデータを主に数字を使って指定するのに使用します
$オブジェクトの中のデータを主にデータ名を使って指定するのに使用します
:日本語で言うと~(から)という意味で使用します
( )関数。関数名のあとに “( )” を付けて、( ) の中に変数や条件(オプション)を指定します
%>%パイプライン演算子。”%>%” の前に書いたオブジェクトや関数が、後に記載する関数の最初の因数となります
::関数のパッケージを指定するときに使います。たまに同じ名前の関数があるので、そのときには “::” 記号でパッケージを指定できます
“ “名詞を記載するときにこの記号ではさみます。パッケージなどによってはこの記号がいらない場合もあるので注意です
??のあとに関数名やオプション、パッケージ名などを記載するとヘルプを起動してくれます

この記号が頭に入っていると、知らない関数のプログラミングでも、何となくどんなことが書かれているのかが見えてきますので、まずはこれらの記号を覚えましょう!

正直、最初はこの記号だけ覚えても意味がさっぱり分からないと思います。その場合には、この記号の一覧のメモを取って、テキストやインターネットなどで見つけたサンプルコードを見るときに参考にしてみてください。細かい内容が理解できなくても、基本コードが頭に入っていると、なんとなく、プログラミングコードのイメージをとらえることができると思います。

くわしく知りたい人はこの記事へ

no image
【STEP1-2】Rの基本コードを覚えてコードの骨格が理解できるようになろう

この記事は全くの初心者が統計処理ソフトのRを使えるようになるための説明記事です。最終的にはネットで落ちているコードの構造を理解してマネできることを目指します。この記事ではプログラムの骨格となるコードを紹介しています。このコードを知ることでプログラムの全体構造を理解することができるようになり、他の人が書いたプログラミングコードの理解がぐっと進みます!

続きを見る

データの型と構造を理解しよう

つづいてデータの型と構造について紹介します。まず、データには型と構造があります。型と言うのは、数字なのか、文字列なのかみたいなことで、構造と言うのは表なのか、行列なのかみたいなことです。

型は、str( ) などの関数で、データの型を調べることができます。主な型としては、

  • numeric 数字 
  • character 文字列
  • factor 因子

などが有ります。factorは基本的には文字列なのですが、順序が有ったりする場合に使います。

構造は、class( ) という関数で一番簡単に調べることができますが、さきほどの str( ) という関数でも調べることができます。主な構造としては、

  • data.frame データフレーム
  • matrix 行列
  • list リスト

などが有ります。

初心者の方はデータの型や構造は、ふわっとした理解のまま流してしまいがちなのですが、実際にプログラミングをはじめてみると、コードが合っているのに、エラーが起こってしまい、プログラミングが動かないということが良く起こります。そして、そのほとんどがデータの型や構造が適切ではないときに起こります。これは本当におおげさではなく、誰もが通るコーディングミスです。ですので、型や構造というのは甘く見ないで、プログラミングを行う際に常に気にしていて欲しいポイントの一つになります。

データの型や構造を変えるときには as.~( ) という関数があり、たとえばデータフレームに変更したかったらas.data.frame( ) という感じで型や構造を変更することができます。

くわしく知りたい人はこの記事へ

no image
【STEP1-3】データの型と構造ってなに?

この記事はRを初めて使う人向けに、データ型、データ構造について紹介をしています。データ型は数字(numeric)、文字列(character)などがあります。データ構造はデータフレーム、行列、リストなどがあり、オブジェクトの全体構造が分かるようになります。

続きを見る

くわしく知りたい人はこの記事へ

no image
【STEP1-4】Rでデータを列や行を確認するのに便利な関数!

このシリーズはR初心者が、コピペなどで、自分でプログラミングができるようになることを目指しています。この記事では一番一般的なオブジェクトのデータフレームの中身をさっと確認する方法を紹介します。オブジェクトの中身の確認はプログラミングエラーを減らすための大事な習慣だよ!

続きを見る

サンプルコードを参考にコードを書いてみよう!

ここまで来たら、いよいよプログラミングをしてみましょう。最初のうちは、解析するデータを持っていても、エクセルなどを使ってある程度データをキレイにしてからRで解析すると良いと思います。慣れてきたら、データのクリーニング作業の履歴を保存するという意味でも全てをRで行うのが理想です。

コードを書くときには、ウェブ上に沢山サンプルコードを見つけることができるし、初心者向けのテキストを購入しても良いと思います。個人的には、Rを使う目的が明確で、「この解析を行うためにRが必要!」みたいに思っている人は、体系的にRのコーディングを学ぶよりも、Googleなどで検索して、ピンポイントで解析方法を学ぶのが良いと思います。ただ、一度、体系的に学んでおくことで色々な解析に応用がきくので、時間があれば、初心者向けのテキストなどを一通り読んでおくと良いと思います。

また、機械学習のように複雑なプログラミングが必要な解析を学ぶ場合には、Udemyなどの有料のEラーニングサイトを使うのがおすすめです!割引などの期間に受講すれば、3000円くらいでニーズに合った講義を受けることができます(ちょっと当たりはずれはあります)。

サンプルコードを検索するときには、Rにもともと入っているサンプルデータの “iris” というデータが使われることが多いので、検索するときに 解析方法+R+iris などの検索式で検索をすると分かりやすいコードが出てくることが多いです。是非、参考にしながらコーディングを楽しんで下さい。

プログラミングは勉強も大変ですし、時間をかけてやっと出てきた解析結果の見方が分からなかったりして、心が折れそうになることもありますが、複雑なコードを書いて、結果がパーンと出てきたときの快感を覚えると、楽しくなってきますよ!

くわしく知りたい人はこの記事へ

no image
【STEP1-5】まず誰かのコードを読めるようになろう!

Rで統計処理を行う際には、初心者はサンプルコードを参考に真似をしながらコードを書いて行くことがとっても大切!でも初めての人にとっては、真似して書くということすら良く分からなかったりします。この記事ではわたしがどんなふうにサンプルコードを参考にコードを書いているかを詳しく書きました。また、サンプルコードの探し方も紹介します。

続きを見る

さいごに

この記事をここまで読んで下さりありがとうございました。この記事では下記のようなことをまとめました。

この記事のまとめ

  • プログラミングを覚える前に、Rを使った方がいいのかをまずは判断しよう。
  • プログラミングを学びたい人はRStudioの画面や使い方をおぼえよう。
  • Rの基本コードとコードの構造がイメージできるようになろう。
  • 誰かのサンプルコードを参考に真似してみる流れをおぼえよう。

より詳しく知りたい方に向けてリンクも貼ってありますので、是非参考にしながら解析をしてみてください。

それでは、素敵なRライフをお過ごしください!

  • この記事を書いた人

Pon

食品会社勤務の元企業研究員(PhD)。食の機能性研究、腸内細菌の研究をメインにしていました。興味関心は公衆衛生、疫学、食品の機能性。好きな食べ物はカレーと杏仁豆腐。コテンラジオ、キングダムが好きです。統計の専門家に憧れます。興味のある研究について、Xやブログで発信しています。

-統計・R
-,

© 2022 Pon Powered by AFFINGER5