Tokyo. Rに行くたびにdplyrの話が話題に上がっていて、数か月前は完全に「なんすか、それ?意味あるんすか?」みたいな感じだったんですが、最近データの前処理で使いまくりです。 もうね、便利すぎてヤヴァイ。 という事で使い方をまとめておこうかと。 library自体はCRANからtidyverseをインストールするか、そのままdplyrをインストールすれば大丈夫です。 どちらの場合も library dplyr で呼び出せます。 twoyp, area, ku, matiの4つの変数のある賃貸物件のサンプルデータがあるとしましょう。 それぞれ家賃二年分・面積・23区・市町というデータです。 で使われたものですね。 頭の10行を取り出してみます。 00 世田谷 代沢 3 528000 14. 76 世田谷 代田 4 576000 8. 01 世田谷 桜丘 5 625000 9. 90 世田谷 用賀 6 625000 9. 90 世田谷 用賀 7 600000 13. 00 世田谷 北沢 8 676000 13. 00 世田谷 駒沢 9 676000 13. 00 世田谷 駒沢 10 650000 11. 00 世田谷 駒沢 11 650000 11. 00 世田谷 駒沢 filter機能でデータを絞ってみます。 パイプオペレーターを使って読み込まれたデータを次の関数(filter)に渡します。 データを出力するとこんな感じです。 00 世田谷 八幡山 2 1224000 31. 14 世田谷 八幡山 3 1224000 31. 14 世田谷 八幡山 4 1224000 31. 14 世田谷 八幡山 5 1224000 31. 14 世田谷 八幡山 6 1224000 31. 14 世田谷 八幡山 7 1296000 31. 00 世田谷 代田 8 1296000 31. 00 世田谷 代田 9 1296000 31. 00 世田谷 代田 10 1296000 31. 00 世田谷 代田 次はmutateで変数を一つ足してみます。 足す変数の名前はtenで、部屋の面積を10で割って切り上げた値になっています。 00 世田谷 代沢 2 2 528000 14. 76 世田谷 代田 2 3 576000 8. 01 世田谷 桜丘 1 4 625000 9. 90 世田谷 用賀 1 5 625000 9. 90 世田谷 用賀 1 6 600000 13. 00 世田谷 北沢 2 7 676000 13. 00 世田谷 駒沢 2 8 676000 13. 00 世田谷 駒沢 2 9 650000 11. 00 世田谷 駒沢 2 10 650000 11. ここまではさっきと同じですね。 グループ化されたデータをsummarize関数に渡します。 countという変数を新たに作成し、n でデータの数をカウントした値を代入します。 ログデータみたいな数量でないデータはよくこれでカウントしてます。 kuでグループ化して、データ数をカウントと。 n 意外は変数名をカッコ内で指定しないとだめです。 試しに各地区の各サイズの物件グループの面積の平均と標準偏差を出してみます。 area sd. area 1 港 愛宕 7 67. 64333 0. 04618802 2 港 愛宕 9 88. 69000 0. 00000000 3 港 愛宕 10 92. 39000 2. 71020294 4 港 愛宕 13 124. 15000 NaN 5 港 愛宕 17 163. 74000 0. 00000000 6 港 愛宕 20 194. 16000 NaN 7 港 海岸 2 15. 89714 3. 10037550 8 港 海岸 3 22. 93550 1. 81477492 9 港 海岸 4 33. 42462 3. 28411295 10 港 海岸 5 45. 11328 3. 52784718 次にjoinをして、データの結合をやってみます。 いわゆるvlookupってやつですね。 dplyrには4つのタイプのjoinが用意されています。 カギになる変数の組み合わせが複数ある場合には全パターンの結果を出してくれます。 fourthは区と町とサイズごとに物件数をカウントしたデータで、fiveは区と町の物件の平均サイズと標準偏差のデータです。 これら二つのデータを結合したいので、結合のカギとしては区と町とサイズを使います。 最近知ったんですけど、mergeでもjoinでも条件に配列使えるんですね。 area sd. area 1 港 愛宕 7 3 67. 64333 0. 04618802 2 港 愛宕 9 2 88. 69000 0. 00000000 3 港 愛宕 10 5 92. 39000 2. 71020294 4 港 愛宕 13 1 124. 15000 NaN 5 港 愛宕 17 2 163. 74000 0. 00000000 6 港 愛宕 20 1 194. 16000 NaN 7 港 海岸 2 42 15. 89714 3. 10037550 8 港 海岸 3 131 22. 93550 1. 81477492 9 港 海岸 4 52 33. 42462 3. 28411295 10 港 海岸 5 61 45. 11328 3. 52784718 ふぅ。 あとは条件で色々なRの関数を使ってみる事とかですかね?greplとかよく使ってます。 現状今やってる仕事のほとんどがデータ集計なので、dplyrで非常に助かってます。 なんつーかいまのポジションって間違いなくRと今までの好奇心で支えられているなと思う次第です。 色々助かってしょうがないです。 Yutaniさんがのでこちらを参照するのも良いと思います。 検索:• 最近の投稿• アーカイブ• カテゴリー•
次のVRとは? VRとは、そもそもどのような意味で、どのようなことができるものなのでしょうか? VRの意味 VRは「Virtual Reality」の略で、「人工現実感」や「仮想現実」と訳されています。 ここには「表面的には現実ではないが、本質的には現実」という意味が含まれ、VRによって「限りなく実体験に近い体験が得られる」ということを示します。 VRを通して得られるリアルな体験が、あたかも現実であるかのように感じられるということです。 また、近年提供されているVRコンテンツは、リモコン操作によって自分の動きがVR映像内に反映されるため、よりリアルな体験が得られるようになりました。 特に、ゲームや音楽のライブなど、エンターテインメントの世界が他分野に先行して多くのコンテンツを提供しており、VRの普及に貢献しています。 また、どこにいても教室と同じ授業が受けられる教育関連、遠隔地から手術や治療を支援する医療や介護、現地に行かなくても体感できる観光や住宅販売など、さまざまな分野へVRの利用が広がっています。 さらにVRでは、受け手が自由に視点を変えられることも特徴です。 予め決められた内容を送信する従来型のメディアとは異なる新しい配信の形(双方向のコミュニケーションなど)が、マスメディアはもちろん、YouTuberなど個人の配信者にも求められるようになるでしょう。 VRのしくみ VRによって仮想空間を体験できるしくみは、どのようになっているのでしょうか? 現在販売されているほぼすべてのVR機器は、ヘッドセットと呼ばれるゴーグル(メガネのレンズにあたる部分がディスプレイになっています)をかけ、顔の向きに合わせて映像を表示する(変化させる)技術がベースになっています。 映像の立体視は、ディスプレイの液晶を右目と左目に区切って映像を分けることで実現しました。 左右のレンズ配置もそれぞれの映像が見やすいようになっているなど、VRの世界に浸るための工夫が至るところに施されています。 また、多くのVRヘッドセットにレンズのピント調整機能が備わっており、高い没入感を得られるようになっています。 VRの活用事例 続いて、VRが実生活においてどのように活用されているのかを見ていきましょう。 大きなムーブメントとなっているVRだけに、実にさまざまな分野で活用されていますが、ここでは「スポーツ」「広告」「医療」の3分野における事例をご紹介します。 ・スポーツにおけるVR活用 スポーツ分野において、VRは観客とプレイヤーの双方に活用されています。 観客としてVRを活用しているのは、スポーツ観戦に特化した「動画配信プラットフォーム」です。 特定の選手や監督の視点はもちろん、ボールなどの道具、施設の視点から試合を観戦できるのは、スポーツファンにとって大きな魅力といえるでしょう。 また、プレイヤー(選手)は、トレーニングにVRを活用できるようになっています。 対応している競技も、野球やゴルフ、スキーなどさまざま。 ジムやフィールドとは違い、難度や環境を変えながら、繰り返し練習できるメリットが、VRを活かしたトレーニングにはあるのです。 ・広告におけるVR活用 従来のデジタル広告とは異なる「VR広告」も登場しています。 VRによって商品ディスプレイの自由度が格段に上がったことで、視聴者(ユーザー)が見ている映像に全方位型の広告を流したり、商品に触れることができるようにして実際の使用感を試させたり、VR空間内にあるテレビにCMを流すといったことが可能になりました。 一方通行ではなく、視聴者とコミュニケートしながら溶け込んでいく「体験型」広告は、これまでと違う形のプレゼンテーションの方法として注目を集めています。 ・医療におけるVR活用 VRは、医療分野でもさまざまな活用事例があります。 例えば、実際の手術の様子をVRで見学可能にして、世界各国の医師と共有するという使い方は、医師の技術向上に大いに役立つものとして事例が増えています。 第一線の医師が執刀する手術をリアルに体験できることは、医療の道を志す学生や経験の少ない医師はもちろん、同じ分野の医師にとっても、大きな経験となるでしょう。 また、事前にVRで手術を行うことで、ミスの許されない手術のシミュレーションも可能になりました。 こうしたVRの活用によって、難度の高い手術の成功率が高まることが期待されます。 6%となっています。 特に、VRゲーム分野は圧倒的な存在感を示すと予測されており、VRの需要は今後も非常に高いといえそうです。 ゲーム以外の分野においては、まだ活用事例が多くないVRですが、今後、対応機器の普及に従ってプレゼンやPR、調査や設計などの実務に使われる場面が増えることが予想されます。 「VRコンテンツに興味がわいた」「VR体験をしてみたい」という方は、自分が興味のある分野において、どのようなVRの活用事例や体験方法があるのか、今のうちにチェックしておくといいでしょう。
次のTokyo. Rに行くたびにdplyrの話が話題に上がっていて、数か月前は完全に「なんすか、それ?意味あるんすか?」みたいな感じだったんですが、最近データの前処理で使いまくりです。 もうね、便利すぎてヤヴァイ。 という事で使い方をまとめておこうかと。 library自体はCRANからtidyverseをインストールするか、そのままdplyrをインストールすれば大丈夫です。 どちらの場合も library dplyr で呼び出せます。 twoyp, area, ku, matiの4つの変数のある賃貸物件のサンプルデータがあるとしましょう。 それぞれ家賃二年分・面積・23区・市町というデータです。 で使われたものですね。 頭の10行を取り出してみます。 00 世田谷 代沢 3 528000 14. 76 世田谷 代田 4 576000 8. 01 世田谷 桜丘 5 625000 9. 90 世田谷 用賀 6 625000 9. 90 世田谷 用賀 7 600000 13. 00 世田谷 北沢 8 676000 13. 00 世田谷 駒沢 9 676000 13. 00 世田谷 駒沢 10 650000 11. 00 世田谷 駒沢 11 650000 11. 00 世田谷 駒沢 filter機能でデータを絞ってみます。 パイプオペレーターを使って読み込まれたデータを次の関数(filter)に渡します。 データを出力するとこんな感じです。 00 世田谷 八幡山 2 1224000 31. 14 世田谷 八幡山 3 1224000 31. 14 世田谷 八幡山 4 1224000 31. 14 世田谷 八幡山 5 1224000 31. 14 世田谷 八幡山 6 1224000 31. 14 世田谷 八幡山 7 1296000 31. 00 世田谷 代田 8 1296000 31. 00 世田谷 代田 9 1296000 31. 00 世田谷 代田 10 1296000 31. 00 世田谷 代田 次はmutateで変数を一つ足してみます。 足す変数の名前はtenで、部屋の面積を10で割って切り上げた値になっています。 00 世田谷 代沢 2 2 528000 14. 76 世田谷 代田 2 3 576000 8. 01 世田谷 桜丘 1 4 625000 9. 90 世田谷 用賀 1 5 625000 9. 90 世田谷 用賀 1 6 600000 13. 00 世田谷 北沢 2 7 676000 13. 00 世田谷 駒沢 2 8 676000 13. 00 世田谷 駒沢 2 9 650000 11. 00 世田谷 駒沢 2 10 650000 11. ここまではさっきと同じですね。 グループ化されたデータをsummarize関数に渡します。 countという変数を新たに作成し、n でデータの数をカウントした値を代入します。 ログデータみたいな数量でないデータはよくこれでカウントしてます。 kuでグループ化して、データ数をカウントと。 n 意外は変数名をカッコ内で指定しないとだめです。 試しに各地区の各サイズの物件グループの面積の平均と標準偏差を出してみます。 area sd. area 1 港 愛宕 7 67. 64333 0. 04618802 2 港 愛宕 9 88. 69000 0. 00000000 3 港 愛宕 10 92. 39000 2. 71020294 4 港 愛宕 13 124. 15000 NaN 5 港 愛宕 17 163. 74000 0. 00000000 6 港 愛宕 20 194. 16000 NaN 7 港 海岸 2 15. 89714 3. 10037550 8 港 海岸 3 22. 93550 1. 81477492 9 港 海岸 4 33. 42462 3. 28411295 10 港 海岸 5 45. 11328 3. 52784718 次にjoinをして、データの結合をやってみます。 いわゆるvlookupってやつですね。 dplyrには4つのタイプのjoinが用意されています。 カギになる変数の組み合わせが複数ある場合には全パターンの結果を出してくれます。 fourthは区と町とサイズごとに物件数をカウントしたデータで、fiveは区と町の物件の平均サイズと標準偏差のデータです。 これら二つのデータを結合したいので、結合のカギとしては区と町とサイズを使います。 最近知ったんですけど、mergeでもjoinでも条件に配列使えるんですね。 area sd. area 1 港 愛宕 7 3 67. 64333 0. 04618802 2 港 愛宕 9 2 88. 69000 0. 00000000 3 港 愛宕 10 5 92. 39000 2. 71020294 4 港 愛宕 13 1 124. 15000 NaN 5 港 愛宕 17 2 163. 74000 0. 00000000 6 港 愛宕 20 1 194. 16000 NaN 7 港 海岸 2 42 15. 89714 3. 10037550 8 港 海岸 3 131 22. 93550 1. 81477492 9 港 海岸 4 52 33. 42462 3. 28411295 10 港 海岸 5 61 45. 11328 3. 52784718 ふぅ。 あとは条件で色々なRの関数を使ってみる事とかですかね?greplとかよく使ってます。 現状今やってる仕事のほとんどがデータ集計なので、dplyrで非常に助かってます。 なんつーかいまのポジションって間違いなくRと今までの好奇心で支えられているなと思う次第です。 色々助かってしょうがないです。 Yutaniさんがのでこちらを参照するのも良いと思います。 検索:• 最近の投稿• アーカイブ• カテゴリー•
次の