2016-08-23 4 views
-3

Je suis nouveau à R, mais essayez d'analyser ensemble de données Voici le lien d'origine https://cache-default03g.cdn.yandex.net/download.yandex.ru/company/jobs/test_data_dreams.txttravaillant sur les requêtes de recherche dans R

Mon code est (j'utilise R studio 0.99.903 & R 3.3.1)

# get the data from url url <- "https://cache- default03g.cdn.yandex.net/download.yandex.ru/company/jobs/test_data_dreams.txt" testdata <-read.table(url, header = T, sep="\t") #install packages for text mining to analyze the queries install.packages("slam") install.packages("tm") library(tm) #convert unix to GMT testdata$timestamp..unix. <- as.POSIXct(as.numeric(as.character(testdata$timestamp..unix.)),origin="1970-01-01",tz="GMT") #delete some words testdata$query <- gsub("к чему снится ", "\\1", testdata$query) testdata$query <- gsub("к чему сниться ", "\\1", testdata$query) testdata$query <- gsub(" к чему снится", "\\1", testdata$query) testdata$query <- gsub(" к чему сниться", "\\1", testdata$query) testdata$query <- gsub("снится ", "\\1", testdata$query) testdata$query <- gsub(" к чему", "\\1", testdata$query)'

Maintenant, ma trame de données ressemble à ceci.

> head(testdata) timestamp..unix. query city 1 2016-02-04 10:15:13 волна вынесла на берег Москва 2 2016-02-24 10:28:53 бегать наперегонки Екатеринбург 3 2016-02-07 15:31:51 свадьба мужчине со своей женой Владикавказ 4 2016-02-05 08:06:24 иголка медицинская Тамбов 5 2016-02-16 15:21:16 давняя знакомая Калининград 6 2016-02-27 03:38:46 белый маленький котенок Новосибирск

Maintenant, je suis en train de tracer les requêtes pour voir leur distribution pendant la journée (également au cours du mois) en général et pour chaque ville que j'ai.

Pourriez-vous s'il vous plaît aidez-moi de l'outil que je devrais choisir pour lire les jours et les heures séparément et ne pas tracer la requête elle-même, mais seulement la répartition des requêtes.

Merci!

+0

Bonjour @Yevgenyia, bienvenue à empiler débordement. Pour obtenir l'aide dont vous avez besoin, la question que vous postez doit contenir un exemple de l'ensemble de données que vous utilisez (ou simplement une partie, si elle est trop grande), la tentative que vous avez faite pour résoudre le problème et le code tu as utilisé. Jetez un oeil sur le lien suivant sur [comment faire un grand exemple R reproductible] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example). Si vous éditez votre question, je suis sûr que nous pouvons vous aider :) – thepule

+0

@thepule Merci pour le lien! Cela a rendu tout plus compréhensible) –

Répondre

0

Vous pouvez utiliser le package lubridate, il est assez facile d'extraire les jours et heures de vos dates, puis de faire un test sur eux. Par exemple:

# Add a column for day 
df$day <- day(df$timestampcol) 

# Add a column for the hour 
df$hour <- hour(df$timestampcol) 

Pour l'intrigue, je vous recommande de package ggplot2 et here vous trouverez un exemple de traçage des séries chronologiques.