Datos de pesos de arroz

# Ingresando datos
peso <- c(486, 503, 504,  505, 506, 506, 503, 505, 507, 508)
marca <- c("Otra", "Caribe", "Caribe", "Otra", "Caribe", "Orquidea", "Orquidea",
           "Orquidea", "Otra", "Otra")

# Base de datos
datos <- data.frame(Peso = peso,
                    Marca = marca)

Base de datos

  • n: 10 datos
  • Variables:
    • Peso en gramos
    • Marca de arroz
  • Filas: cada fila representa un individuo (libra de arroz).
datos
##    Peso    Marca
## 1   486     Otra
## 2   503   Caribe
## 3   504   Caribe
## 4   505     Otra
## 5   506   Caribe
## 6   506 Orquidea
## 7   503 Orquidea
## 8   505 Orquidea
## 9   507     Otra
## 10  508     Otra

Exploración de datos

Estadísticos descriptivos general

  • Media:
mean(datos$Peso)
## [1] 503.3
  • Desviación estándar:
sd(datos$Peso)
## [1] 6.290204
  • Mediana:
median(datos$Peso)
## [1] 505
  • Mínimo:
min(datos$Peso)
## [1] 486
  • Máximo:
max(datos$Peso)
## [1] 508

Estadísticos descriptivos por marca

Promedio de peso por marca

tapply(X = datos$Peso, INDEX = datos$Marca, FUN = mean)
##   Caribe Orquidea     Otra 
## 504.3333 504.6667 501.5000

Desviación de peso por marca

tapply(X = datos$Peso, INDEX = datos$Marca, FUN = sd)
##    Caribe  Orquidea      Otra 
##  1.527525  1.527525 10.408330

Mediana de peso por marca

tapply(X = datos$Peso, INDEX = datos$Marca, FUN = median)
##   Caribe Orquidea     Otra 
##      504      505      506

Histograma

hist(datos$Peso, xlim = c(485,520))
abline(v = mean(datos$Peso), col= "red", lwd= 2)
abline(v = mean(datos$Peso)+sd(datos$Peso), col= "blue",lwd= 2)
abline(v = mean(datos$Peso)-sd(datos$Peso), col= "blue",lwd= 2)
abline(v = mean(datos$Peso)+(2*sd(datos$Peso)), col= "green",lwd= 2)
abline(v = mean(datos$Peso)-(2*sd(datos$Peso)), col= "green",lwd= 2)

Probabilidad

\[P(x\leq 502)= z=\frac{502-503.3}{6.290204}= 0.4207\]

valor_z <- (502-mean(datos$Peso))/sd(datos$Peso)
valor_z
## [1] -0.2066706
# Probabilidad obtenida con los datos reales
pnorm(q = 502, mean = mean(datos$Peso), sd= sd(datos$Peso))
## [1] 0.4181336
#Probabilidad con datos estandarizados
pnorm(q= valor_z, mean= 0 , sd=1)
## [1] 0.4181336
# Valor a buscar en la tabla cuando x = 502
valor_z502 <- (502-mean(datos$Peso))/sd(datos$Peso)
valor_z502
## [1] -0.2066706

# Valor a buscar en la tabla cuando x = 503.8
valor_z503.8 <- (503.8-mean(datos$Peso))/sd(datos$Peso)
valor_z503.8
## [1] 0.07948868

# Probabilidad para valor_z502
p_z502 <- pnorm(q = valor_z502, mean = 0, sd = 1)
p_z502
## [1] 0.4181336

# Probabilidad para valor_z503.8
p_z503.8 <- pnorm(q = valor_z503.8, mean = 0, sd = 1)
p_z503.8
## [1] 0.531678

# Probabilidad final
p_z503.8 - p_z502
## [1] 0.1135445

Inferencia sobre \(\mu\)

Hipótesis inicial

\[H_0: \mu = 500g \\ H_1: \mu \neq 500g\]

Nivel de significancia

\[\alpha = 0.05\]

Estadístico calculado vs teórico

\[T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim\ t_{n-1}\]

\[T = \frac{503.3 - 500}{6.29/\sqrt{10}} \sim\ t_{10-1}\]

\[T = \frac{503.3 - 500}{6.29/\sqrt{10}} = 1.65\]

t_calculado <- (503.3 - 500)/(6.29/(sqrt(10))) 
t_calculado
## [1] 1.659065

Este estadístico calculado deberá ser contrastado con los estadísticos teóricos:

\[t_{n-1,\ \alpha/2} = t_{10-1,\ 0.05/2} = t_{9,\ 0.025} = -2.26\] \[t_{n-1,\ 1-\alpha/2} = t_{10-1,\ 1-0.05/2} = t_{9,\ 1-0.025} = t_{9,\ 0.975} = 2.26\]

¿Cómo encuentro los estadísticos teóricos con R?

# Valor del estadístico teórico que deja un área de 0.025 a la izquierda
t_teo1 <- qt(p = 0.025, df = 9, lower.tail = TRUE)
t_teo1
## [1] -2.262157

# Valor del estadístico teórico que deja un área de 0.025 a la derecha
t_teo2 <- qt(p = 0.025, df = 9, lower.tail = FALSE)
t_teo2
## [1] 2.262157

Intervalo de confianza Valor P

  • Función t.test(): pruebas \(t-student\) para una o dos medias.
    • x: datos muestrales.
    • mu: valor de referencia en \(H_0\)
    • alternative: tipo de hipótesis alternativa
      • “two.sided”: prueba bilateral
      • “less”: prueba unilateral izquierda
      • “great” prueba unilateral derecha
    • conf.level: nivel de confianza
# Prueba completa con R
t.test(x = datos$Peso, mu = 500, alternative = "two.sided", conf.level = 0.95)
## 
##  One Sample t-test
## 
## data:  datos$Peso
## t = 1.659, df = 9, p-value = 0.1315
## alternative hypothesis: true mean is not equal to 500
## 95 percent confidence interval:
##  498.8003 507.7997
## sample estimates:
## mean of x 
##     503.3

Intervalo de confianza de forma manual:

\[\bar{x} \pm t_{\alpha/2,\ n-1}\frac{S}{\sqrt{n}}\]

# Límite inferior del intervalo de confianza del 95%
l_inferior <- (503.3 - ((2.2621)*(6.29/sqrt(10))))
l_inferior
## [1] 498.8005

# Límite superior del intervalo de confianza del 95%
l_superior <- (503.3 + ((2.2621)*(6.29/sqrt(10))))
l_superior
## [1] 507.7995