# Ingresando datos
peso <- c(486, 503, 504, 505, 506, 506, 503, 505, 507, 508)
marca <- c("Otra", "Caribe", "Caribe", "Otra", "Caribe", "Orquidea", "Orquidea",
"Orquidea", "Otra", "Otra")
# Base de datos
datos <- data.frame(Peso = peso,
Marca = marca)
# Datos por marca
orquidea <- datos[datos$Marca == "Orquidea", ]
caribe <- datos[datos$Marca == "Caribe", ]
otra <- datos[datos$Marca == "Otra", ]
#
orquidea
## Peso Marca
## 6 506 Orquidea
## 7 503 Orquidea
## 8 505 Orquidea
caribe
## Peso Marca
## 2 503 Caribe
## 3 504 Caribe
## 5 506 Caribe
otra
## Peso Marca
## 1 486 Otra
## 4 505 Otra
## 9 507 Otra
## 10 508 Otra
tapply(X = datos$Peso, INDEX = datos$Marca, FUN = mean)
## Caribe Orquidea Otra
## 504.3333 504.6667 501.5000
tapply(X = datos$Peso, INDEX = datos$Marca, FUN = sd)
## Caribe Orquidea Otra
## 1.527525 1.527525 10.408330
tapply(X = datos$Peso, INDEX = datos$Marca, FUN = median)
## Caribe Orquidea Otra
## 504 505 506
boxplot(datos$Peso ~ datos$Marca, main = "Distribución de peso por marca de arroz",
xlab = "Marca", ylab = "Peso (g)")
abline(h = mean(datos$Peso), lwd = 2, col = "red", lty = 2)
Nota: en el ejemplo se va a comparar la media del peso de orquidea vs media del peso de caribe. Asuma que las varianzas son desconocidas e iguales.
\[H_0: \mu_{caribe} - \mu_{orquidea} = 0\\ H_1: \mu_{caribe} - \mu_{orquidea} \neq 0\]
\[\alpha = 0.05\]
\[T = \frac{\bar{X_1} - \bar{X_2} -\delta_0}{S_p/\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim\ t_{n_1+n_2-2}\]
Donde:
\[S_p^2 = \frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}\]
\[S_p^2 = \frac{(3-1)1.5275^2+(3-1)1.5275^2}{3+3-2}=2.33\]
\[S_p = \sqrt{S_p^2}=\sqrt{2.33}=1.5275\]
# Obteniendo varianza ponderada sp
var_sp <- ((2*1.5275^2)+(2*1.5275^2))/(3+3-2)
var_sp
## [1] 2.333256
# Desvición ponderada
sqrt(var_sp)
## [1] 1.5275
\[T = \frac{\bar{X_1} - \bar{X_1} -\delta_0}{S_p/\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} = \frac{504.33 - 504.67 -0}{1.5275/\sqrt{\frac{1}{3}+\frac{1}{3}}} = -0.2677\]
t_calculado <- (504.333-504.667)/(1.527525*(sqrt(1/3 + 1/3)))
t_calculado
## [1] -0.2677958
Este estadístico calculado deberá ser contrastado con los estadísticos teóricos:
\[t_{n_1+n_2-2,\ \alpha/2} = t_{3+3-2,\ 0.05/2} = t_{4,\ 0.025} = -2.776\]
\[t_{n_1+n_2-2,\ 1-\alpha/2} = t_{3+3-2,\ 1-0.05/2} = t_{4,\ 0.025} = 2.776\]
¿Cómo encuentro los estadísticos teóricos con R?
# Valor del estadístico teórico que deja un área de 0.025 a la izquierda
t_teo1 <- qt(p = 0.025, df = 4, lower.tail = TRUE)
t_teo1
## [1] -2.776445
# Valor del estadístico teórico que deja un área de 0.025 a la derecha
t_teo2 <- qt(p = 0.025, df = 4, lower.tail = FALSE)
t_teo2
## [1] 2.776445
t.test()
: pruebas \(t-student\) para una o dos medias.
x
: datos para \(\mu_1\).y
: datos para \(\mu_2\).mu
: valor de referencia en \(H_0\)alternative
: tipo de hipótesis alternativa
conf.level
: nivel de confianzavar.equal
: homocedasticidad (igualdad de varianzas)t.test(x = caribe$Peso, y = orquidea$Peso, mu = 0, alternative = "two.sided", var.equal = TRUE,
conf.level = 0.95)
##
## Two Sample t-test
##
## data: caribe$Peso and orquidea$Peso
## t = -0.26726, df = 4, p-value = 0.8025
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.796169 3.129502
## sample estimates:
## mean of x mean of y
## 504.3333 504.6667