6月26日
10.3 ポアソン回帰に対するメトロポリスアルゴリズム
現在値$\beta^{(s)}$と提案値$\beta^*$があるときのメトロポリスアルゴリズムによる受容率
\[\begin{align*} r &= \frac{p(\boldsymbol{\beta}^* \mid \mathbf{X}, \mathbf{y})}{p(\boldsymbol{\beta}^{(s)} \mid \mathbf{X}, \mathbf{y})}\\ &= \frac{\prod_{i=1}^{n} \mathrm{dpois}(y_i, \mathbf{x}_i^T \boldsymbol{\beta}^*)}{\prod_{i=1}^{n} \mathrm{dpois}(y_i, \mathbf{x}_i^T \boldsymbol{\beta}^{(s)})} \times \frac{\prod_{j=1}^{3} \mathrm{dnorm}(\beta_j^*, 0, 10)}{\prod_{j=1}^{3} \mathrm{dnorm}(\beta_j^{(s)}, 0, 10)}. \end{align*}\]正規回帰モデルでは$\beta$の事後分散は$\sigma^2(X^TX)^{-1}$と近くなるため、提案分散として$\hat{\sigma}^2(X^TX)^{-1}$(ただし$\hat{\sigma}$は${log(y_1+1/2),\ldots,log(y_n+1/2)}$の標本分散)を用いる
library(mvtnorm)
yX.sparrow <- dget("yX.sparrow.txt")
y <- yX.sparrow[,1]; X <- yX.sparrow[,-1]
n <- length(y); p <- dim(X)[2]
pmn.beta <- rep(0, p)
psd.beta <- rep(10, p)
var.prop <- var(log(y+1/2))*solve(t(X)%*%X)
S <- 10000
beta <- rep(0, p); acs <- 0
BETA <- matrix(0, nrows=S, ncol=p)
set.seed(1)
for(s in 1:S){
beta.p <- t(rmvnorm(1, beta, var.prop))
lhr <- sum(dpois(y, exp(X%*%beta.p), log=T)) -
sum(dpois(y, exp(X%*%beta), log=T)) +
sum(dnorm(beta.p, pmn.beta, psd.beta, log=T)) -
sum(dnorm(beta, pmn.beta, psd.beta, log=T))
if(log(runif(1))<lhr){beta <- beta.p; acs <- acs+1}
BETA[s,] <- beta
}
演習問題 10.5
(a)
\[\begin{align*} p(\mathbf{y} \mid \mathbf{x}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &= \prod_{i=1}^{n} \left( \frac{e^{\theta_i}}{1 + e^{\theta_i}} \right)^{y_i} \left( \frac{1}{1 + e^{\theta_i}} \right)^{1 - y_i}\\ \log p(\mathbf{y} \mid \mathbf{x}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &= \sum_{i=1}^{n} \left\{ y_i \log \left( \frac{e^{\theta_i}}{1 + e^{\theta_i}} \right) + (1 - y_i) \log \left( \frac{1}{1 + e^{\theta_i}} \right) \right\}\\ &= \sum_{i=1}^{n} \left\{ y_i [\log(e^{\theta_i}) - \log(1 + e^{\theta_i})] + (1 - y_i) [-\log(1 + e^{\theta_i})] \right\}\\ &= \sum_{i=1}^{n} \left( y_i \theta_i - y_i \log(1 + e^{\theta_i}) - (1 - y_i) \log(1 + e^{\theta_i}) \right)\\ &= \sum_{i=1}^{n} \left( y_i \theta_i - \log(1 + e^{\theta_i}) \right) \end{align*}\] \[\begin{align*} r = \frac{p(\mathbf{y} \mid \mathbf{x}, \boldsymbol{\beta}^{(s)}, \boldsymbol{\gamma}_{-j}^{(s)}, \gamma_j^*) p(\gamma_j^*)} {p(\mathbf{y} \mid \mathbf{x}, \boldsymbol{\beta}^{(s)}, \boldsymbol{\gamma}_{-j}^{(s)}, \gamma_j^{(s)}) p(\gamma_j^{(s)})} \times \frac{J(\gamma_j^{(s)} \mid \gamma_j^*)} {J(\gamma_j^* \mid \gamma_j^{(s)})} \end{align*}\] \[\begin{align*} \beta_j^* \mid \beta_j^{(s)} &\sim \mathcal{N}(\beta_j^{(s)}, \delta^2)\\ \gamma_j^* \mid \gamma_j^{(s)} &= \begin{cases} 0 & \text{if } \gamma_j^{(s)} = 1 \\ 1 & \text{if } \gamma_j^{(s)} = 0 \end{cases} \end{align*}\]library(data.table)
library(dplyr)
library(MASS)
library(coda)
library(ggplot2)
# データ読み込みと整形
data <- fread("azdiabetes.dat", header=TRUE)
col_int <- c("npreg", "glu", "bp", "skin", "age")
col_float <- c("bmi", "ped")
col_str <- "diabetes"
data[ , (col_int) := lapply(.SD, as.integer), .SDcols = col_int]
data[ , (col_float) := lapply(.SD, as.numeric), .SDcols = col_float]
data[ , (col_str) := as.character(get(col_str))]
# デザイン行列と目的変数
predictors <- c("npreg", "bp", "bmi", "ped", "age")
X <- scale(data[ , ..predictors]) %>% as.matrix()
X <- cbind(1, X) # Intercept追加
y <- ifelse(data$diabetes == "Yes", 1, 0)
# 対数尤度関数
log_likelihood <- function(y, X, beta, gamma) {
theta <- X %*% (beta * c(1, gamma))
sum(y * theta - log(1 + exp(theta)))
}
# βの更新
update_beta_j <- function(beta, gamma, j, delta, prior_var) {
beta_prop <- beta
beta_prop[j+1] <- rnorm(1, beta[j+1], delta)
log_lik_diff <- log_likelihood(y, X, beta_prop, gamma) - log_likelihood(y, X, beta, gamma)
log_prior_ratio <- dnorm(beta_prop[j+1], 0, sqrt(prior_var), log=TRUE) -
dnorm(beta[j+1], 0, sqrt(prior_var), log=TRUE)
log_r <- log_lik_diff + log_prior_ratio
if (log(runif(1)) < log_r) return(beta_prop) else return(beta)
}
# γの更新
update_gamma_j <- function(beta, gamma, j) {
gamma_prop <- gamma
gamma_prop[j] <- 1 - gamma_prop[j]
log_r <- log_likelihood(y, X, beta, gamma_prop) - log_likelihood(y, X, beta, gamma)
if (log(runif(1)) < log_r) return(gamma_prop) else return(gamma)
}
# MCMC本体
logit_reg_with_var_select <- function(y, X, beta_init, gamma_init, delta, S=1000, seed=42) {
set.seed(seed)
beta <- beta_init
gamma <- gamma_init
q <- length(beta)
BETA <- matrix(NA, S, q)
GAMMA <- matrix(NA, S, q-1)
for (s in 1:S) {
for (j in 0:(q-1)) {
prior_var <- ifelse(j == 0, 16, 4)
beta <- update_beta_j(beta, gamma, j, delta, prior_var)
}
for (j in 1:(q-1)) {
gamma <- update_gamma_j(beta, gamma, j)
}
BETA[s, ] <- beta
GAMMA[s, ] <- gamma
}
list(BETA = BETA, GAMMA = GAMMA)
}
# 初期値(GLMフィット)
glmfit <- glm(y ~ ., data = as.data.frame(cbind(y, X[,-1])), family = binomial())
beta_init <- coef(glmfit)
gamma_init <- rep(1, 5)
delta <- 0.1
# 実行
res <- logit_reg_with_var_select(y, X, beta_init, gamma_init, delta, S=100000)
# チェーン処理・可視化
chn_beta <- mcmc(res$BETA)
chn_gamma <- mcmc(res$GAMMA)
plot(chn_beta)
plot(chn_gamma)
# β * γ の生成と可視化
beta_gamma_prod <- res$BETA[, -1] * res$GAMMA
beta_times_gamma <- cbind(res$BETA[, 1], beta_gamma_prod)
colnames(beta_times_gamma) <- c("β0", paste0("β", 1:5, "*γ", 1:5))
chn_bg <- mcmc(beta_times_gamma)
plot(chn_bg)
- $\beta$について
- $\beta_1$と$\beta_2$のトレースプロットが横一直線や階段状になっているためミキシングが悪い
- $\beta\times\gamma$について
- 全体的にミキシングが良い
(b)
# γベクトルを文字列(またはベクトル)でリスト化
gamma_tuples <- apply(res$GAMMA, 1, function(row) paste(as.integer(row), collapse = ","))
# 出現回数をカウント
gamma_counts <- table(gamma_tuples)
# 出現回数順にソート(降順)
sorted_gamma_counts <- sort(gamma_counts, decreasing = TRUE)
# 上位5つ
top5_gamma <- head(sorted_gamma_counts, 5)
# 総サンプル数
S <- nrow(res$GAMMA)
# 出力
cat("Top 5 most frequent gamma vectors, counts, and estimated posterior probabilities:\n")
cat("Total samples (S) =", S, "\n")
cat(strrep("-", 60), "\n")
cat("Gamma Vector Count Estimated Probability (Count/S)\n")
cat(strrep("-", 60), "\n")
for (i in seq_along(top5_gamma)) {
gamma_vec <- names(top5_gamma)[i]
count <- as.integer(top5_gamma[i])
prob <- round(count / S, 4)
cat(sprintf("%-18s %-7d %.4f\n", gamma_vec, count, prob))
}
cat(strrep("-", 60), "\n")
Top 5 most frequent gamma vectors, counts, and estimated posterior probabilities:
Total samples (S) = 100000
Gamma Vector Count Estimated Probability (Count/S)
0,0,1,1,1 54127 0.5413
1,0,1,1,1 40473 0.4047
0,1,1,1,1 2852 0.0285
1,1,1,1,1 2264 0.0226
1,0,1,1,0 176 0.0018
- 上位2つのパターンが全体の 約94.6% を占める → ほぼ2モデルに集中している
- $\gamma_3$,$\gamma_4$,$\gamma_5$は上位のモデルで常に1となっており、これらの変数が糖尿病の予測において重要である
- $\gamma_2$は上位のモデルで常に0であり、変数の予測への寄与が小さい
- $\gamma$ベクトルの分布が非常に尖っており、モデル選択の確信度が高いと考えられる
(c)
library(reshape2)
df_bg <- as.data.frame(beta_times_gamma)
df_melted <- melt(df_bg)
ggplot(df_melted, aes(x = value, color = variable, fill = variable)) +
geom_density(alpha = 0.3) +
labs(title = "Posterior Density of βj*γj") +
theme_minimal()
inclusion_probs <- colMeans(res$GAMMA)
df_inclusion <- data.frame(
Variable = paste0("γ", 1:length(inclusion_probs)),
Inclusion_Probability = round(inclusion_probs, 4)
)
library(knitr)
kable(df_inclusion, caption = "Posterior Inclusion Probabilities")
Variable | Inclusion_Probability |
---|---|
γ1 | 0.4299 |
γ2 | 0.0519 |
γ3 | 1.0000 |
γ4 | 0.9996 |
γ5 | 0.9975 |