医療データ奮闘記

公衆衛生大学院に入った内科系専門医が医師として培った現場感と大学院で培った統計の知識を交えながら、医療や疫学や統計に関する素朴な疑問や本音をつらつら書いています。

測定誤差があると真の関係はわからない

医学系の研究で、検査が毎回変わりうる検査(信頼性が低い)をoutcomeにするとなかなか結果が安定しない事を説明するためにグラフを描いた

num <- 40
age <- sample(65:85, num, replace=TRUE)
XX1 <- data.frame(age)
XX1$sbp <- 130 + (XX1$age-72)^2*0.5
res1 <- lm(sbp ~ age, data = XX1)
XX1$sbp3 <- 130 + (XX1$age-72)^2*0.5 + rnorm(num,mean = 0,sd=5)
res3 <- lm(sbp3 ~ age, data = XX1)
XX1$sbp4 <- 130 + (XX1$age-72)^2*0.5 + rnorm(num,mean = 0,sd=10)
res4 <- lm(sbp4 ~ age, data = XX1)
XX1$sbp5 <- 130 + (XX1$age-72)^2*0.5 + rnorm(num,mean = 0,sd=15)
res5 <- lm(sbp5 ~ age, data = XX1)
par(mfrow=c(2,2)) 
plot(XX$age,XX1$sbp,xlab="",ylab="")
plot(XX$age,XX1$sbp3,xlab="",ylab="")
plot(XX$age,XX1$sbp4,xlab="",ylab="")
plot(XX$age,XX1$sbp5,xlab="",ylab="")

f:id:yiliaojingji:20191012181738p:plain
誤差の大きな二次関数

最後の二次関数などはもはや直線の関係と言ってもばれないような印象である。

誤差が大きい(もしくは未測定交絡因子の影響が大きい)と、調べたいものにそれを上回る効果が無ければあまり解析の意味がなくなると思うが、ビッグデータになって有意差があるだけではそのような間違いが起こりうると思う。(N数を大きくしても、systematic errorを拾うだけになる)