医療データ奮闘記

公衆衛生大学院に入った内科系専門医が医師として培った現場感と大学院で培った統計の知識を交えながら、医療や疫学や統計に関する素朴な疑問や本音をつらつら書いています。

公衆衛生大学院後輩指導論文作成解析用資料(疫学)

Rで解析するための夏休み強化学習50本ノックというものを作った。

自己学習用の資料で、このままやれば50本ノックした際には理解も深まって論文ができている1というものである。答えもR Markdownで作っているのだが、使用したデータベースは公表できないため、ネットで公開する時にはデータを自作で作る必要がある2。一度解析したら理解を深めるには自分が設定した事が答えとなるデータベースを自作するようになるのが一番の理解の深め方だと思っているので、その辺りも実際後輩に対する授業を進め、反応を見ながら今後は少しづつ記事にしていこうと思う。

どのパッケージ使うかをgoogleとかで検索しながらまあこれだけできたら、医療系の比較疫学研究に関して最低限の解析はできたと言えるのではないだろうか。

  1. 今から行おうとしている研究のデザインを簡潔に述べよ(ADL、退院時後遺症の推定のためにどのような数理モデルを作成するのか)
  2. 練習用データ内のcsvファイルをRに取り込め
  3. 5人分のデータを出して、各説明変数の定義を述べよ
  4. 各説明変数毎のデータの型を確認せよ
  5. 必要に応じて自然数のデータを因子型のデータに変更せよ
  6. 性別を二値変数に変更せよ
  7. 年齢をヒストグラムにせよ
  8. 年齢を4群に分けた説明変数を作成せよ(分け方は根拠があれば何でも良い)
  9. 年齢を10群に各群均等になるように分けた説明変数を作成せよ
  10. 治療法と各説明変数のクロス集計を全て作成せよ
  11. 治療法毎の、年齢のヒストグラムを描け
  12. table.1のデータをまとめよ
  13. table.1をwordファイルで完成させよ
  14. 最小二乗法に関して簡潔に説明せよ
  15. ADLの分布をヒストグラムで表せ
  16. ADLを治療方法のみを使用して予想する線形回帰モデルを作成し、その係数の解釈に関して説明せよ
  17. ADLと年齢(連続変数)の関係を散布図で書き表せ
  18. ADLを年齢(連続変数)のみを使用して予想する線形回帰モデルを作成し、その係数の解釈に関して説明せよ
  19. ADLを年齢(連続変数)のみを使用して予想した線形回帰モデルの当てはまりの良さに関して述べよ
  20. ADLを年齢(9のカテゴリ変数)のみを使用して予想する線形回帰モデルを作成し、その係数の解釈に関して説明せよ
  21. ADLを年齢(連続変数)のみを使用して予想する線形回帰モデルを作成し、その係数の解釈に関して説明せよ
  22. ADLを年齢(連続変数)と性別のみを使用して予想する線形回帰モデルを作成し、その係数の解釈に関して説明せよ
  23. ADLを年齢(連続変数)のみを使用して予想した線形回帰モデルの当てはまりの良さに関して18と比較せよ
  24. ADLを年齢(連続変数)のみを使用して予想した線形回帰モデルの当てはまりの良さに関して18との比較を検定せよ
  25. ADLを年齢(連続変数)、性別、高血圧、糖尿病、脳卒中心筋梗塞の有無を説明変数とした線形回帰モデルで予想せよ
  26. 一般化線形回帰モデルと一般線形回帰モデルの違いに関して述べよ
  27. 確率分布・リンク関数・線形予測子に関して簡潔に述べよ
  28. ロジスティック回帰モデルに関して簡潔に述べよ
  29. 退院時後遺症の有無をtable.1に追加せよ
  30. 退院時後遺症の有無に関する治療方法の係数をロジスティック単回帰モデルで求めよ
  31. 30の係数をオッズ比に変えよ
  32. 25と同様の説明変数を用いて、31の多変数解析を行い、治療方法によるオッズ比を求めよ
  33. 32のロジスティック回帰分析のROC曲線を描き、c統計量を求めよ
  34. 区間推定を踏まえて、全説明変数のオッズ比をtable.2としてまとめよ
  35. table.2をwordファイルで完成させよ
  36. 傾向スコアの概念を簡潔に述べ、傾向スコアを活用した解析方法を3つ以上述べよ
  37. 32でoutcomeを治療方法として多変数のロジスティック回帰分析を行え
  38. 37の傾向スコアを取り出して、元のデータベースに貼り付けよ
  39. 38の傾向スコアを治療法毎にヒストグラムにせよ(重なりがわかるように)
  40. 傾向スコアのみを交絡因子として調整し、退院時後遺症の有無に関する治療方法のオッズ比を求めよ
  41. 傾向スコアマッチングに関して1:1などの比率・復元・キャリパの3つの言葉を用いて簡潔に述べよ
  42. 傾向スコアマッチングを行い、推定リスク比を算出せよ
  43. SDを用いてマッチング前後の両群のバランスチェックを行え
  44. マッチング後のデータを用いて39のヒストグラムを再度作成し、39と比較せよ
  45. マッチング前後で一般化妥当性が大きく損なわれていないか論じよ
  46. 傾向スコア逆確率による重み付けに関して、外れ値という言葉も用いて簡潔に特徴を述べよ
  47. 傾向スコア逆確率による重み付けを行い、治療効果のオッズ比を算出せよ
  48. 傾向スコア逆確率による重み付け前後のバランスチェックを43と同様に行え
  49. 40・42・47の結果の違いに関して考察せよ
  50. 32・49の結果を合わせてtable.3を作成し、wordファイルにて完成させよ

  1. introductionやdiscussionは自分で作らなあかんけど。

  2. 個人情報保護法などもあるし。