医療データ奮闘記

公衆衛生大学院に入った内科系専門医が医師として培った現場感と大学院で培った統計の知識を交えながら、医療や疫学や統計に関する素朴な疑問や本音をつらつら書いています。

lasso回帰をする時に二値変数と連続変数を同時に扱うにはどうすれば良いのか?

と思って調べた。 英語ではいくつかあるが、日本語ではなかなか見当たらなかったし、周りの人1に聞いても意外と誰も答えられなかった。

英語では例えば

https://stats.stackexchange.com/questions/69568/whether-to-rescale-indicator-binary-dummy-predictors-for-lasso

である。

簡単に書くとまあ結論は出ていないので、ダミー変数にすれば良いのかな、と現状では理解した。ちなみに筆者は確かにglmnetを使用している。

係数が問題になりそうとの事だが、機械学習やっている人の意見では、予測精度が良ければそんなに気にしないのでは?との事だった。

特徴量の選択を目的に使用するならそれで良いのかなー、でもダミー変数にして片方だけ落ちたらどうしようとか思った。ダミー変数にする時にどうせスプラインとか書くし、総合評価かなーとも思う。

最終的にモデルをどのように評価するかに依るのかもしれないが、現段階ではノーフリーランチ定理を以て言及を避けるという結論に行き着いている。


  1. データ扱っているとこの教員の先生とか研究所の人とか