医療統計学 平均値と中央値の使い分け

person standing on top of rock 統計
Photo by Suliman Sallehi on Pexels.com

論文作成時に平均値と中央値のどちらを使用して論文を作成しますか?

多くの学会発表や論文でその集団の特性を示す代表値として平均値±標準偏差(SD)が使用されています。一方で平均値 ± SDではなく、中央値と範囲(最小値ー最大値)や四分位範囲が用いられることもあります。
私たちは子供の頃から平均値に慣れ親しんできたので、多くの人が平均値を使用しますが、平均値と中央値にはその使い方に違いがあります。

基本的な考え方

平均値は基本的にはデータが正規分布に従う場合に用いる集団の代表値で、正規分布しないデータには中央値を使うのが一般的です。時々、論文中で平均値±SDと中央値[四分位範囲」が使い分けわれているのは、そのデータが正規分布しているかどうかによって代表値を使い分けているものと考えられます。

平均値

その集団のばらつきを示す場合に平均値であれば標準偏差(SD)

表記方法

平均値 ± S.D. ex> 1.5 ± 1.4 mSv

中央値

中央値の場合には範囲四分位範囲が用いられます。範囲はその集団の最小値と最大値です。また、四分位範囲はその集団の下から25%と75%に該当するデータを[25%tile値, 75%tile値]のように記載します。

範囲はその集団の最小値と最大値のため計算が行いやすいメリットがありますが、データがバラツキ外れ値がある場合は、使用できません。

四分位範囲では、25%および75%タイルを求めることが必要になりますが、外れ値を含まないため、データの信頼性を高めることができます。

パーセント点(パーセンタイル)

その集団のデータを小さい順に並べた時、その値よりも小さな値の割合が指定された割合になる値

10%点:その値より小さいデータが全体の10%になる値

50%点=中央値

0%点=最小値、100%点=最大値

上側4分位値=75%点、下側4分位値=25%点

表記方法

中央値 [範囲] 単位 ex> 1.1 [0.1 – 2.4] mSv

中央値[四分位範囲] 単位 ex> 2.1 [0.5 – 1.7] mSv

Excelを用いた記述統計の求め方

こちらにはA医師とB医師の月間の被ばく線量を示したデータがあります。この二人の医師はどちらが多く被ばくしているか平均値や中央値用いて評価していきたいと思います。

平均値

平均値を求めるにはオートSUMの中にある[AVERAGE]を用います。

平均値を算出したセルにカーソルを持っていき[=AVERAGR(セル範囲)]で平均値を算出します。

標準偏差 

標準偏差を求めるには、その他の関数内にある[STDEV.P]を用いて標準偏差を算出ます。

中央値

中央値の算出には「MEDIAN」を用いて算出します。

四分位値

四分位値を求めるには[QUARTILE]を用います。QUARTILEはデータ範囲と数字によってコントロールされています。0は最小値、1は25%タイル、2は中央値、3は75%タイル、4は最大になります。

最小値  QUARTILE(B3:B14,0)

25%タイル QUARTILE(B3:B14,1)

75%タイル QUARTILE(B3:B14,3)

最大値 QUARTILE(B3:B14,4)

算出結果

平均値や中央値などのデータからA医師の被ばく線量が高いことが明らかになりました。

また、四分位値で記載することでデータのばらつきを抑えることができています。

ご参考までに

コメント

タイトルとURLをコピーしました