Mean vs Median vs Mode
Ang Mean, median, at mode ay ang mga pangunahing sukatan ng central tendency na ginagamit sa mga deskriptibong istatistika. Magkaiba ang mga ito sa isa't isa at iba rin ang mga kaso kung saan ginagamit ang mga ito upang i-summarize ang data.
Mean
Ang arithmetic mean ay ang kabuuan ng mga value ng data na hinati sa bilang ng mga value ng data, ibig sabihin,
[latex]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/latex]
Kung ang data ay mula sa isang sample space, ito ay tinatawag na sample mean ([latex]\bar{x} [/latex]), na isang descriptive statistic ng sample. Bagama't ito ang pinakakaraniwang ginagamit na panukalang naglalarawan para sa isang sample, hindi ito isang matatag na istatistika. Napakasensitibo nito sa mga outlier at oscillations.
Halimbawa, isaalang-alang ang average na kita ng mga mamamayan ng isang partikular na lungsod. Dahil ang lahat ng mga halaga ng data ay pinagsama at pagkatapos ay hinati, ang kita ng isang napakayamang tao ay nakakaapekto nang malaki sa mean. Samakatuwid, ang mga mean na halaga ay hindi palaging isang magandang representasyon ng data.
Gayundin, sa kaso ng isang alternating signal, ang kasalukuyang dumadaan sa isang elemento ay pana-panahong nag-iiba mula sa positibong direksyon patungo sa negatibong direksyon at vice versa. Kung kukunin natin ang average na kasalukuyang dumadaan sa elemento sa isang solong panahon, ito ay magbibigay ng 0, ibig sabihin ay walang kasalukuyang dumaan sa elemento, na malinaw na hindi totoo. Samakatuwid, sa kasong ito rin, ang arithmetic mean ay hindi isang magandang sukat.
Ang arithmetic mean ay isang magandang indicator kapag ang data ay pantay na ipinamamahagi. Para sa isang normal na distribusyon, ang mean ay katumbas ng mode at median. Mayroon din itong pinakamababang residual kapag isinasaalang-alang ang root mean squared error; samakatuwid, ang pinakamahusay na naglalarawang panukala kapag kinakailangan na kumatawan sa isang dataset sa pamamagitan ng iisang numero.
Median
Ang mga value ng gitnang data point pagkatapos ayusin ang lahat ng value ng data sa pataas na pagkakasunud-sunod ay tinukoy bilang median ng dataset. Ang Median ay ang 2nd quartile, 5th decile at 50th percentile.
• Kung ang bilang ng mga obserbasyon (mga data point) ay kakaiba, ang median ay ang obserbasyon na eksaktong nasa gitna ng nakaayos na listahan.
• Kung pantay ang bilang ng mga obserbasyon (mga data point), ang median ay ang mean ng dalawang gitnang obserbasyon sa nakaayos na listahan.
Median ay hinahati ang obserbasyon sa dalawang pangkat; i.e. isang pangkat (50%) ng mga value na mas mataas at isang pangkat (50%) ng mga value na mas mababa kaysa sa median. Ang mga median ay partikular na ginagamit sa mga skewed na distribusyon at kumakatawan sa data na medyo mas mahusay kaysa sa arithmetic mean.
Mode
Ang Mode ay ang pinakamaraming nangyayaring numero sa isang hanay ng mga obserbasyon. Ang mode ng isang Set ng Data ay kinakalkula sa pamamagitan ng paghahanap ng dalas ng bawat elemento sa loob ng set.
• Kung walang value na magaganap nang higit sa isang beses, walang mode ang data set.
• Kung hindi, ang anumang value na nangyayari na may pinakamaraming dalas ay isang mode ng set ng data.
Maaaring umiral ang higit sa 1 mode sa isang set; samakatuwid, ang mode ay hindi isang natatanging istatistika ng isang dataset. Sa isang pare-parehong pamamahagi, mayroong isang mode. Ang mode ng isang discrete probability distribution ay ang punto kung saan ang probability mass function ay umabot sa pinakamataas na punto nito. Ang pag-render mula sa mga interpretasyon sa itaas, masasabi nating ang global maxima ay mga mode.
Isaalang-alang ang aplikasyon ng lahat ng tatlong hakbang sa sumusunod na set ng data.
DATA: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Mean=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8.12
Median=9 (ika-13 elemento)
Mode=9 (dalas ng 9=5)
Ano ang pagkakaiba ng Mean, Median at Mode?
• Ang arithmetic mean ay ang kabuuan ng mga value (obserbasyon) na hinati sa bilang ng mga obserbasyon. Ito ay hindi isang matatag na istatistika, at lubos na nakadepende sa normal na katangian ng pamamahagi sa loob ng pamamahagi na isinasaalang-alang. Ang isang solong outlier ay maaaring magdulot ng makabuluhang pagbabago sa mean na nagbibigay ng medyo mapanlinlang na mga halaga. Maaaring palawakin ang konsepto sa geometric mean, harmonic mean, weighted mean at iba pa.
• Ang Median ay ang mga gitnang halaga ng hanay ng mga obserbasyon, at ito ay medyo hindi gaanong naaapektuhan ng mga outlier. Maaari itong magbigay ng isang mahusay na pagtatantya bilang ang buod na istatistika sa mga napaka-skewed na kaso.
• Ang mode ay ang pinakakaraniwang mga halaga ng pagmamasid sa dataset. Kung positive skewed ang distribution, ang mode ay nasa kaliwa sa median at, kung negatibong skewed, ang mode ay nasa kanan sa median.
• Kung positibong skewed, ang mean ay tama sa median; kung ang negatibong skewed mean ay nasa kaliwa ng median.
• Sa normal na distribution, lahat ng tatlo, mean, mode at median ay pantay.