Warning: package 'ggplot2' was built under R version 4.5.2
2 Айнымалылар
Сандық айнымалылар
- Кейбіреулері бар
- Үздіксіз: бойы, салмағы, қан қысымы
- Дискретті: ажырасулар саны, балалар саны
- Сандық айнымалымен (сандармен өрнектелетін категориялық айнымалымен емес) жұмыс істеп жатқаныңызды қалай білуге болады?
- Сандық айнымалыларға арифметикалық амалдарды қолдануға болады
- Егер бір адамның салмағы 70 кг, ал екіншісінің салмағы 60 кг болса, олардың жалпы салмағы 130 кг болады.
- Сандық болып көрінетін реттік айнымалыларды ескеріңіз.
- Егер менің IELTS баллым 3 болса, ал досымның бағасы 6 болса, бұл олардың ағылшын тілін екі есе көп білетінін білдірмейді. Немесе біз бірге ағылшын тілін 9-да білеміз.
Гистограмма
Әдетте, сандық айнымалыларды талдау олардың таралуын визуализациялаудан басталады. Мұны істеудің бір типтік тәсілі - гистограмма, мәндердің жиілігін көрсететін диаграмма.
Гистограмма келесідей құрастырылған:
- Сандар диапазоны интервалдарға бөлінеді
- Әрбір интервал үшін оған кіретін бақылаулар саны есептеледі
- Жолақтардың биіктіктері осы жиіліктерді көрсетеді
Warning in geom_histogram(binwidth = 5000, border = 25, color = "white"):
Ignoring unknown parameters: `border`
Warning in stat_bin(binwidth = 5000, border = 25, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`
- Іс жүзінде аралық (немесе “қапшық”) өлшемі зерттеушінің қалауы бойынша қалады.
Warning in geom_histogram(binwidth = 2500, border = 25, color = "white"):
Ignoring unknown parameters: `border`
Warning in stat_bin(binwidth = 2500, border = 25, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`
- Өлшеммен ойнау арқылы сіз таралымды “Толық ақпарат” немесе “қорытындылай” аласыз
Warning in geom_histogram(binwidth = 10000, border = 25, color = "white"):
Ignoring unknown parameters: `border`
Warning in stat_bin(binwidth = 10000, border = 25, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`
Мысал: орташа өмір сүру ұзақтығы
Warning in geom_histogram(binwidth = 5, border = 45, color = "white"): Ignoring
unknown parameters: `border`
Warning in stat_bin(binwidth = 5, border = 5, geom = "text", aes(label =
after_stat(count)), : Ignoring unknown parameters: `border`
Тарату қисығы: Тарату құйрықтары
- Көрнекі түрде гистограммаларда “құйрықтар” бар - таралудың “шеттеріндегі” аймақтар
- “құйрықтар” “ұзын” немесе “қалың” болуы мүмкін
- Егер таралудың “ұзын/қалың” құйрығы болса, таралудың өз бағытында “қисайған” деп айтуға болады.
- Егер сізде сол жақ құйрық ұзын болса, таралым солға қисайған.
- Егер сізде оң жақ құйрық болса, онда оңға қисайған.
- Таратулар әдетте бүтін сандарға бөлінеді:
- Оңға қарай қисайған
- Солға қарай қисайған
- Симметриялық
Мысалдар
Режим
Тарату режимі, қарапайым тілмен айтқанда, ең жиі кездесетін мән болып табылады. Көрнекі түрде, режим таралудың “шыңына” немесе максимумына сәйкес келеді.
Мұндай шыңдардың саны әдетте сипаттау үшін қолданылады
Бірмодальды таралулар: бір максимуммен
Бимодальды таралулар: екімен
Және мультимодальды таралулар: екіден көппен
Бимодальды таралу
- Айталық, y таралу
classroom <- tibble(ages = c(14,
15, 15,
16, 16, 16,
17, 17, 17, 17,
18, 18,
19,
29,
30, 30,
31, 31, 31,
32, 32,
33),
classroom = "classroom")- Оның таралуы келесідей болады
Орталық өлшемдері Тренд
Қысқаша статистика
- Айталық, мен 2007 жылғы ЖІӨ деректерін қорытындылағым келді.
- Қысқаша статистика қандай да бір жолмен таралуды сипаттайды
- Мысалы, олар оның “орталығын” көрсетеді
- Немесе мәндердің “таралу” дәрежесі
- Немесе таралудың асимметриясы (қисықтық)
- Тағы да, статистика - бұл сіз үлгі негізінде есептейтін кез келген сан немесе сандар
Тарату орталығы: орташа мән, медиана және мода
- Үлгі орташа мәні - барлық мәндердің қосындысын бақылау санына бөлу арқылы есептеледі
\[\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n}\]
Мысалы, \(\mathbf{x} = \{1, 2, 3, 4, 10\} \rightarrow \bar{x} = \frac{1+2+3+4+10}{5}=4\)
Үлгі медианасы - оны «екіге» бөлетін сандық қатардағы нүкте
- e.g. \(\mathbf{x} = {1, 2, \mathbf{3}, 4, 10}\)
Мода - ең жиі кездесетін мән
Сандық айнымалылар үшін сирек қолданылады
Үлестірудің “ортасын” қалай бағалауға болады.
Мысал: Орташа және медиана
- Айталық, компанияда
- директордың жалақысы 1 000 000 теңге
- және қызметкерлердің жалақысы 100 000 теңге
- Орташа жалақы $ = $250 000
- Ал медиана $100 000 теңге
- Егер директорды алып тастасақ, орташа мән айтарлықтай өзгереді ($100 000 теңге)
- Бірақ медиана өзгеріссіз қалады.
- Орташа мән ауытқуларға сезімтал.
- Медиана ауытқуларға тұрақты.
- Беріктік
-
Статистикада беріктік дегеніміз әртүрлі, жалпы белгісіз себептермен байланысты үлгідегі әртүрлі ауытқулар мен біртекті еместіктерге сезімсіздікті білдіреді.
(Вики).
Орташа және медиана
- Қайсысы жақсырақ, орташа ма, әлде медиана ма? Бұл контекстке байланысты.
- Мысалы, үй шаруашылығының табысы әдетте медианамен өлшенеді:
- Себебі табыстың бөлінуі әдетте оңға қарай ығысқан.
- Неліктен олай деп ойлайсыз?
- Дегенмен, орташа бөліну туралы көбірек ақпаратты қамтиды. Сондықтан, орташаны біле отырып, сіз, мысалы, аймақтағы жалпы байлықты есептей аласыз.
Мысал
- Қайсысы медиана, қайсысы орташа екенін анықтаңыз?
Өмір сүру ұзақтығы
Орташа және медиана: қиғаштық контексінде
- Егер орташа > медиана болса: таралу оңға қарай қисайған
- Егер орташа мән < Медиана болса: таралу солға қарай қисайған
- Егер орташа мән \(\approx\) болса Медиана: таралу симметриялы
- Орташа мән ауытқулармен «тартылады»
- Медиана тұрақтырақ
Дисперсия метрикалары
Дисперсия және стандартты ауытқу
- Ай сайынғы кірісі $1 500 000 теңге болатын екі кафе бар делік
| month | Cafe A | Cafe B |
|---|---|---|
| January | 1000 | 700 |
| February | 1300 | 1900 |
| March | 700 | 1000 |
| April | 1200 | 1100 |
| May | 800 | 500 |
| June | 1000 | 800 |
Дисперсия
- Кафелер орташа мәннің айналасында мәндерінің қаншалықты кең таралуы бойынша әртүрлі.
- Бұл айырмашылықты санмен қалай көрсетуге болады? - Бір нұсқа - мәндер диапазонын алу (яғни, ең төменгі және ең жоғары мәндер)
- А кафесі үшін \(700\) және \(1300\)
- В кафесі үшін \(700\) және \(1900\)
- Жаман емес, бірақ өте ақпараттық емес
Орташа мәннен ауытқуларды қарастырсақ ше?
\[\begin{align*} \delta_1 = x_1 - \bar{x} = 1000 - 1000 = 0 \\ \delta_2 = x_2 - \bar{x} = 1300 - 1000 = 300 \\ \delta_3 = x_3 - \bar{x} = 700 - 1000 = -300 \\ \delta_4 = x_4 - \bar{x} = 1200 - 1000 = 200 \\ \delta_5 = x_5 - \bar{x} = 800 - 1000 = -200 \\ \delta_6 = x_6 - \bar{x} = 1000 - 1000 = 0 \end{align*}\]
Содан кейін оларды квадраттаңыз
\[\begin{align*} \delta_1^2 = (x_1 - \bar{x})^2 = 0^2 = 0 \\ \delta_2^2 = (x_2 - \bar{x})^2 = 300^2 = 90 000\\ \delta_3^2 = (x_3 - \bar{x})^2 = -300^2 = 90 000\\ \delta_4^2 = (x_4 - \bar{x})^2 = 200^2 = 40 000\\ \delta_5^2 = (x_5 - \bar{x})^2 = -200^2 = 40 000 \\ \delta_6^2 = (x_6 - \bar{x})^2 = 1000 - 1000 = 0 \end{align*}\]
Қосу
\[\begin{align*} SSD_{WWYB} = \sum_{i=1}^{6}\delta_i^2 = \\ \sum_{i=1}^{6}(x_i - \bar{x})^2 = \\ 260000 \end{align*}\]
Енді бізде дисперсия бар
\[\begin{align*} Дисперсия(X) = \frac{SSD}{n} = \frac{\sum_{i=1}^{6}(x_i - \bar{x})^2}{6} = \\ \frac{260000}{6} \approx 43.333 \end{align*}\]
Ал стандартты ауытқу \[ sd(X) = \sqrt{43.333} \approx 6.58 \]
Дисперсия және стандартты ауытқу
def: Таңдамалы дисперсия
\[ Var(X) = \frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1} \]
def: Үлгі стандартты ауытқуы
\[ sd(X) = \sqrt{Var(X)} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \hat{x})^2}{n-1}} \]
R туралы аздап ақпарат
- R дисперсияны есептеген кезде, ол бөлгішінде \(n-1\) болатын формуланы пайдаланады.
c(1000, 1300, 700, 1200, 800, 1000) %>% var()[1] 52000
c(1000, 1300, 700, 1200, 800, 1000) %>% var()*5/6[1] 43333.33
Дисперсияның басқа өлшемдері: IQR
- IQR квартильаралық диапазонды білдіреді
- IQR - үлестірімнің 1-ден 3-ке дейінгі квартильдерін көрсететін мәндер жұбы
- \(Q_1\): 1-ші квартиль немесе 25-ші процентиль - деректердің 25%-ы түсетін мән
- \(Q_3\): 3-ші квартиль немесе 75-ші процентиль - деректердің 75%-ы түсетін мән
- Сұрақ: 2-ші квартиль неге сәйкес келеді?
Мысалдар мен жаттығулар
1-мысал
«Гапминдер» деректер жинағындағы жан басына шаққандағы ЖІӨ-нің таралуы оңға қарай бұрылған, бірнеше өте бай елдер оң жаққа қарай созылып жатыр. Егер сіз елдер арасындағы типтік байлықты түсінгіңіз келсе, медианаға немесе орташа мәнге көбірек қызығушылық танытуыңыз керек пе?
1-мысал
gapminder деректер жиынындағы жан басына шаққандағы ЖІӨ-нің таралуы оңға қарай қисайған: бірнеше өте бай елдер бар. Бұл таралуды қайсысы жақсы сипаттайды, орташа ма, әлде медиана ма?
Жауап:
- Егер сіз әдеттегі елдің қаншалықты бай екенін түсінгіңіз келсе, медиананы пайдаланыңыз.
- Бірақ, мысалы, егер сіз бүкіл әлемнің қаншалықты «бай» екенін түсінгіңіз келсе, орташаны пайдаланыңыз.
Санаттық айнымалылар
Деректер
| state | homeownership | application_type |
|---|---|---|
| NJ | MORTGAGE | individual |
| HI | RENT | individual |
| WI | RENT | individual |
| PA | RENT | individual |
| CA | RENT | joint |
| KY | OWN | individual |
| MI | MORTGAGE | joint |
| AZ | MORTGAGE | individual |
| NV | MORTGAGE | individual |
| IL | RENT | individual |
Lending Club платформасында берілген несиелер туралы деректер. Деректер жинағында үш айнымалының $10,000 бақылауы бар:
state: Несие берілген жерhomeownership: Үйге меншік құқығының мәртебесі- levels:
RENT,PORTGAGE,ONN application_type: Өтінім түрі- levels:
жеке,бірлескен - Егер сізді қызықтырса, платформа туралы оқи аласыз https://en.wikipedia.org/wiki/LendingClub
Жиілік
- Санаттық айнымалылармен не істеуге болады?
- Ең айқыны - деңгейлердің жиілігін санау (белгілі бір деңгейлер қаншалықты жиі кездесетіндіктен)
| homeownership | n |
|---|---|
| MORTGAGE | 4789 |
| OWN | 1353 |
| RENT | 3858 |
application_typeүшін де солай
| application_type | n |
|---|---|
| individual | 8505 |
| joint | 1495 |
Визуализация
- Сондай-ақ, бағаналы диаграмма жасауға болады.
Bar chart
- Қолданба түріне ұқсас
Шартты кесте
| application_type | MORTGAGE | OWN | RENT |
|---|---|---|---|
| individual | 3839 | 1170 | 3496 |
| joint | 950 | 183 | 362 |
Шекті үлестірімдер
table(loans$application_type, loans$homeownership) %>%
addmargins()
MORTGAGE OWN RENT Sum
individual 3839 1170 3496 8505
joint 950 183 362 1495
Sum 4789 1353 3858 10000
Жол және баған пропорциялары
Жол пропорциялары
- Кейде бір айнымалының пропорцияларының деңгейлер бойынша қалай өзгеретінін көргіміз келеді басқасының.
- Ол үшін әрбір жол элементін сол жолдың қосындысына бөлуге болады.
MORTGAGE OWN RENT Sum
individual 3839 1170 3496 8505
joint 950 183 362 1495
Sum 4789 1353 3858 10000
MORTGAGE OWN RENT Sum
individual 0.451 0.138 0.411 1.000
joint 0.635 0.122 0.242 1.000
Sum 0.479 0.135 0.386 1.000
Баған пропорциялары
- Бағандармен ұқсас.
MORTGAGE OWN RENT Sum
individual 3839 1170 3496 8505
joint 950 183 362 1495
Sum 4789 1353 3858 10000
MORTGAGE OWN RENT Sum
individual 0.451 0.138 0.411 1.000
joint 0.635 0.122 0.242 1.000
Sum 0.479 0.135 0.386 1.000
Айқас кестелер және жолақ графиктері
- Айқас кестелер және жолақ/баған пропорциялары санаттық айнымалылар арасындағы байланысты түсінуге көмектеседі
- Айқас кестелерді келесідей көрсетуге болады
- Қабатталған жолақ диаграммасы**
- Қатар орналасқан жолақ диаграммасы**
- Стандартталған жолақ диаграммасы**
Қабатталған график
Біз деңгейлерді бірінің үстіне бірін жай ғана қабаттаймыз (қабат)
Топталған
Деңгейлерді бірінің қасына қабаттастырыңыз
Стандартталған
Біз барлық жолақтарды бірдей биіктікке реттейміз, содан кейін оларды екінші айнымалы деңгейлеріне пропорционалды түрде бөлеміз.
- Бұл көруді жеңілдетеді. Пропорциялар
Қай түрі жақсы?
Түсіндірме айнымалысы қайда және жауап айнымалысы қайда екені туралы нақты түсінік болған кезде стекстелген жақсы. Алдымен бақылауларды түсіндірме айнымалысы бойынша топтастырасыз, содан кейін оларды жауап айнымалысы деңгейлері бойынша стектерге бөлесіз.
Топтастырылған бақылаулар санын топтарда жақсы көруге мүмкіндік береді.
Стандартталған деңгейлер «теңгерімсіз» болған кезде қолайлы: бір деңгей бақылаулардың көпшілігін қамтыған кезде.
Тор
- Кейде санаттық айнымалының әрбір деңгейі үшін бірнеше панель құруға болады.
Warning: The dot-dot notation (`..prop..`) was deprecated in ggplot2 3.4.0.
ℹ Please use `after_stat(prop)` instead.
Дөңгелек диаграммаларға тыйым салынады!
Дөңгелек диаграмма және Дөңгелек диаграмма
Мысал: Жалпы әлеуметтік сауалнама (GSS)
| year | marital | age | race | rincome | partyid | relig | denom | tvhours |
|---|---|---|---|---|---|---|---|---|
| 2000 | Never married | 26 | White | $8000 to 9999 | Ind,near rep | Protestant | Southern baptist | 12 |
| 2000 | Divorced | 48 | White | $8000 to 9999 | Not str republican | Protestant | Baptist-dk which | NA |
| 2000 | Widowed | 67 | White | Not applicable | Independent | Protestant | No denomination | 2 |
| 2000 | Never married | 39 | White | Not applicable | Ind,near rep | Orthodox-christian | Not applicable | 4 |
| 2000 | Divorced | 25 | White | Not applicable | Not str democrat | None | Not applicable | 1 |
| 2000 | Married | 25 | White | $20000 - 24999 | Strong democrat | Protestant | Southern baptist | NA |
| 2000 | Never married | 36 | White | $25000 or more | Not str republican | Christian | Not applicable | 3 |
| 2000 | Divorced | 44 | White | $7000 to 7999 | Ind,near dem | Protestant | Lutheran-mo synod | NA |
| 2000 | Married | 44 | White | $25000 or more | Not str democrat | Protestant | Other | 0 |
| 2000 | Married | 47 | White | $25000 or more | Strong republican | Protestant | Southern baptist | 3 |
GSS
Сипаттамасы
Бізде Жалпы әлеуметтік сауалнамадан алынған үлгі бар.
Жалпы әлеуметтік сауалнама (GSS) - Чикаго университетінің Ұлттық пікірді зерттеу орталығы 1972 жылдан бері үнемі жүргізіп келе жатқан әлеуметтанулық сауалнама. GSS ақпарат жинайды және Америка Құрама Штаттарындағы адамдардың алаңдаушылықтары, тәжірибелері, көзқарастары мен тәжірибелері туралы тарихи жазбаларды жүргізеді. (Wiki)
- 2000-2014 жылдар аралығындағы 21 483 бақылау және 9 айнымалы
Айнымалылар
жыл: сауалнама жылы, 2000–2014жас: жас, ең жоғары жас 89-мен шектеледі. -некелікнәсілринком: ресми табыспартиид: партияға қатыстылықдінилік: діни сәйкестендіруконфессия: нақты діни конфессиятеледидар сағаттары: күніне теледидар көру сағаттары
GSS: Бағаналық диаграммалар
- Кеңес: деңгейлерді жиілігі бойынша сұрыптаңыз (сирек кездесетіннен жиі кездесетінге дейін)
- Одан да жақсысы, жолақты диаграммаларды көлденең бағыттаңыз.
Сандық ~ Санаттық айнымалылар
Идея қарапайым.
- Сандық айнымалыны санаттық айнымалының деңгейлеріне сәйкес кіші топтарға бөліңіз.
- Сандық айнымалыны визуализациялаңыз
- қорап диаграммаларымен
- немесе мөлдір гистограммалармен.
- Графиктерге үлгі статистикасын қосыңыз.
- орташа
- медиана
- стандартты ауытқу
- және осыған ұқсас.
Округ деректер жиынтығы
Біз Америка Құрама Штаттарындағы округтер туралы деректермен жұмыс істейміз. Америка Құрама Штаттарында 3142 округ бар.
Округ - Америка Құрама Штаттарындағы штаттың әкімшілік бөлінісі. Ол халық саны бойынша штаттан кіші және қаладан үлкен (wiki)
| name | state | pop2017 | poverty | unemployment_rate | per_capita_income | median_hh_income | median_edu | pop_change |
|---|---|---|---|---|---|---|---|---|
| Autauga County | Alabama | 55504 | 13.7 | 3.86 | 27841.70 | 55317 | some_college | Increased |
| Baldwin County | Alabama | 212628 | 11.8 | 3.99 | 27779.85 | 52562 | some_college | Increased |
| Barbour County | Alabama | 25270 | 27.2 | 5.90 | 17891.73 | 33368 | hs_diploma | Descreased |
| Bibb County | Alabama | 22668 | 15.2 | 4.39 | 20572.05 | 43404 | hs_diploma | Increased |
| Blount County | Alabama | 58013 | 15.6 | 4.02 | 21367.39 | 47412 | hs_diploma | Increased |
| Bullock County | Alabama | 10309 | 28.5 | 4.93 | 15444.16 | 29655 | hs_diploma | Descreased |
| Butler County | Alabama | 19825 | 24.4 | 5.49 | 17014.95 | 36326 | hs_diploma | Descreased |
| Calhoun County | Alabama | 114728 | 18.6 | 4.93 | 23609.64 | 43686 | some_college | Descreased |
| Chambers County | Alabama | 33713 | 18.8 | 4.08 | 21079.51 | 37342 | hs_diploma | Descreased |
| Cherokee County | Alabama | 25857 | 16.1 | 4.05 | 23067.93 | 40041 | hs_diploma | Descreased |
Деректер жинағында келесі айнымалылар бар
name(cat): Округ атауыstate(cat): Штат атауыpop2017(num): 2017 жылғы халық саныpop_change(cat): 2010 жылдан 2017 жылға дейінгі халық санының өзгеруіpoverty(num): 2017 жылғы кедейліктегі халықтың пайызыunemplus_rate(num): Жұмыссыздық деңгейі 2017жан басына шаққандағы_табыс(сан): Жан басына шаққандағы (адам басына шаққандағы) табыс (2013-2017)орташа_үй_табысы(сан): Орташа үй шаруашылығының табысыорташа_білім(орташа): Орташа білім деңгейі (2013-2017)
Boxplot
Мөлдір гистограммалар
Тығыздық графиктері
Суреттер жақсы, бірақ сандары бар суреттер жақсырақ!
- Статистиканы дайындаңыз
| pop_change | mean_hh_income | sd_hh_income | first_quartile | third_quartile |
|---|---|---|---|---|
| Increased | 54412.97 | 14086.45 | 44633.5 | 60874.50 |
| Descreased | 45267.26 | 10364.54 | 38071.5 | 51102.75 |
- Және оларды суретке қосыңыз
Өзіндік жұмыс және жаттығулар
Барлығы міндетті емес.
- Оқыңыз: Кіріспе статистикасын ашыңыз (4-басылым), 2-тарау
- Жаттығулар: 2.1, 2.2, 2.4, 2.7, 2.8, 2.9, 2.10, 2.14, 2.17