Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Статистичне висновування

Статистичне висновування

Другие языки:

Статистичне висновування

Подписчиков: 0, рейтинг: 0

Статисти́чне висно́вування (англ. statistical inference) — це процес застосування аналізу даних для встановлення властивостей розподілу ймовірностей, який лежить в їх основі. Висновувальний статистичний аналіз робить висновки про властивості генеральної сукупності, наприклад, шляхом перевіряння гіпотез та отримування оцінок. Він виходить з припущення, що спостережувані дані є вибіркою з більшої сукупності.

Індуктивну статистику (англ. inferential statistics) можливо протиставляти описовій статистиці. Описова статистика цікавиться виключно властивостями спостережуваних даних, і не спирається на припущення, що ці дані походять із більшої сукупності.

Передмова

Статистичне висновування створює висловлення про генеральну сукупність, використовуючи дані, вибрані з цієї сукупності за допомогою якогось виду відбору. Для заданої гіпотези про генеральну сукупність, про яку ми хочемо робити висновки, статистичне висновування складається з (по-перше) обирання статистичної моделі процесу, що породжує ці дані, та з (по-друге) виведення висловлень з цієї моделі.^{[джерело?]}

Конісі та Кітагава стверджують, що «більшість задач статистичного висновування можливо розглядати як задачі, пов'язані зі статистичним моделюванням». Стосовно цього Девід Кокс сказав, що «як саме здійснюється [цей] переклад із предметної задачі до статистичної моделі, є часто найкритичнішою частиною аналізу.»

Висновком статистичного висновування є статистичне висловлення. Деякими з поширених видів статистичних висловлень є наступні:

точкова оцінка, тобто певне значення, що найкраще наближує деякий досліджуваний параметр;
проміжкова оцінка, наприклад, довірчий проміжок (або множинна оцінка), тобто проміжок, побудований з використанням набору даних, вибраного з генеральної сукупності, так, що при повторюваному відборі таких наборів даних такі проміжки міститимуть істинне значення параметру з імовірністю на заданому довірчому рівні;
імовірний проміжок, тобто множина значень, що містить, наприклад, 95% апостеріорного переконання;
відхилення гіпотез;
кластерування або класифікація точок даних на групи.

Моделі та припущення

Детальніші відомості з цієї теми ви можете знайти в статті Статистична модель та Статистичні припущення.

Статистичне висновування вимагає деяких припущень. Статисти́чна моде́ль є набором припущень стосовно породження спостережуваних даних, та схожих на них. Описи статистичних моделей зазвичай підкреслюють роль досліджуваних величин генеральних сукупностей, стосовно яких ми хочемо робити висновки. Як підготовчий крок перед отриманням формальніших висновків, як правило, використовують описову статистику.

Рівні моделей/припущень

Статистики розрізняють три рівні моделювальних припущень:

Повністю параметричний: Розподіли ймовірностей, що описують процес породження даних, вважають повністю описаними сімейством розподілів імовірності, що включають лише обмежену кількість невідомих параметрів. Наприклад, можна припустити, що розподіл значень генеральної сукупності є істинно нормальним, з невідомими середнім значенням та дисперсією, і що набори даних породжуються «простим» випадковим вибиранням. Широко застосовуваним та гнучким класом параметричних моделей є узагальнені лінійні моделі.
Непараметричний: Припущення стосовно процесу, що породжує дані, є значно меншими, ніж у параметричній статистиці, й можуть бути мінімальними. Наприклад, кожен безперервний розподіл імовірності має медіану, яку може бути оцінено з використанням медіани вибірки, або оцінки Ходжеса — Лемана — Сена, що має гарні властивості, коли дані походять з простого випадкового відбору.
Напівпараметричний: Під цим терміном зазвичай мають на увазі припущення «посередині» між повністю параметричним та непараметричним підходами. Наприклад, можна припустити, що розподіл генеральної сукупності має скінченне середнє значення. Крім того, можна припустити, що рівень чутливості середнього значення в генеральній вибірці залежить істинно лінійним чином від деякої коваріати (параметричне припущення), але не робити жодного параметричного припущення, що описувало би дисперсію навколо цього середнього значення (тобто, про наявність або можливий вигляд будь-якої гетероскедастичності). Загальніше, напівпараметричні моделі часто можливо розділити на «структурну» складову, та складову «випадкової дисперсії». Одну складову обробляють параметрично, а іншу — непараметрично. Добре відома модель Кокса є набором напівпараметричних припущень.

Важливість чинності моделей/припущень

Якого б рівня припущення не робилися, правильно відкаліброване висновування в цілому вимагає, щоби ці припущення були правильними, тобто, щоби механізми породжування даних дійсно було вказано правильно.

Неправильні припущення про «просте» випадкове вибирання можуть зробити статистичне висновування нечинним. Наприклад, неправильне припущення про модель Кокса може в деяких випадках призвести до хибних висновків. Неправильні припущення про нормальність в генеральній сукупності також позбавляють чинності деякі види висновування на основі регресії. Використання будь-якої параметричної моделі розглядається скептично більшістю експертів у відборі вибірок з людських сукупностей: «більшість статистиків, що роблять вибірки, коли мають справу з довірчими проміжками взагалі, то обмежують себе твердженнями [про оцінки] на основі дуже великих вибірок, коли центральна гранична теорема гарантує, що [оцінки] матимуть розподіли, що є майже нормальними». Зокрема, нормальний розподіл «був би абсолютно нереалістичним та катастрофічно нерозумним припущенням, якщо ми маємо справу з будь-яким типом економічної генеральної сукупності». Тут центральна гранична теорема стверджує, що розподіл середнього значення вибірки «для дуже великих вибірок» є розподіленим приблизно нормально, якщо цей розподіл має не повільно спадний хвіст.

Наближені розподіли

Детальніші відомості з цієї теми ви можете знайти в статті Статистична відстань, Асимптотична теорія (статистика) та Теорія наближень.

Враховуючи труднощі визначення точних розподілів статистик вибірки, було розроблено багато методів їхнього наближення.

При скінченних вибірках результати наближення вимірюють, наскільки близько граничний розподіл наближається до розподілу вибірки статистики: наприклад, із 10 000 незалежними зразками нормальний розподіл наближається (з двома цифрами точності) до розподілу вибіркового середнього для багатьох популярних розподілів, згідно теореми Беррі — Ессена. Тим не менше, для багатьох практичних цілей нормальне наближення дає добре наближення за наявності 10 (або більше) незалежних зразків, згідно із симуляційними дослідженнями та досвідом статистиків. Після праці Колмогорова в 1950-х роках передова статистика використовує теорію наближень та функціональний аналіз для кількісного вираження похибки наближення. У цьому підході досліджується метрична геометрія розподілів ймовірностей; цей підхід виражає похибку наближення за допомогою, наприклад, розходження Кульбака — Лейблера, Брегманове розходження та відстані Хеллінгера.

Для нескінченно великих вибірок граничний розподіл вибіркової статистики, якщо такий існує, описують граничні результати, такі як центральна гранична теорема. Граничні результати не є твердженнями про скінченні вибірки, і дійсно є недоречними для них. Тим не менш, асимптотичну теорію граничних розподілів часто залучають для роботи зі скінченними вибірками. Наприклад, граничні результати часто залучають для обґрунтування узагальненого методу моментів та для використання узагальнених оцінювальних рівнянь, що є популярними в економетрії та біологічній статистиці. Величину різниці між граничним та істинним розподілами (формально, «похибку» апроксимації) може бути оцінено із застосуванням симуляції. Евристичне застосування граничних результатів до скінченних вибірок є поширеною практикою в багатьох застосуваннях, особливо з моделями невисокої розмірності з логарифмічно угнутими правдоподібностями (такими як однопараметричні експоненційні сімейства).

Моделі на основі рандомізації

Детальніші відомості з цієї теми ви можете знайти в статті Випадкова вибірка та Випадкове призначення.

Для заданого набору даних, що було вироблено за планування з рандомізацією, розподіл рандомізації статистики (за нульової гіпотези) визначає оцінка пробної статистики для всіх планів, що може бути породжено цим плануванням з рандомізацією. У частотницькому висновуванні рандомізація дозволяє висновуванням ґрунтуватися на розподілі рандомізації, а не на суб'єктивній моделі, і це є особливо важливим у вибиранні для обстеження та плануванні експериментів. Статистичне висновування із рандомізованих досліджень є також простішим і в багатьох інших ситуаціях. Рандомізація є важливою і в баєсовім висновуванні: у вибиранні для обстеження застосування вибирання без повертання забезпечує взаємозамінність вибірки з генеральною сукупністю; в рандомізованих експериментах рандомізація гарантує припущення випадкової відсутності для інформації про коваріату.

Об'єктивна рандомізація дозволяє правильні індуктивні процедури. Багато статистиків віддають перевагу аналізу на основі рандомізації для даних, що було породжено чітко визначеними рандомізаційними процедурами. (Тим не менше, правдою є й те, що в галузях науки із розвиненими теоретичними знаннями та керуванням експериментами рандомізовані експерименти можуть збільшувати витрати на експериментування без поліпшення якості висновків.) Так само, результати рандомізованих експериментів рекомендуються провідними статистичними органами як такі, що можуть уможливлювати висновування з більшою надійністю, ніж спостережні дослідження тих самих явищ. Тим не менше, добре спостережне дослідження може бути кращим за поганий рандомізований експеримент.

Статистичний аналіз рандомізованого експерименту може ґрунтуватися на схемі рандомізації, визначеній у протоколі експерименту, і не потребує суб'єктивної моделі.

Проте, як би там не було, деякі гіпотези неможливо перевіряти із застосуванням об'єктивних статистичних моделей, що точно описують рандомізовані експерименти або випадкові вибірки. В деяких випадках такі рандомізовані дослідження є неекономічними або неетичними.

Аналіз рандомізованих експериментів на основі моделей

Стандартною практикою при аналізі даних з рандомізованих експериментів є посилатися на статистичну модель, наприклад, лінійну або логістичну. Проте схема рандомізації направляє обирання статистичної моделі. Неможливо вибрати підхожу модель, не знаючи схеми рандомізації. Ігноруючи протокол експерименту при аналізі даних з рандомізованих експериментів, можна отримати небезпечно оманливі результати; поширені помилки включають забування блокування, що використовується в експерименті, та сплутування повторюваних вимірювань на одній і тій же експериментальній одиниці з незалежними повторами обробки, застосовуваної до різних експериментальних одиниць.

Безмодельне рандомізоване висновування

Безмодельні методики забезпечують доповнення до методів на основі моделей, які застосовують редукціоністські стратегії спрощування дійсності. Перші ж поєднують, розвивають, комбінують та тренують алгоритми динамічно, пристосовуючись до контекстних спорідненостей процесу, та навчаючись характеристик, притаманних спостереженням.

Наприклад, безмодельна проста лінійна регресія ґрунтується або на

випадковім плануванні, в якому пари спостережень $(X_{1},Y_{1}),(X_{2},Y_{2}),\cdots ,(X_{n},Y_{n})$ є незалежними та однаково розподіленими (н. о. р.), або на
детермінованім плануванні, в якому пари спостережень $X_{1},X_{2},\cdots ,X_{n}$ є детермінованими, але відповідні змінні відгуку $Y_{1},Y_{2},\cdots ,Y_{n}$ є випадковими та незалежними зі спільним умовним розподілом, тобто, $P\left(Y_{j}\leq y|X_{j}=x\right)=D_{x}(y)$ , що є незалежним від індексу $j$ .

В кожному з випадків безмодельне рандомізоване висновування для ознак спільного умовного розподілу $D_{x}(.)$ покладається на певні умови регулярності, наприклад, функційної гладкості. Наприклад, безмодельне рандомізоване висновування для ознаки сукупності умовне середнє, $\mu (x)=E(Y|X=x)$ , може бути послідовно оцінено через локальне усереднювання або локальне поліноміальне допасовування, за припущення, що $\mu (x)$ є гладкою. Також, покладаючись на асимптотичну нормальність або перевибірку, ми можемо будувати довірчі проміжки для ознаки сукупності, в цьому випадку, умовного середнього $\mu (x)$ .

Парадигми висновування

Було засновано різні школи статистичного висновування. Ці школи, або «парадигми», не є взаємовиключними, і методи, що добре працюють за однієї парадигми, часто мають привабливі інтерпретації за інших парадигм.

Бандіопадхай та Форстер описують чотири парадигми: «(I) класичні статистики або статистики похибок, (II) баєсові статистики, (III) статистики на основі правдоподібностей, та (IV) статистики на основі інформаційного критерію Акаіке». Огляд класичної (або частотницької) парадигми, баєсової парадигми, правдоподібницької парадигми, та парадигми на основі інформаційного критерію Акаіке наведено нижче.

Частотницьке висновування

Ця парадигма калібрує слушність висловлень шляхом розгляду (релевантного) повторюваного відбору з розподілу сукупності для вироблення наборів даних, подібних до наявного. Шляхом розгляду характеристик цього набору даних на повторюваних вибірках може бути отримано кількісну оцінку частотницьких властивостей статистичного висловлення, хоча на практиці таке кількісне оцінювання може бути складним завданням.

Частотницьке висновування, об'єктивність та теорія рішень

Однією з інтерпретацій частотницького висновування (або класичного висновування) є те, що воно є застосовним лише в термінах частотницької ймовірності, тобто в термінах повторюваних вибірок із генеральної сукупності. Проте підхід Неймана розвиває ці процедури в термінах преекспериментальних імовірностей. Тобто, перш ніж приступати до експерименту, ухвалюють рішення про правило, як приходити до висновку, так що ймовірність бути правильними контролюється зручним чином: такій імовірності не потрібно мати частотницьку інтерпретацію, або інтерпретацію повторного відбору. На противагу, баєсове висновування працює в термінах умовних імовірностей (тобто ймовірностей, обумовлених спостережуваними даними), порівнюваних із відособленими (але обумовленими невідомими параметрами) ймовірностями, що застосовуються в частотницькому підході.

Частотницькі процедури перевірки значущості та довірчих проміжків може бути побудовано без врахування функцій корисності. Проте деякі елементи частотницьких статистик, такі як статистична теорія рішень, таки включають функції корисності.^{[джерело?]} Зокрема, частотницькі розвитки оптимального висновування (такі як мінімально-дисперсійні незміщені оцінки або рівномірно найпотужніші критерії) використовують функції втрат, що відіграють роль (від'ємних) функцій корисності. Статистикам-теоретикам не потрібне явне вказання функцій втрат для доведення того, що статистична процедура володіє властивістю оптимальності. Тим не менше, функції втрат часто є корисними для встановлення властивостей оптимальності: наприклад, медіанні незміщені оцінки є оптимальними за модульних функцій втрат, бо вони мінімізують очікувані втрати, а мінімально-квадратичні оцінки є оптимальними за квадратичних функцій втрат, бо вони мінімізують очікувані втрати.

Хоча статистики, що використовують частотницьке висновування, і повинні обирати для себе параметри, що їх цікавлять, та оцінки/критерії, які застосовувати, відсутність очевидно явних функцій корисності та апріорних розподілів посприяла тому, що частотницькі процедури стали широко розглядатися як «об'єктивні».

Баєсове висновування

Баєсове числення описує міри переконання із застосуванням «мови» ймовірності; переконання є додатними, інтегруються в одиницю, та підкоряються аксіомам імовірності. Баєсове висновування використовує доступні апостеріорні переконання як основу для створення статистичних висловлень. Існує декілька різних обґрунтувань застосування баєсового підходу.

Приклади баєсового висновування

Імовірний проміжок для проміжкового оцінювання
Коефіцієнти Баєса для порівнювання моделей

Баєсове висновування, суб'єктивність та теорія рішень

Багато неформальних баєсових висновувань ґрунтуються на «інтуїтивно розумних» зведеннях апостеріорного. Наприклад, як такі може бути обґрунтовано апостеріорне середнє, медіану та моду, проміжки найвищої густини апостеріорного та коефіцієнти Баєса. І хоча в цьому типі висновування й не потрібно вказувати користувацьку функцію корисності, ці зведення всі залежать (певною мірою) від вказаних апріорних переконань, і загалом розглядаються як суб'єктивні висновки. (Було запропоновано методи побудови апріорного, що не вимагають зовнішнього введення, але їх ще не було повністю розроблено.)

Формально баєсове висновування калібрується із посиланням на явно вказану функцію корисності, або втрат; «правило Баєса» є таким, що максимізує очікувану корисність, усереднену над невизначеністю апостеріорного. Формальне баєсове висновування відтак автоматично пропонує оптимальні рішення в розумінні теорії рішень. При заданих припущеннях, даних та корисності баєсове висновування може бути зроблено практично для будь-якої задачі, хоча не кожному статистичному висновуванню потрібно мати баєсову інтерпретацію. Аналізи, що не є формально баєсовими, можуть бути (логічно) незв'язними; особливість баєсових процедур, що використовують коректні апріорні (тобто такі, що інтегруються до одиниці), полягає в тому, що вони гарантовано будуть зв'язними. Деякі прихильники баєсового висновування стверджують, що висновування мусить мати місце в цій теоретичній моделі рішень, і що баєсове висновування не повинне завершуватися оцінкою та узагальненням апостеріорних переконань.

Висновування на основі правдоподібності

Правдоподібництво підходить до статистики з використанням функції правдоподібності. Деякі правдоподібники відкидають висновування, розглядаючи статистику лише як обчислювання підтримки свідченнями. Інші, проте, пропонують висновування на основі функції правдоподібності, найвідомішим з яких є оцінювання максимальною правдоподібністю.

Висновування на основі інформаційного критерію Акаіке

Інформаційний критерій Акаіке (ІКА, англ. Akaike information criterion, AIC) — це оцінювач відносної якості статистичних моделей для заданого набору даних. Для заданого набору моделей для цих даних ІКА оцінює якість кожної з них, по відношенню до кожної іншої з цих моделей. Таким чином, ІКА забезпечує засоби обирання моделі.

ІКА ґрунтується на теорії інформації: він пропонує оцінку відносних втрат інформації при застосуванні заданої моделі для представлення процесу, що породив дані. (Роблячи це, він працює на компромісом між допасованістю моделі та її простотою.)

Інші парадигми для висновування

Мінімальна довжина опису

Принцип мінімальної довжини опису (МДО, англ. minimum description length, MDL) було розроблено з ідей із теорії інформації та теорії колмогоровської складності. Принцип МДО обирає статистичні моделі, що максимально стискають дані; висновування відбувається без розгляду «механізмів породження даних» або моделей ймовірності, що суперечать даним або є неспростовними, як це може робитися в частотницькому або баєсовому підходах.

Тим не менш, якщо «механізм породження даних» існує в реальності, то згідно шеннонівської теореми про кодування джерела він пропонує МДО-опис даних, в середньому та асимптотично. В мінімізації довжини опису (або описової складності) оцінка МДО є подібною до оцінки максимальної правдоподібності та оцінки апостеріорного максимуму (з використанням баєсових апріорних з максимальною ентропією). Хоча МДО й уникає припущення, що ймовірнісна модель, що лежить в основі даних, є відомою, принцип МДО також може застосовуватися й без припущень, наприклад, що дані походять з незалежної вибірки.

Принцип МДО застосовувався в комунікаційній теорії кодування в теорії інформації, в лінійній регресії та добуванні даних.

Виконання висновувальних процедур на основі МДО часто використовує методики та критерії з теорії складності обчислень.

Фідуційне висновування

Фідуційне висновування було підходом до статистичного висновування на основі фідуційної ймовірності, відомої також як «фідуційний розподіл». У подальших працях цей підхід було названо недовизначеним, надзвичайно обмеженим у застосовності та навіть помилковим. Хоча ця аргументація є такою ж, як і та, що показує, що так званий розподіл довіри не є чинним розподілом імовірності, та, оскільки це не позбавило чинності застосування довірчих проміжків, воно не обов'язково позбавляє чинності висновки, отримувані з фідуційної аргументації. Було вчинено спробу повторно інтерпретувати ранні праці з фідуційної аргументації Фішера як окремий випадок теорії висновування із застосуванням верхніх та нижніх імовірностей.

Структурне висновування

Розвиваючи ідеї Фішера та Пітмана з 1938 по 1939 рік,Джордж Барнард розробив «структурне висновування» (англ. structural inference) або «центральне висновування» (англ. pivotal inference), підхід, що використовує інваріантні ймовірності на групових сімействах (англ. group family). Барнард переформулював аргументацію, що стояла за фідуційним висновуванням, на обмеженому класі моделей, на якому «фідуційні» процедури були би добре визначеними та корисними.

Питання висновування

Наведені нижче питання зазвичай включаються до царини статистичного висновування.

Статистичні припущення
Статистична теорія рішень
Теорія оцінювання
Перевірка статистичних гіпотез
Перегляд поглядів у статистиці
Планування експериментів, дисперсійний аналіз та регресія
Вибирання для обстеження
Підсумовування статистичних даних

Історія

Найраніше з відомих застосувань статистичного висновування здійснив Аль-Кінді, арабський математик IX сторіччя, у своєму «Трактаті про дешифрування криптографічних повідомлень», праці про криптоаналіз та частотний аналіз.

Див. також

Алгоритмічне висновування
Індукція (логіка)
Неформальне висновування
Пропорція генеральної сукупності
Філософія статистики
Інформаційна теорія поля

Зауваження

Джерела

Bandyopadhyay, P. S.; Forster, M. R., ред. (2011). Philosophy of Statistics. Elsevier. (англ.)
Bickel, Peter J.; Doksum, Kjell A. (2001). Mathematical statistics: Basic and selected topics 1 (вид. Second (updated printing 2007)). Prentice Hall. ISBN 978-0-13-850363-5. MR 443141. (англ.)
Cox, D. R. (2006). Principles of Statistical Inference. Cambridge University Press. ISBN 0-521-68567-2. (англ.)
Fisher, R. A. (1955), "Statistical methods and scientific induction", Journal of the Royal Statistical Society, Series B, 17, 69—78. (criticism of statistical theories of Jerzy Neyman and Abraham Wald) (англ.)
Freedman, D. A. (2009). Statistical Models: Theory and practice (вид. revised). Cambridge University Press. с. xiv+442 pp. ISBN 978-0-521-74385-3. MR 2489600. (англ.)
Freedman, D. A. (2010). Statistical Models and Causal Inferences: A Dialogue with the Social Sciences (Edited by David Collier, Jasjeet S. Sekhon, and Philip B. Stark), Cambridge University Press. (англ.)
Hampel, Frank (Feb 2003). The proper fiducial argument (Research Report No. 114). Архів оригіналу за 10 травня 2017. Процитовано 29 березня 2016. (англ.)
Hansen, Mark H.; Yu, Bin (June 2001). Model Selection and the Principle of Minimum Description Length: Review paper. Journal of the American Statistical Association 96 (454): 746–774. JSTOR 2670311. MR 1939352. doi:10.1198/016214501753168398. Архів оригіналу за 16 листопада 2004. Проігноровано невідомий параметр |citeseerx= (довідка) (англ.)
Hinkelmann, Klaus; Kempthorne, Oscar (2008). Introduction to Experimental Design (вид. Second). Wiley. ISBN 978-0-471-72756-9. (англ.)
Kolmogorov, Andrei N. (1963). On tables of random numbers. Sankhyā Ser. A. 25: 369–375. MR 178484.
- Колмогоров А.Н. О таблицах случайных чисел. — Москва : ВИНИТИ, 1982. — Вип. 2. — С. 3-13. (рос.)
- Колмогоров А.Н. Теория информации и теория алгоритмов. — Москва : Наука, 1987. — С. 204-213. (рос.)
- Kolmogorov, Andrei N. (1998). On tables of random numbers. Theoretical Computer Science 207 (2): 387–395. MR 1643414. doi:10.1016/S0304-3975(98)00075-9. (англ.)
Konishi, S.; Kitagawa, G (2008). Information Criteria and Statistical Modeling. Springer. (англ.)
Kruskal, William (December 1988). Miracles and statistics: the casual assumption of independence (ASA Presidential Address). Journal of the American Statistical Association 83 (404): 929–940. JSTOR 2290117. doi:10.2307/2290117. (англ.)
Le Cam, Lucian (1986). Asymptotic Methods of Statistical Decision Theory. Springer. ISBN 0-387-96307-3. (англ.)
Moore, D. S.; McCabe, G. P.; Craig, B. A. (2015). Introduction to the Practice of Statistics (вид. VIII). Macmillan. (англ.)
Neyman, Jerzy (1956). Note on an article by Sir Ronald Fisher. Journal of the Royal Statistical Society, Series B 18 (2): 288–294. JSTOR 2983716. (англ.) (відповідь на працю Фішера 1955 року)
Peirce, C.S. (1877-1878). Illustrations of the logic of science (series). 12-13. Popular Science Monthly. (англ.) Відповідні окремі праці:
- (1878 March), "The Doctrine of Chances", Popular Science Monthly, v. 12, March issue, pp. 604 [Архівовано 20 серпня 2020 у Wayback Machine.]–615. Internet Archive Eprint. (англ.)
- (1878 April), "The Probability of Induction", Popular Science Monthly, v. 12, pp. 705 [Архівовано 5 грудня 2015 у Wayback Machine.]–718. Internet Archive Eprint. (англ.)
- (1878 June), "The Order of Nature", Popular Science Monthly, v. 13, pp. 203 [Архівовано 19 серпня 2020 у Wayback Machine.]–217.Internet Archive Eprint. (англ.)
- (1878 August), "Deduction, Induction, and Hypothesis", Popular Science Monthly, v. 13, pp. 470 [Архівовано 19 серпня 2020 у Wayback Machine.]–482. Internet Archive Eprint. (англ.)
Peirce, C.S. (1883). A Theory of probable inference. Studies in Logic (Little, Brown, and Company): 126–181. (Передруковано 1983 року, John Benjamins Publishing Company, ISBN 90-272-3271-7) (англ.)
Freedman, D.A; Pisani, R.; Purves, R.A. (1978). Statistics. New York: W.W. Norton, Inc.. (англ.)
Pfanzagl, Johann; with the assistance of R. Hamböker (1994). Parametric Statistical Theory. Berlin: Walter de Gruyter. ISBN 978-3-11-013863-4. MR 1291393. (англ.)
Rissanen, Jorma (1989). Stochastic Complexity in Statistical Inquiry. Series in Computer Science 15. Singapore: World Scientific. ISBN 978-9971-5-0859-3. MR 1082556. (англ.)
Soofi, Ehsan S. (December 2000). Principal information-theoretic approaches (Vignettes for the Year 2000: Theory and Methods, ed. by George Casella). Journal of the American Statistical Association 95 (452): 1349–1353. JSTOR 2669786. MR 1825292. doi:10.1080/01621459.2000.10474346. (англ.)
Traub, Joseph F.; Wasilkowski, G. W.; Wozniakowski, H. (1988). Information-Based Complexity. Academic Press. ISBN 978-0-12-697545-1. (англ.)
Zabell, S. L. (Aug 1992). R. A. Fisher and Fiducial Argument. Statistical Science 7 (3): 369–387. JSTOR 2246073. doi:10.1214/ss/1177011233. (англ.)

Література

Casella, G., Berger, R.L. (2002). Statistical Inference. Duxbury Press. ISBN 0-534-24312-6 (англ.)
Freedman, D.A. (1991). Statistical models and shoe leather. Sociological Methodology 21: 291–313. JSTOR 270939. doi:10.2307/270939. (англ.)
Held L., Bové D.S. (2014). Applied Statistical Inference—Likelihood and Bayes (Springer). (англ.)
Lenhard, Johannes (2006). Models and Statistical Inference: the controversy between Fisher and Neyman–Pearson. British Journal for the Philosophy of Science 57: 69–91. doi:10.1093/bjps/axi152. Архів оригіналу за 3 березня 2021. Процитовано 2 лютого 2020. (англ.)
Lindley, D (1958). Fiducial distribution and Bayes' theorem. Journal of the Royal Statistical Society, Series B 20: 102–7. (англ.)
Rahlf, Thomas (2014). "Statistical Inference", in Claude Diebolt, and Michael Haupert (eds.), "Handbook of Cliometrics ( Springer Reference Series)", Berlin/Heidelberg: Springer. http://www.springerreference.com/docs/html/chapterdbid/372458.html [Архівовано 14 липня 2014 у Wayback Machine.] (англ.)
Reid, N.; Cox, D. R. (2014). On Some Principles of Statistical Inference. International Statistical Review 83 (2): 293–308. doi:10.1111/insr.12067. (англ.)
Young, G.A., Smith, R.L. (2005). Essentials of Statistical Inference, CUP. ISBN 0-521-83971-8 (англ.)

Посилання

MIT OpenCourseWare [Архівовано 24 лютого 2021 у Wayback Machine.]: Statistical Inference (англ.)
NPTEL Statistical Inference [Архівовано 11 червня 2019 у Wayback Machine.], посилання на YouTube [Архівовано 8 березня 2021 у Wayback Machine.] (англ.)
Statistical induction and prediction (англ.)

Статистика

Нарис
Індекс

Описова статистика

Неперервні дані

Центр	Середнє арифметичне геометричне гармонійне середні зважені Медіана Мода

Розкид	Дисперсія Стандартне відхилення Коефіцієнт варіації Перцентиль Розмах Міжквартильний розмах

Форма	Центральна гранична теорема Момент Асиметрія Ексцес L-момент

Чисельні дані

Індекс дисперсії

Підсумкові таблиці

Згруповані дані
Частотний розподіл
Таблиця спряженості

Залежність

Коефіцієнт кореляції Пірсона
Кореляція рангу
- ρ Спірмена
- τ Кендала
Часткова кореляція
Точкова діаграма

Графіки

Стовпчикова діаграма
Подвійний графік
Коробковий графік
Контрольна карта
Корелограма
Віялова діаграма
Лісова діаграма
Гістограма
Секторна діаграма
Графік Q-Q
Графік біжучої послідовності
Точкова діаграма
Діаграма «стовбур — листя»
Пелюсткова діаграма
Скрипкова діаграма

Збирання даних

Планування дослідження	Генеральна сукупність Статистика Розмір ефекту Статистична потужність Оптимальний план Визначення розмірів вибірки Реплікація Пропущені дані

Методологія дослідження	Відбір вибірки стратифікований кластерний Стандартне відхилення середнього арифметичного Опитування Анкетування

Активні експерименти	Науковий контроль Рандомізований експеримент Контрольоване дослідження Випадкове призначування Групування Взаємодія (статистика) Повний факторний експеримент

Адаптивне планування	Адаптивне клінічне випробування Збільшувально-зменшувальні плани Стохастичне наближення

Пасивні дослідження	Поперечне дослідження Когортне дослідження Природний експеримент Квазі-експеримент

Статистичне висновування

Теорія статистики

Генеральна сукупність
Статистика
Розподіл імовірності
Вибірковий розподіл
- порядкова статистика
Емпіричний розподіл
- оцінка густини
Статистична модель
- визначення моделі
- простір L^p
Параметр
Параметричне сімейство
Повнота
Достатність
Статистичний функціонал
- натяжка
- U
- V
Оптимальне рішення
- функція втрат
Ефективність
Статистична відстань
- розходження
Асимптотика
Робастність

Частотницьке висновування

Точкова оцінка	Оцінні рівняння максимальна правдоподібність метод моментів M-оцінювач мінімальна відстань Незміщені оцінки усереднено-незміщена мінімально-дисперсійна Рао — Блеквелізування теорема Леманна — Шеффе Медіана Замінна

Інтервальне оцінювання	Довірчий інтервал Центральна величина Інтервал правдоподібності Прогнозний інтервал Толерантний інтервал Перевибірка натяжка складаний ніж

Перевірка гіпотез	1- та 2-бічна Потужність рівномірно найпотужніший критерій Критерій перестановок критерій рандомізації Множинні порівняння

Параметричні критерії	Відношення правдоподібностей Множники Лагранжа Вальд

Спеціальні критерії

Z-критерій (нормальний) t-критерій Стьюдента F-критерій

Допасованість	Хі-квадрат G-критерій Колмогорова-Смирнова Андерсона–Дарлінга Ліллієфорса Харке–Бера Нормальність (Шапіро–Вілка) Перевірка відношенням правдоподібностей Обирання моделі Перехресне затверджування ІКА БІК

Ранжувальні статистики	Знаків вибіркова медіана Знаковий ранг (Уілкоксона) оцінювач Ходжеса–Лемана Рангова сума (Манна–Уітні) Непараметричний дисперсійний аналіз 1-бічний (Краскела–Уоліса) 2-бічний (Фрідмана) впорядкована альтернатива (Джонкгіра–Терпстра)

Баєсове висновування

Баєсова ймовірність
- апріорна
- апостеріорна
Імовірний інтервал
Коефіцієнт Баєса
Баєсова оцінка
- Оцінка апостеріорного максимуму

Кореляційний та регресійний аналіз

Кореляція	Коефіцієнт кореляції Пірсона Часткова кореляція Змішувальна змінна Коефіцієнт детермінації

Регресійний аналіз	Похибки та залишки Регресійне затверджування Моделі змішаних впливів Система одночасних рівнянь Сплайни багатовимірної адаптивної регресії (MARS)

Лінійна регресія	Проста лінійна регресія Звичайний метод найменших квадратів Загальна лінійна модель Баєсова лінійна регресія

Нестандартні передбачувачі	Нелінійна регресія Непараметрична Напівпараметрична Ізотонічна Робастна Гетероскедастичність Гомоскедастичність

Узагальнена лінійна модель	Експоненційні сімейства Логістична (Бернуллі) / Біноміальна регресія / Регресія Пуассона

Розбиття дисперсії	Дисперсійний аналіз (ANOVA) Коваріаційний аналіз Багатовимірний дисперсійний аналіз (MANOVA) Ступені вільності

Категорійний / багатовимірний аналіз / аналіз часових рядів / виживаності

Категорійний

Каппа Коена
Таблиця спряженості
Графова модель
Логарифмічна модель
Критерій МакНімара

Багатовимірний

Регресія
Багатовимірний дисперсійний аналіз (MANOVA)
Головні компоненти
Канонічна кореляція
Дискримінантний аналіз
Кластерний аналіз
Класифікація
Модель структурних рівнянь
- факторний аналіз
Багатовимірні розподіли
- еліптичні розподіли
  - нормальний

Часові ряди

Загальне	Розклад Тенденції Стаціонарність Сезонне пристосування Експоненційне згладжування Коінтеграція Структурний розрив Причинність за Грейнджером

Спеціальні критерії	Дікі–Фуллера Йохансена Q-статистика (Льюнга-Бокса) Дарбіна–Уотсона Бройша–Годфрі

Часова область	Автокореляція (ACF) Частинна автокореляція (PACF) Взаємна кореляція (XCF) Авторегресійне ковзне середнє (ARMA) Метод Бокса–Дженкінса (ARIMA) Авторегресивна умовна гетероскедастичність (ARCH) Векторна авторегресія (VAR)

Частотна область	Оцінка спектральної густини Аналіз Фур'є Вейвлет Уіттлівська правдоподібність

Виживаність

Функція виживаності	Оцінювач Каплана–Меєра (границі добутку) Модель пропорційних ризиків Модель прискореного часу до відмови Момент першого влучання

Інтенсивність відмов	Оцінювач Нельсона–Аалена

Критерій	Логарифмічний ранговий критерій

Застосування

Біологічна статистика	Біоінформатика Клінічні випробування / дослідження Епідеміологія Медична статистика

Інженерна статистика	Хемометрія Інженерія методів Імовірнісне проєктування Керування процесами / якістю Теорія надійності Ідентифікація систем

Соціальна статистика	Актуарна математика Перепис населення Правова статистика Демографічна статистика Економетрія Юриметрія Національне рахівництво Офіційна статистика Психометрія

Просторова статистика	Картографія Екологічна статистика Геоінформаційні системи Геостатистика Кригінг

Категорія

Портал «Математика»

Вікісховище

Тематичні сайти	Quora

Словники та енциклопедії	Шведська національна енциклопедія · Encyclopædia Britannica

Довідкові видання	Nuovo soggettario

Нормативний контроль	Freebase: /m/06vyy · GND: 4182963-3 · GKG: /g/120j319t · NKC: ph394399