Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Чутливість та специфічність

Подписчиков: 0, рейтинг: 0
Чутливість та специфічність

Чутли́вість (англ. sensitivity) та специфі́чність (англ. specificity) — це широко вживані в медицині статистичні міри продуктивності тестівбінарної класифікації:

  • Чутливість вимірює частку істинно позитивних, що є визначеними правильно (наприклад, частку з тих, хто справді має певний стан (уражені), яку було правильно визначено як таких, що мають цей стан).
  • Специфічність вимірює частку істинно негативних (наприклад, частку тих, хто справді не має певного стану (не уражені), яку було правильно визначено як таких, що не мають цього стану).

Терміни «істинно позитивний», «хибно позитивний», «істинно негативний» та «хибно негативний» позначують наявність або відсутність якогось стану, та правильність цієї класифікації. Наприклад, якщо станом є захворювання, то «істинно позитивний» означає «правильно діагностований як хворий», «хибно позитивний» означає «неправильно діагностований як хворий», «істинно негативний» означає «правильно діагностований як не хворий», а «хибно негативний» означає «неправильно діагностований як не хворий». Таким чином, якщо чутливість тесту складає 98 %, а специфічність — 92 %, то його рівень хибно негативних становить 2 %, а рівень хибно позитивних — 8%.

В діагностичнім тестуванні чутливість є мірою того, наскільки добре тест може визначати істинно позитивних. Чутливість також називають повнотою (англ. recall), коефіцієнтом влучання (англ. hit rate), та істиннопозитивним рівнем (англ. true positive rate). Вона є відсотком або часткою істинно позитивних серед усіх зразків, що мають заданий стан (істинно позитивних та хибно негативних). Чутливість тесту може допомагати показувати, наскільки добре він може класифікувати зразки, що мають цей стан. Високе значення чутливості означає, що тест правильно класифікує зразок без заданого стану як негативний частіше, ніж тест, що має нижчу чутливість.

В діагностичнім тестуванні специфічність є мірою того, наскільки добре тест може визначати істинно негативних. Специфічність також називають вибірністю (англ. selectivity) та істиннонегативним рівнем (англ. true negative rate), і вона є відсотком або часткою істинно негативних серед усіх зразків, що не мають певного стану (істинно негативних та хибно позитивних). Наявність в тесту високого значення специфічності означає, що він правильно класифікує зразки із заданим станом частіше за тест із низькою специфічністю.

В «добрім» діагностичнім тесті (такім, що намагається точно визначати людей, що мають певний стан) хибно позитивні повинні бути дуже низькими. Тобто, люди, яких визначають як носіїв стану, повинні з великою правдоподібністю справді мати цей стан. Це пов'язане з тим, що люди, яких ідентифікують як носіїв стану (але які, насправді, його не мають) можуть піддаватися: додатковому тестуванню (що може бути дорогим), стигматизації (наприклад, позитивний тест на ВІЛ), тривозі (наприклад, я хворий... я можу померти).

Для будь-якого тестування, як діагностичного, так і скринінгового, існує компроміс між чутливістю та специфічністю. Вищі чутливості означатимуть нижчі специфічності, й навпаки.

Терміни «чутливість» (англ. sensitivity) та «специфічність» (англ. specificity) запровадив 1947 року американський біостатистик Джейкоб Єрушалми.

Термінологія та виведення
з матриці невідповідностей
позитивний стан (П)
число справжніх позитивних випадків у даних
негативний стан (Н)
число справжніх негативних випадків у даних

істинно позитивний (ІП)
рівнозначно із влучанням
істинно негативний (ІН)
рівнозначно із правильним відхиленням
хибно позитивний (ХП)
рівнозначно з хибною тривогою, помилка I роду
хибно негативний (ХН)
рівнозначно з пропусканням, помилка II роду

чутливість,діагностична чутливість (ДЧ),повнота,коефіцієнт влучання, або істиннопозитивний рівень (ІПР)
ІПР = ІПП = ІПІП + ХН = 1 - ІНР
діагностична специфічність (ДС),вибірність або істиннонегативний рівень (ІНР)
ІНР = ІНН = ІНІН + ХП = 1 - ХПР
влучність або прогностична значущість позитивного результату (ПЗ+)
ПЗ+ = ІПІП + ХП = 1 - РХВ
прогностична значущість негативного результату (ПЗ-)
ПЗ- = ІНІН + ХН = 1 - РХП
коефіцієнт невлучання, або хибнонегативний рівень (ХНР)
ХНР = ХНП = ХНХН + ІП = 1 - ІПР
побічний продукт, або хибнопозитивний рівень (ХПР)
ХПР = ХПН = ХПХП + ІН = 1 - ІНР
рівень хибного виявляння (РХВ)
РХВ = ХПХП + ІП = 1 - ПЗ+
рівень хибного пропускання (РХП)
РХП = ХНХН + ІН = 1 - ПЗ-
поріг поширеності (ПП)
ПП = ІПР (-ІНР + 1) + ІНР - 1(ІПР + ІНР - 1)
міра загрози (МЗ) або критичний індекс успіху (КІУ)
МЗ = ІПІП + ХН + ХП

точність, діагностична ефективність (ДЕ)
ДЕ = ІП + ІНП + Н = ІП + ІНІП + ІН + ХП + ХН
збалансована точність (ЗТ)
ЗТ = ІПР + ХПР2
міра F1
гармонійне середнє влучності та чутливості
F1 = 2 · ПЗ+ · ІПРПЗ+ + ІПР = 2 ІП2 ІП + ХП + ХН
коефіцієнт кореляції Меттьюза (ККМ)
ККМ = ІП · ІН - ХП · ХН(ІП + ХП)(ІП + ХН)(ІН + ХП)(ІН + ХН)
індекс Фаулкса — Меттьюза (ФМ)
ФМ = ІПІП + ХП · ІПІП + ХН = ПЗ+ · ІПР
поінформованість, або букмекерська поінформованість (БП)
БП = ІПР + ІНР - 1
маркованість (МК) або Δp
МК = ПЗ+ + ПЗ- - 1

Джерела: Fawcett (2006), Powers (2011), Ting (2011), CAWCR,D. Chicco & G. Jurman (2020) (2020), Tharwat (2018), Смоляр та ін. (2013), Коваль та ін. (2016), Швець (2015), Гущин та Сич (2018), Мірошниченко та Івлієва (2019).

Застосування в скринінгових дослідженнях

Уявімо дослідження зі скринінгового тестування людей на якесь захворювання. Кожна особа, якій роблять тест, або має, або не має це захворювання. Результат тесту може бути позитивним (класифікуючи особу як таку, що має захворювання) або негативним (класифікуючи особу як таку, що не має цього захворювання). Результати тесту для кожного суб'єкта можуть відповідати, а можуть і не відповідати справжньому станові суб'єкта. В такій постановці:

  • Істинно позитивні: Хворі люди, правильно визначені як хворі
  • Хибно позитивні: Здорові люди, неправильно визначені як хворі
  • Істинно негативні: Здорові люди, правильно визначені як здорові
  • Хибно негативні: Хворі люди, неправильно визначені як здорові

Після отримання чисел істинно позитивних, хибно позитивних, істинно негативних, та хибно негативних, можливо обчислити чутливість та специфічність тесту. Якщо виявляється, що чутливість є високою, тоді будь-яка особа, яку тест класифікує як позитивну, швидше за все, є істинно позитивною. З іншого боку, якщо специфічність є високою, то будь-яка особа, яку цей тест класифікує як негативну, швидше за все, є істинно негативною.

Матриця невідповідностей

Розгляньмо групу з П позитивними та Н негативними екземплярами якогось стану. Чотири результати в таблиці невідповідностей, або матриці невідповідностей 2×2, а також виведення декількох метрик із застосуванням цих чотирьох результатів, може бути сформульовано наступним чином:

Справжній стан
загальна сукупність позитивний стан негативний стан поширеність = Σ позитивних станівΣ загальної сукупності точність = Σ істинно позитивних + Σ істинно негативнихΣ загальної сукупності
Прогнозований стан
позитивний
прогнозований стан
істинно позитивний хибно позитивний,
помилка I роду
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивнихΣ позитивних прогнозованих станів рівень хибного виявляння (РХВ) = Σ хибно позитивнихΣ позитивних прогнозованих станів
негативний
прогнозований стан
хибно негативний,
помилка II роду
істинно негативний рівень хибного пропускання (РХП) = Σ хибно негативнихΣ негативних прогнозованих станів прогностична значущість негативного результату (ПЗ-) = Σ істинно негативнихΣ негативних прогнозованих станів
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивнихΣ позитивних станів хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивнихΣ негативних станів відношення правдоподібності позитивного результату (ВП+) = ІПРХПР діагностичне відношення шансів (ДВШ) = ВП+ВП− міра F1 = 2 · влучність · повнотавлучність + повнота
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативнихΣ позитивних станів специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативнихΣ негативних станів відношення правдоподібності негативного результату (ВП-) = ХНРІНР

Чутливість

Розгляньмо приклад медичного тесту для діагностування якогось стану. Чутливість означає здатність тесту правильно виявляти хворих пацієнтів, які справді мають цей стан. В прикладі медичного тесту, який використовують для виявляння якогось стану, чутливість (яку також іноді в клінічній постановці називають рівнем виявляння) тесту є пропорцією людей, які отримують позитивний тест на це захворювання, серед них, хто це захворювання має. Математично це можливо виразити так:

чутливість = число істинно позитивнихчисло істинно позитивних + число хибно негативних
= число істинно позитивнихзагальне число хворих осіб у генеральній сукупності
= ймовірність позитивного тесту за умови, що пацієнт має захворювання

Негативний результат у тесті з високою чутливістю є корисним для виключення захворювання. Тест із високою чутливістю є надійним, коли його результат є негативним, оскільки він рідко ставить помилковий діагноз тим, хто має захворювання. Тест із 100 %-ю чутливістю розпізнаватиме всіх пацієнтів із захворюванням, даючи позитивний результат. Негативний результат тесту однозначно виключатиме наявність захворювання в пацієнта. Проте позитивний результат тесту з високою чутливістю не обов'язково є корисним для встановлення захворювання. Припустімо, що «підробний» тестувальний набір розроблено таким чином, щоби він завжди видавав позитивні покази. При використанні на хворих пацієнтах всі пацієнти отримуватимуть позитивний тест, що даватиме цьому тестові чутливість 100 %. Проте чутливість не бере до уваги хибно позитивні. Цей підробний тест також повертає позитивний результат для всіх здорових пацієнтів, що дає йому хибнопозитивний рівень 100 %, роблячи його марним для виявляння або «встановлювання» захворювання.

Розрахунок чутливості не враховує невизначені результати тесту. Якщо повторити тест неможливо, то невизначені зразки потрібно або виключити з аналізу (число виключень повинно бути вказано при оголошенні чутливості), або їх можливо розглядати як хибно негативні (що дає значення найгіршого випадку для чутливості, й може відтак недооцінювати її).

Специфічність

Розгляньмо приклад медичного тесту для діагностування якогось захворювання. Специфічність означає здатність цього тесту правильно відхиляти здорових пацієнтів, що не мають цього стану. Специфічність тесту є пропорцією серед тих, хто справді не має цього стану, тих, хто отримав негативний тест на цей стан. Математично це також можливо записати так:

специфічність = число істинно негативнихчисло істинно негативних + число хибно позитивних
= число істинно негативнихзагальне число нехворих осіб у генеральній сукупності
= імовірність негативного тесту за умови, що пацієнт не є хворим

Позитивний результат у тесті з високою специфічністю є корисним для встановлювання захворювання. Такий тест рідко видає позитивні результати для здорових пацієнтів. Позитивний результат означає високу ймовірність наявності захворювання. Тест зі 100 %-ю специфічністю розпізнаватиме всіх пацієнтів без захворювання як негативних, тож позитивний результат однозначно встановлюватиме наявність захворювання. Проте негативний результат тесту з високою специфічністю не обов'язково є корисним для виключення захворювання. Наприклад, тест, що завжди повертає негативний результат, матиме специфічність 100 %, оскільки специфічність не бере до уваги хибно негативні. Такий тест повертатиме негативний результат для пацієнтів із захворюванням, роблячи його марним для встановлювання захворювання.

Тест із високою специфічністю має нижчий рівень помилок першого роду.

Графічна ілюстрація

Наведена вище ілюстрація-графік має на меті показати взаємозв'язок між чутливістю та специфічністю. Чорна пунктирна лінія в центрі графіка — це де чутливість та специфічність є однаковими. При русі ліворуч від чорної пунктирної лінії чутливість збільшується, досягаючи максимального значення в 100 % на лінії А, а специфічність зменшується. Чутливість на лінії А становить 100 % через те, що в цій точці є нуль хибно негативних, що означає, що всі позитивні результати тесту є істинно позитивними. При русі праворуч має місце протилежне, специфічність зростає, поки не досягне лінії Б, й складе 100 %, а чутливість зменшується. Специфічність на лінії Б становить 100 % через те, що число хибно позитивних на цій лінії є нульовим, що означає, що всі негативні результати тесту є істинно негативними.

Стосовно рисунку, що показує високу чутливість та низьку специфічність, з визначення чутливості, число хибно негативних окремо впливає лише на знаменник, і з лише кількома такими знаменник та чисельник є близькими одне до одного, й відтак видають високу чутливість. Аналогічно, подібні міркування може бути застосовано й до того, який показує низьку чутливість та високу специфічність.

Медичні приклади

У медичній діагностиці чутливість тесту є здатністю цього тесту правильно визначати тих, хто має захворювання (істиннопозитивний рівень), тоді як специфічність тесту є здатністю цього тесту правильно визначати тих, хто цього захворювання не має (істиннонегативний рівень). Якщо при тестуванні 100 пацієнтів, про яких відомо, що вони мають певне захворювання, позитивний тест отримують 43 з них, то цей тест має чутливість 43 %. Якщо тестують 100 без захворювання, й для 96 отримують повністю негативний результат, то цей тест має специфічність 96 %. Чутливість та специфічність є характеристиками тесту, що не залежать від поширеності, оскільки їхні значення є властивостями самого тесту, й не залежать від поширеності захворювання в досліджуваній сукупності.Значеннями, на які впливає поширеність захворювання в тестованій сукупності, є прогностичні значущості позитивного та негативного результатів, а не чутливість та специфічність. Ці поняття проілюстровано графічно в аплеті Баєсова клінічна діагностична модель [Архівовано 22 січня 2021 у Wayback Machine.] (англ.), який показує прогностичні значущості позитивних та негативних результатів як функцію від поширеності, чутливості та специфічності.

Поріг поширеності

Взаємозв'язок між прогностичною значущістю позитивних результатів скринінгового тесту та поширеністю його цілі є пропорційним, хоч і не лінійним в усіх випадках, крім одного особливого. Як наслідок, існує точка локального екстремуму та максимуму кривини, визначена лише як функція від чутливості та специфічності, за якою темп зміни прогностичної значущості позитивних результатів тесту падає диференціально відносно поширеності захворювання. Цю точку із застосуванням диференціальних рівнянь було вперше визначено Балайлою та ін., та названо поро́гом поши́реності (, англ. prevalence threshold). Рівняння порогу поширеності задається наступною формулою, де a = чутливість, а b = специфічність:

= a (-b + 1) + b - 1(a + b - 1) = ІПР (-ІНР + 1) + ІНР - 1(ІПР + ІНР - 1)

Місце положення цієї точки на кривій скринінгу має критичні наслідки для клініцистів та інтерпретування позитивних скринінових тестів у режимі реального часу.[які?]

Неправильні розуміння

Часто заявляють, що тест із високою специфічністю є дієвим для встановлення захворювання, коли він є позитивним, тоді як тест із високою чутливістю вважають дієвим для виключення захворювання, коли він є негативним. Наслідком цього є широко вживані мнемоніки англ. SPPIN та англ. SNNOUT, відповідно до яких тест із високою специфічністю (англ. highly specific), коли він є позитивним (англ. positive), встановлює (англ. rules in) захворювання (англ. SP-P-IN), а тест із високою чутливістю (англ. highly sensitive), коли він є негативним (англ. negative), виключає (англ. rules out) захворювання (англ. SN-N-OUT). Проте, обидва ці емпіричні правила вводять в оману, оскільки діагностична сила будь-якого тесту визначається як його чутливістю, так і його специфічністю.

Компроміс між чутливістю та специфічністю досліджує аналіз РХП як компроміс між ІПР та ХПР (тобто повнотою та побічним продуктом). Надавання їм однакової ваги оптимізує поінформованість = специфічність + чутливість − 1 = ІПР − ХПР, величина якої дає ймовірність поінформованого рішення між двома класами (> 0 представляє належне використання інформації, 0 представляє ефективність на рівні вгадування, < 0 представляє помилкове використання інформації).

Індекс чутливості

Індекс чутливості, або d', — це статистика, яку використовують в теорії виявляння сигналу. Вона забезпечує розділення між середніми значеннями розподілів сигналу та шуму, в порівнянні зі стандартним відхиленням розподілу шуму. Для нормально розподілених сигналу та шуму з середніми значеннями та стандартними відхиленнями та , та та відповідно, d' визначають як

Оцінку d' також можливо знаходити з вимірювань коефіцієнту влучання та рівня хибної тривоги. Її обчислюють як

d' = Z(коефіцієнт влучання) – Z(рівень хибної тривоги),

де функція Z(p), p ∈ [0,1], є оберненою до функції гауссового розподілу.

d' є безрозмірною статистикою. Вища d' вказує, що сигнал може бути легше виявити.

Робочий приклад

Робочий приклад
Діагностичний тест із чутливістю 67 % та специфічністю 91 % застосовують до 2030 людей з метою пошуку розладу з поширеністю в сукупності на рівні 1,48 %
Пацієнти з раком кишківника
(підтвердженим ендоскопією)
позитивний стан негативний стан поширеність
= (ІП + ХН) / загальна_сукупність
= (20 + 10) / 2030
1,48 %
точність =
(ІП + ІН) / загальна_сукупність
= (20 + 1820) / 2030
90,64 %
Результат
скринінгового
тесту на
приховану
кров у калі
результат
тесту
позитивний
істинно позитивні
(ІП) = 20
(2030 × 1,48 % × 67 %)
хибно позитивні
(ХП) = 180
(2030 × (100 − 1,48 %) × (100 − 91 %))
прогностична значущість позитивного результату (ПЗ+), влучність
= ІП / (ІП + ХП)
= 20 / (20 + 180)
= 10 %
рівень хибного виявляння (РХВ)
= ХП / (ІП + ХП)
= 180 / (20 + 180)
= 90,0 %
результат
тесту
негативний
хибно негативні
(ХН) = 10
(2030 × 1,48 % × (100 − 67 %))
істинно негативні
(ІН) = 1820
(2030 × (100 − 1,48 %) × 91 %)
рівень хибного пропускання (РХП)
= ХН / (ХН + ІН)
= 10 / (10 + 1820)
0,55 %
прогностична значущість негативного результату (ПЗ-)
= ІН / (ХН + ІН)
= 1820 / (10 + 1820)
99,45 %
ІПР, повнота, чутливість
= ІП / (ІП + ХН)
= 20 / (20 + 10)
66,7 %
хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги
= ХП / (ХП + ІН)
= 180 / (180 + 1820)
= 9,0 %
відношення правдоподібності позитивного результату (ВП+)
= ІПРХПР
= (20 / 30) / (180 / 2000)
7,41
діагностичне відношення шансів (ДВШ)= ВП+ВП−
20,2
міра F1 = 2 × влучність × повнотавлучність + повнота
0,174
хибнонегативний рівень (ХНР), коефіцієнт невлучання
= ХН / (ІП + ХН)
= 10 / (20 + 10)
33,3 %
специфічність, вибірність, істиннонегативний рівень (ІНР)
= ІН / (ХП + ІН)
= 1820 / (180 + 1820)
= 91 %
відношення правдоподібності негативного результату (ВП−)
= ХНРІНР
= (10 / 30) / (1820 / 2000)
0,366

Пов'язані обчислення

Цей гіпотетичний скринінговий тест (аналіз калу на приховану кров) правильно визначив дві третини (66,7 %) пацієнтів з колоректальним раком. На жаль, врахування рівнів поширеності показує, що цей гіпотетичний тест має високий хибнопозитивний рівень, і не визначає колоректальний рак у загальній сукупності безсимптомних людей надійно (ПЗ+ = 10 %).

З іншого боку, цей гіпотетичний тест демонструє дуже дуже точне виявляння безракових осіб (ПЗ− = 99,5 %). Тому при застосуванні для планового скринінгу колоректального раку в безсимптомних дорослих негативний результат надає важливі дані пацієнтові та лікареві, як-то виключаючи рак як причину шлунково-кишкових симптомів, та заспокоюючи пацієнтів, що хвилюються за появу колоректального раку.

Оцінювання похибок заявлюваних чутливості чи специфічності

Значення чутливості та специфічності самі по собі можуть бути дуже оманливими. Щоби запобігти залежності від експериментів з невеликою кількістю результатів, мусить бути обчислювано чутливість чи специфічність «найгіршого випадку». Наприклад, певний тест може легко показати 100 %-ву чутливість за перевірки відносно золотого стандарту чотири рази, але єдина додаткова перевірка відносно золотого стандарту, що дала поганий результат, означатиме чутливість лише в 80 %. Поширеним способом робити це є вказувати довірчий інтервал біноміальної пропорції, часто обчислюваний за допомогою оцінкового інтервалу Вілсона.

Для чутливості та специфічності може бути обчислювано довірчі інтервали, що дають діапазон значень, в межах якого правильне значення перебуває із заданим рівнем довір'я (наприклад, 95 %).

Термінологія в інформаційнім пошуку

В інформаційнім пошуку прогностичну значущість позитивного результату називають влучністю, а чутливість називають повнотою. На відміну від компромісу між специфічністю та чутливістю, обидві ці міри не залежать від числа істинно негативних, що є, як правило, не відомим, і набагато більшим за фактичні кількості релевантних та знайдених документів. Це припущення про великі кількості істинно негативних відносно позитивних в інших застосуваннях зустрічається рідко.

Як єдину міру ефективності тесту для позитивного класу можливо використовувати F-міру. F-міра є середнім гармонійним влучності та повноти:

F = 2 × влучність × повнотавлучність + повнота

В традиційній мові перевірки статистичних гіпотез чутливість тесту називають його статистичною потужністю, хоча слово «потужність» у тім контексті має загальніше застосування, яке не є застосовним у контексті поточнім. Чутливий тест матиме менше помилок другого роду.

Див. також

Виноски

Література

Посилання


Новое сообщение