Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Влучність та повнота
В розпізнаванні образів, інформаційному пошуку та класифікації, влу́чність (англ. precision, яку також називають прогностичною значущістю позитивного результату) є часткою релевантних зразків серед знайдених, тоді як повнота́ (англ. recall, відома також як чутливість) є часткою загального числа позитивних зразків, яку було дійсно знайдено. Як влучність, так і повнота, відтак ґрунтуються на розумінні та мірі релевантності. Влучність не слід плутати з точністю (англ. accuracy), яка є часткою правильно спрогнозованих результатів, як позитивних, так і негативних. Влучність стосується лише позитивних результатів.
Нехай комп'ютерна програма для розпізнавання собак на фотографіях виявила 8 собак на зображенні, що містить 10 котів та 12 собак (власне релевантних елементів). Серед 8 ідентифікованих як собаки 5 і справді є собаками (істинно позитивні), тоді як інші 3 є котами (хибно позитивні). 7 собак було пропущено (хибно негативні), а 7 котів було виключено правильно (істинно негативні). Влучність цієї програми становить 5/8 (істинно позитивні / всі позитивні), тоді як повнота — 5/12 (істинно позитивні / релевантні елементи). Коли пошуковий рушій повертає 30 сторінок, лише 20 з яких є релевантними, в той же час виявляючись нездатним повернути 40 додаткових релевантних сторінок, його влучність становить 20/30 = 2/3, тоді як повнота — 20/60 = 1/3. Тож, у цьому випадку, влучність показує, «наскільки правильними є результати», тоді як повнота — «наскільки повними є результати».
Якщо застосовувати підхід перевірки гіпотез зі статистики, в якому, в цьому випадку, нульова гіпотеза полягає в тім, що заданий зразок є нерелевантним, тобто, не собакою, то відсутність помилок першого і другого роду (тобто, ідеальні чутливість та специфічність у 100 % кожна) відповідає, відповідно, ідеальній влучності (без хибно позитивних) та ідеальній повноті (без хибно негативних).
Загальніше, повнота є просто доповненням рівня помилок II роду, тобто, одиниця мінус рівень помилок II роду. Влучність пов'язана з рівнем помилок I роду, але дещо складнішим чином, оскільки вона також залежить від апріорного розподілу спостерігання релевантного, чи нерелевантного зразка.
Наведений вище приклад із котами та собаками містив 8 − 5 = 3 помилки I роду, що давало рівень помилок I роду 3/10, та 12 − 5 = 7 помилок II роду, що давало рівень помилок II роду 7/12. Влучність можливо розглядати як рівень якості, тоді як повноту — як рівень кількості. Вища влучність означає, що алгоритм видає більше релевантних зразків, ніж нерелевантних, а висока повнота означає, що алгоритм видає більшість із релевантних результатів (незалежно від того, чи він також видає й нерелевантні).
Зміст
Введення
В інформаційному пошуку зразками є документи, а задачею є повернути набір релевантних документів для заданої умови пошуку. Повнота є числом релевантних документів, знайдених пошуком, поділеним на загальне число релевантних документів, які існують, тоді як влучність є числом релевантних документів, знайдених пошуком, поділеним на загальне число знайдених документів, які знайшов цей пошук.
В задачі класифікації, влучністю для певного класу є число істинно позитивних (тобто, число зразків, правильно відмічених як належні до позитивного класу), поділене на загальне число елементів, відмічених як належні до позитивного класу (тобто, суму істинно позитивних та хибно позитивних, що є зразками, неправильно відміченими як належні до позитивного класу). Повноту в цьому контексті визначено як число істинно позитивних, поділене на загальне число елементів, що насправді належать до позитивного класу (тобто, суму істинно позитивних та хибно негативних, що є зразками, як не було відмічено як належні до позитивного класу, але повинно було бути відмічено).
В інформаційному пошуку ідеальна оцінка влучності в 1,0 означає, що кожен з результатів, знайдених пошуком, був релевантним (але не каже нічого про те, чи всі релевантні документи було знайдено), тоді як ідеальна оцінка повноти в 1,0 означає, що цим пошуком було знайдено всі релевантні документи (але не каже нічого про те, як багато було знайдено також і нерелевантних документів).
В задачі класифікації оцінка влучності в 1,0 для класу C означає, що кожен зі зразків, відмічений як належний до класу C, й насправді належить до класу C (але не каже нічого про число зразків з класу C, які не було правильно відмічено), тоді як повнота в 1,0 означає, що кожен зі зразків з класу C було відмічено як належний до класу C (але не каже нічого про те, скільки зразків з інших класів було неправильно відмічено як належні до класу C).
Між влучністю й повнотою часто існує обернена залежність, коли можливо підвищити одну ціною зниження іншої. Наочним прикладом цього компромісу є нейрохірургія. Розгляньмо нейрохірурга, який видаляє ракову пухлину з мозку пацієнта. Нейрохірургові потрібно видалити всі клітини пухлини, оскільки залишені ракові клітини відродять пухлину. І навпаки, нейрохірург мусить не видаляти здорові клітини мозку, оскільки це призведе до порушень функцій мозку пацієнта. Нейрохірург може бути більш розмашистим щодо області мозку, яку він видаляє, щоби забезпечити видалення всіх ракових клітин. Це рішення підвищує повноту, але знижує влучність. З іншого боку, нейрохірург може бути консервативнішим щодо мозку, який він видаляє, щоби забезпечити вилучення лише ракових клітин. Це рішення підвищує влучність, але знижує повноту. Тобто, вища повнота підвищує шанси видалення здорових клітин (негативний результат), і підвищує шанси видалення всіх ракових клітин (позитивний результат). Вища влучність знижує шанси вилучення здорових клітин (позитивний результат), але також знижує шанси видалення всіх ракових клітин (негативний результат).
Зазвичай оцінки влучності та повноти не обговорюють окремо. Натомість, або значення однієї міри порівнюють за фіксованого рівня іншої міри (наприклад, влучність на рівні повноти 0,75), або поєднують обидві в єдину міру. Прикладами мір, що є поєднаннями влучності та повноти, є F-міра (зважене середнє гармонійне влучності та повноти) та коефіцієнт кореляції Меттьюза, що є середнім геометричним скоригованих на шанси варіантів: коефіцієнтів регресії поінформованості (Δp') та маркованості (Δp).Точність є зваженим (на зміщення) середнім арифметичним влучності та оберненої влучності, так само як і зваженим (на поширеність) середнім арифметичним повноти та оберненої повноти. Обернена влучність та обернена повнота є просто влучністю та повнотою оберненої задачі, де позитивні та негативні мітки поміняно місцями (як для справжніх класів, так і для передбачуваних міток). Повноту та обернену повноту, або, рівнозначно, істиннопозитивний та хибнопозитивний рівні часто відкладають один проти одного як криві РХП, забезпечуючи принциповий механізм дослідження компромісів робочої точки. Поза інформаційним пошуком застосування повноти, влучності та F-міри вважають хибним, оскільки вони ігнорують істинно негативну комірку таблиці невідповідностей, й ними легко маніпулювати, зміщуючи передбачення. Першу проблему «розв'язують» застосуванням точності, а другу проблему «розв'язують» знижуванням складової шансу та перенормовуванням до каппи Коена, але це більше не дає можливості досліджувати компроміси графічно. Проте, поінформованість та маркованість є каппа-подібними перенормуваннями повноти та влучності, а їхній середній геометричний коефіцієнт кореляції Меттьюза відтак виступає незміщеною F-мірою.
Визначення (в контексті інформаційного пошуку)
В контексті інформаційного пошуку визначення влучності та повноти подають в термінах множини знайдених документів (наприклад, переліку документів, виробленого рушієм вебпошуку для якогось запиту), та множини релевантних документів (наприклад, переліку всіх документів в Інтернеті, що є релевантними для певного предмету), пор. релевантність.
Влучність
В галузі інформаційного пошуку, влучність є часткою знайдених документів, що є релевантними запитові:
- влучність = | {релевантні документи} ∩ {знайдені документи} || {знайдені документи} |
Наприклад, для текстового пошуку на множині документів, влучність є числом правильних результатів, поділеним на число всіх повернених результатів.
Влучність бере до уваги всі знайдені документи, але її також можливо оцінювати на заданому рівні відсікання, враховуючи лише розташовані найвище результати, що повертає система. Таку міру називають «N-влучністю» (англ. precision at n, P@n).
Влучність використовують разом із повнотою, відсотком всіх релевантних документів, який повертає пошук. Ці дві міри іноді використовують разом в оцінці F1 (або F-мірі), щоби забезпечити єдине вимірювання для системи.
Зауважте, що значення та вживання терміну «влучність» (англ. precision) в області інформаційного пошуку відрізняється від визначення точності та прецизійності (англ. accuracy and precision) в межах інших галузей науки та технології.
Повнота
В інформаційному пошуку повнота є часткою релевантних документів, яку вдається успішно знайти.
- повнота = | {релевантні документи} ∩ {знайдені документи} || {релевантні документи} |
Наприклад, для текстового пошуку на множині документів, повнота є числом правильних результатів, поділеним на число результатів, які мало би бути повернуто.
В бінарній класифікації повноту називають чутливістю. Її можливо розглядати як імовірність того, що релевантний документ буде знайдено за запитом.
Досягти повноти 100 % тривіально, якщо повертати у відповідь на запит всі документи. Отже, повнота сама по собі не є достатньою, й потрібно також вимірювати й число нерелевантних документів, наприклад, обчислюючи також і влучність.
Визначення (в контексті класифікації)
Для задач класифікації, терміни істинно позитивні, істинно негативні, хибно позитивні та хибно негативні (див. визначення в помилках першого і другого роду) є порівняннями результатів тестованого класифікатора з надійними зовнішніми судженнями. Терміни позитивні та негативні стосуються передбачень класифікатора (які іноді називають очікуванням), а терміни істинно та хибно стосуються того, чи це передбачення відповідає зовнішньому судженню (іноді відомому як спостереження).
Визначмо експеримент із П позитивними зразками та Н негативними зразками для якоїсь умови. Ці чотири результати може бути виражено таблицею спряженості або матрицею невідповідностей 2×2 наступним чином:
Справжній стан | ||||||
загальна сукупність | позитивний стан | негативний стан | поширеність = Σ позитивних станівΣ загальної сукупності | точність = Σ істинно позитивних + Σ істинно негативнихΣ загальної сукупності | ||
Прогнозований стан
|
позитивний прогнозований стан |
істинно позитивний |
хибно позитивний, помилка I роду |
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивнихΣ позитивних прогнозованих станів | рівень хибного виявляння (РХВ) = Σ хибно позитивнихΣ позитивних прогнозованих станів | |
негативний прогнозований стан |
хибно негативний, помилка II роду |
істинно негативний | рівень хибного пропускання (РХП) = Σ хибно негативнихΣ негативних прогнозованих станів | прогностична значущість негативного результату (ПЗ-) = Σ істинно негативнихΣ негативних прогнозованих станів | ||
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивнихΣ позитивних станів | хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивнихΣ негативних станів | відношення правдоподібності позитивного результату (ВП+) = ІПРХПР | діагностичне відношення шансів (ДВШ) = ВП+ВП− | міра F1 = 2 · влучність · повнотавлучність + повнота | ||
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативнихΣ позитивних станів | специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативнихΣ негативних станів | відношення правдоподібності негативного результату (ВП-) = ХНРІНР |
Джерела: Fawcett (2006), Powers (2011), Ting (2011), CAWCR,D. Chicco & G. Jurman (2020) (2020), Tharwat (2018), Смоляр та ін. (2013), Коваль та ін. (2016), Швець (2015), Гущин та Сич (2018), Мірошниченко та Івлієва (2019). |
Влучність та повноту тоді визначають як
- Влучність = ІПІП + ХП
- Повнота = ІПІП + ХН
Повноту в цьому контексті також називають істиннопозитивним рівнем, або чутливістю, а влучність також називають Прогностична значущість позитивного результату (ПЗ+). До інших пов'язаних мір, які використовують у класифікації, належать істиннонегативний рівень, та точність. Істиннонегативний рівень також називають специфічністю.
- Істиннонегативний рівень = ІНІН + ХП
Незбалансовані дані
- Точність = ІП + ІНІП + ІН + ХП + ХН
Для незбалансованих наборів даних точність може бути оманливою метрикою. Розгляньмо вибірку з 95 негативними та 5 позитивними значеннями. Класифікування всіх значень як негативних у цьому випадку дає оцінку точності 0,95. Існує багато метрик, які не страждають на цю проблему. Наприклад, збалансована точність (ЗТ, англ. balanced accuracy, bACC) унормовує істинно позитивні та істинно негативні передбачення числом позитивних та негативних зразків відповідно, й ділить їхню суму навпіл:
- Збалансована точність = ІПР + ХПР2
Для попереднього прикладу (95 негативних та 5 позитивних зразків), класифікування всіх як негативних дає оцінку збалансованої точності 0,5 (максимальною оцінкою ЗТ є одиниця), що є рівнозначним математичному сподіванню випадкового вгадування у збалансованому наборі даних. Збалансована точність може слугувати загальною метрикою продуктивності моделі, незалежно від того, чи є справжні мітки в даних незбалансованими, чи ні, вважаючи втрати на ХН такими же, як і на ХП.
Іншою метрикою є рівень позитивного прогнозованого стану (РППС, англ. predicted positive condition rate, PPCR), що визначає відсоток від загальної сукупності, який буде промарковано. Наприклад, для пошукового рушія, що повертає 30 результатів (знайдених документів) з 1 000 000 документів, РППС становить 0,003 %.
- Рівень позитивного прогнозованого стану = ІП + ХПІП + ХП + ІН + ХН
Згідно Сайто та Ремсмаєра, при оцінюванні бінарних класифікаторів на незбалансованих даних графіки влучності—повноти є інформативнішими за графіки РХП. За таких сценаріїв графіки РХП можуть бути візуально оманливими для висновків про надійність виконання класифікації.
Імовірнісна інтерпретація
Влучність і повноту також можливо інтерпретувати не як відношення, а як оцінки ймовірностей:
- Влучність є оцінкою ймовірності того, що документ, випадково вибраний з пулу знайдених документів, є релевантним.
- Повнота є оцінкою ймовірності того, що документ, випадково вибраний з пулу релевантних документів, буде знайдено.
Іншою інтерпретацією є те, що влучність є усередненою ймовірністю релевантного знаходження, а повнота є усередненою ймовірністю повного знаходження, усереднені над багатократними запитами пошуку.
F-міра
Мірою, яка поєднує влучність та повноту, є середнє гармонійне влучності та повноти, традиційна F-міра, або збалансована F-оцінка:
- F = 2 · влучність · повнотавлучність + повнота
Ця міра є приблизно усередненням цих двох, коли вони є близькими, а загальніше є середнім гармонійним, що, у випадку двох чисел, збігається з квадратом середнього геометричного, поділеним на середнє арифметичне. Існує декілька причин, через які F-оцінку може бути критиковано за певних обставин через її зсув як оцінної метрики. Вона є також відомою як міра F1, оскільки повнота та чутливість є зваженими рівномірно.
Вона є окремим випадком загальної міри Fβ (для невід'ємних дійсних значень β):
- Fβ = (1 + β2) · влучність · повнотаβ2 · влучність + повнота
Двома іншими широко вживаними мірами F є міра F2, яка приділяє повноті більшої ваги, аніж влучності, та міра F0,5, що робить більший акцент на влучності, аніж на повноті.
F-міру було виведено ван Рійсберґеном (1979) таким чином, що Fβ «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності». Вона ґрунтується на мірі ефективності ван Рійсберґена Eα = 1 − 1αВ + 1−αП, де другий член є зваженим середнім гармонійним влучності та повноти з вагами (α, 1 − α). Вони є взаємопов'язаними як Fβ = 1 − Eα, де α = 11 + β2.
Обмеження як цілі
Існують інші параметри та стратегії міри продуктивності системи інформаційного пошуку, такі як площа під кривою РХП (ППК, англ. AUC).
Див. також
- Коефіцієнт невизначеності, відомий також як вправність (англ. proficiency)
- Чутливість та специфічність
Джерела
- Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (1999). Modern Information Retrieval. New York, NY: ACM Press, Addison-Wesley, Seiten 75 ff. ISBN 0-201-39829-X (англ.)
- Hjørland, Birger (2010); The foundation of the concept of relevance, Journal of the American Society for Information Science and Technology, 61(2), 217—237 (англ.)
- Makhoul, John; Kubala, Francis; Schwartz, Richard; and Weischedel, Ralph (1999); Performance measures for information extraction [Архівовано 19 грудня 2009 у Wayback Machine.], in Proceedings of DARPA Broadcast News Workshop, Herndon, VA, February 1999 (англ.)
- van Rijsbergen, Cornelis Joost «Keith» (1979); Information Retrieval, London, GB; Boston, MA: Butterworth, 2nd Edition, ISBN 0-408-70929-4 (англ.)
Посилання
- Інформаційний пошук — книга К. Й. ван Рійсберґена (1979) [Архівовано 6 квітня 2005 у Wayback Machine.] (англ.)
- Обчислювання точності та повноти у задачі багатокласової класифікації [Архівовано 11 серпня 2016 у Wayback Machine.] (англ.)