Анотація до роботи:
Білецький Б.О. Ефективність байєсівських методів розпізнавання. – Рукопис. Дисертація на здобуття наукового ступеня кандидата фізико-математичних наук за спеціальністю 01.05.01 – теоретичні основи інформатики та кібернетики. – Інститут кібернетики ім. В.М. Глушкова НАН України, Київ, 2007. У дисертаційній роботі побудовано верхні та нижні оцінки похибки байєсівської процедури розпізнавання для незалежних ознак. Оцінки отримано у вигляді поліному в залежності від входу задачі (розмірів класів навчаючої вибірки, кількості ознак та числа значень ознак). Верхня та нижня оцінки похибки є точними та відрізняються на абсолютну константу, звідки випливає, що байєсівська процедура розпізнавання є оптимальною на незалежних ознаках. У роботі показано, що байєсівські процедури розпізнавання можна застосовувати на об’єктах, що описуються моделями ланцюгів Маркова. Для цього досліджується поведінка оцінок нестаціонарних перехідних ймовірностей. Показано, що оцінки перехідних ймовірностей, побудованих у вигляді частот, асимптотично нормальні, отримані дисперсії та коваріації цього граничного розподілу. Доведено, що оцінки похибки байєсівської процедури розпізнавання на ланцюгах Маркова в асимптотиці збігаються з оцінками похибки на незалежних ознаках. У дисертаційній роботі байєсівська процедура розпізнавання застосовується для прогнозування вторинної структури білка. Задача ставиться таким чином: необхідно за отриманою на вході амінокислотною послідовністю та за послідовностями з відомими вторинними структурами визначити вторинну структуру вихідної послідовності. Для визначення вторинної структури білка послідовно визначається вторинна структура кожної амінокислоти, що входить до його складу, при цьому робиться припущення, що на вторинну структуру амінокислоти впливає оточення з сусідніх амінокислот . Для розв’язання задачі використовується байєсівська процедура розпізнавання на ланцюгах Маркова. Амінокислотна послідовність білка описувалася нестаціонарним ланцюгом Маркова з 20 станами (кожен стан відповідає певному типу амінокислотних залишків). Перехідні ймовірності оцінюються за навчаючими вибірками, у якості яких використовувалася інформація з відкритих баз даних генетичної інформації NCBI. Середня точність розпізнавання підрахована на множині з 23 тисяч білків перевищує 80 %. Як приклад продемонстровано результати розпізнавання вторинної структури деяких білків: серед них гемоглобін людини, лізоцим людини, білки ВІЛ p17 та p24. У процесі дослідження відповідності амінокислотних послідовностей білків моделям ланцюгів Маркова проаналізовано понад 50 геномів бактерій та рослин. Показано, що в геномах цих організмів мають місце закономірності комплементарності по одному ланцюжку ДНК. |