Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
GenBank
GenBank — публічно доступна база даних нуклеотидних послідовностей і супровідних анотацій для більш як 300 000 видів. Дані вносяться як окремими лабораторіями, так і великомасштабними проектами повного секвенування геномів, Патентне відомство США також доповнює GenBank послідовностями із виданих патентів. Розробкою і розповсюдженням GenBank займається Національний центр біотехнологічної інформації. Ця база даних разом із DDBJ та ENA (англ. European Nucleotide Archive), з якими вона щоденно обмінюється даними, входить до Міжнародної співпраці баз даних нуклеотидних послідовностей. Станом на серпень 2014 року GenBank містив 939 775 079 106 пар основ.
GenBank можна використовувати через систему Entrez NCBI, яка інтегрує інформацію із широкого спектра баз даних NCBI. NCBI Nucleotide поділений на три розділи: CoreNucleotide (основна частина), dbEST (Expressed Sequence Tags) і dbGSS (Genome Survey Sequences). Сервіс BLAST дозволяє порівнювати послідовності GenBank між собою та із послідовностями з інших джерел.
Зміст
Поділ на розділи
GenBank категоризує послідовності до кількох розділів в залежності від організму джерела або способу отримання даних.
Розділ | Опис | Кількість даних у релізі 203 (8/2014) |
---|---|---|
PRI | Послідовності приматів | 6697769597 |
ROD | Послідовності гризунів | 4467459537 |
MAM | Послідовності інших ссавців | 951689720 |
VRT | Інші хребетні | 3188004508 |
INV | Послідовності безхребетних | 3085847038 |
PLN | Рослинні послідовності | 9012205825 |
BCT | Бактерійні послідовності | 187345 |
VRL | Вірусні послідовності | 2125907663 |
PHG | Послідовності бактеріофагів | 146804958 |
SYN | Синтетичні послідовності | 976696717 |
UNA | Неанотовані послідовності | 187345 |
WSG | Дані секвенування повного геному методом дробовика (англ. Whole genome shotgun) | 774052098731 |
ENV | Зразки із навколишнього середовища | 4297282924 |
PAT | Запатентовані послідовності | 14647872659 |
TSA | Дані секвенування транскриптому методом дробовика | 9323352861 |
HTC | Дані високопродуктивного секвенування кДНК | 671972485 |
HTG | Дані високопродуктивного секвенування геномної ДНК | 25386830568 |
GSS | Genome survey sequences | 24293870378 |
EST | Expressed sequence tags | 42086482490 |
STS | Sequence tagged sites | 640701468 |
Поділ на розділи за організмами є історичним і не відображає сучасної класифікації. Через це, а також тому, що частина послідовностей певного організму можуть перебувати у розділі за технологією (наприклад, EST або HTG), для пошуку даних за організмом слід використовувати NCBI Taxonomy Browser [Архівовано 19 травня 2020 у Wayback Machine.].
Ідентифікатори і номери доступу послідовностей
Кожному запису, що складається із послідовності і супутньої інформації, присвоюється унікальний номер доступу, спільний для трьох баз даних, що співпрацюють (GenBank, DDBJ, ENA). Цей номер можна знайти у рядку ACCESSION
відповідного запису. Він не змінюється впродовж всього часу існування запису, навіть якщо дані оновлюються. Натомість, зміни відображаються за допомогою суфікса номера доступу, що позначає версію. Початковою версією послідовності завжди є '.1'. Кожній версії нуклеотидної послідовності також присвоюється унікальний NCBI ідентифікатор — GI, його можна знайти у рядку VERSION
, наприклад U49845.1 GI:1293613
. Коли дані про послідовність оновлюються, нова версія отримує інший GI, а версія номера доступу інкрементується. З номером доступу без вказання версії можна знайти найновіші дані. Записи GenBank рекомендується цитувати із використанням номера доступу із вказанням версії.
Завантаження вмісту
Що два місяці NCBI випускає новий повний реліз GenBank, який можна безкоштовно завантажити через FTP. Крім того, щоденно виходять оновлення також вільні до завантаження.
Посилання
- GenBank Overview. NCBI. Архів оригіналу за 9 листопада 2015. Процитовано 11 листопада 2015.
- Sample GenBank Record. NCBI. Архів оригіналу за 10 вересня 2015. Процитовано 11 листопада 2015. — зразок запису на GenBank