Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Корпус розмовної англійської мови
Корпус розмовної англійської мови (SEC від англ. Spoken English Corpus) — це лінгвістичний корпус записів розмовної британської англійської мови, складений протягом 1984—1987 років. Посібник з корпусу можна знайти у Міжнародному комп'ютерному архіві сучасної та середньовічної англійської мови (ICAME).
Зміст
Історія
Проект Корпусу розмовної англійської мови (SEC) у 1984—1985 роках розроблявся у співпраці Фондом гуманітарних досліджень Ланкастерського університету та IBM UK Ltd, а згодом тільки IBM UK Ltd. Розробкою займалися підрозділ комп'ютерних досліджень англійської мови у Ланкастерському університеті на чолі з Джеффрі Лічем та Науковий центр IBM у Вінчестері на чолі з Джеффрі Кейем. Фінансування надавало IBM.
Матеріал корпусу
Корпус складається з 53 записаних уривків, переважно взятих з BBC, що вимовляються з акцентом, який зазвичай називають англійською літературною вимовою. Збірка охоплює такі категорії: коментарі, трансляція новин, лекції, діалоги, поезія, пропаганда. Корпус містить 52 637 слів на 339 хвилин. Склад корпусу описала Літа Тейлор у своїй статті 1996 року «The Compilation of the Govored English Corpus».
Категорія | Слів | % |
---|---|---|
Коментарі | 9066 | 17 |
Трансляція новин | 5235 | 10 |
Лекції на широку аудиторію | 4471 | 8 |
Лекції на обмежену аудиторію | 7451 | 14 |
Релігійне мовлення, включаючи літургію | 2043 | 4 |
Репортаж у журнальному стилі | 4170 | 9 |
Художня література | 7299 | 14 |
Поезія | 1292 | 2 |
Діалоги | 6826 | 13 |
Пропаганда | 1432 | 3 |
Інше | 3352 | 6 |
Разом | 52637 | 100 |
Транскрибування
Для транскрибування інтонації записаного матеріалу було розроблено певну систему. Двоє транскрибаторів, Джеррі Ноулз і Брайоні Вільямс, за підтримки Літи Тейлор, проаналізували весь корпус. Систему транскрибування пояснив Б. Вільямс, а Брайан Пікерінг провів експеримент, щоб оцінити ступінь узгодження у роботі обох транскрибаторів щодо частини корпусу, що містить близько 1000 тонів. Ступінь узгодження був високий.
Важливою властивістю сучасного корпусу є те, що він може оброблятися комп'ютером: наразі корпус, як правило, розміщується на жорсткому диску, а не на книжковій полиці. Представляючи корпус у книжковій формі, автори враховували потреби корпусних лінгвістів старого зразка, а також тих, хто ще не знайомий з корпусами. Будь-хто, у кого є корпус на диску, може зробити друковані копії більшості файлів, але без спеціального шрифту для друку просодичних символів тексти транскрипції будуть непридатні для друку або читання. З цієї причини для публікації обрано саме просодичний варіант.
Вся транскрипція у нинішньому друкованому вигляді була зроблена Пітером Олдерсоном, який пізніше обійняв посаду менеджера з дослідження мовлення в IBM. Згодом том був названий «Корпус формального британського англійського мовлення: розмовний англійський корпус Ланкастер/IBM» і вперше опублікований Лонгманом у 1996 році, пізніше Routledge у 2013 році. Наразі книга доступна в онлайн-книгарнях, включаючи Routledge і Book Depository, або в електронному форматі у Google Play Books.
Інші особливості
Граматичні позначки до кожного слова на основі тегів CLAWS1 було додано до тексту SEC. Той факт, що тегування було у машиночитній формі, дозволяв співвідносити граматичну та просодичну інформацію в текстах. Надалі у роботі використовувалися ймовірнісні моделі для розвитку граматичних тегів і автоматизації синтаксичного аналізу.
Енн Віхманн опублікувала своє дослідження про інтонацію SEC «Інтонація в тексті та дискурсі: початок, середина та кінець» у 2000 році.
Машиночитний корпус розмовної англійської мови (MARSEC)
Хоча текст і пов'язані з ним теги існували у машиночитній формі, самі записи існували лише у магнітофонному вигляді. Співпраця між науковцями з університетів Ланкастера та Лідса у Сполученому Королівстві, яка фінансувалася Радою економічних і соціальних досліджень у 1992—1994 роках, мала на меті створити версію корпусу, що містила би записи в цифровій формі. Головними дослідниками були Джеррі Ноулз і Тамаш Вараді (Ланкастер), Пітер Роуч і Саймон Арнфілд (Лідс). Схему проекту виклав Ноулз. Оцифровані записи були записані на CD-ROM. Пізніше диск зробили доступним для завантаження в дослідницьких цілях з Університету Лідса (цієї функції більше немає).
Aix-MARSEC
Робота над MARSEC в Ланкастері та Лідсі була завершена приблизно в 1995 році, але згодом корпус значно розвинувся в Університеті Екс-ан-Прованс у Франції, під керівництвом Деніеля Херста. Зараз база даних складається з двох основних частин: оцифрованих записів від MARSEC та лінгвістичної розмітки. Розмітку здійснено на дев'яти рівнях, включаючи фонеми, склади, слова, наголоси, одиниці ритму та другорядні й головні одиниці мовлення. Незабаром будуть інтегровані два додаткові рівні: граматична розмітка від CLAWS і система граматичних властивостей, розроблена в Екс-ан-Прованс. Можливим недоліком такої доробки є те, що пошук у корпусі можна здійснювати лише за допомогою спеціально написаних скриптів.