Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.
Корпус розмовної англійської мови
Другие языки:

Корпус розмовної англійської мови

Подписчиков: 0, рейтинг: 0

Корпус розмовної англійської мови (SEC від англ. Spoken English Corpus) — це лінгвістичний корпус записів розмовної британської англійської мови, складений протягом 1984—1987 років. Посібник з корпусу можна знайти у Міжнародному комп'ютерному архіві сучасної та середньовічної англійської мови (ICAME).

Історія

Проект Корпусу розмовної англійської мови (SEC) у 1984—1985 роках розроблявся у співпраці Фондом гуманітарних досліджень Ланкастерського університету та IBM UK Ltd, а згодом тільки IBM UK Ltd. Розробкою займалися підрозділ комп'ютерних досліджень англійської мови у Ланкастерському університеті на чолі з Джеффрі Лічем та Науковий центр IBM у Вінчестері на чолі з Джеффрі Кейем. Фінансування надавало IBM.

Матеріал корпусу

Корпус складається з 53 записаних уривків, переважно взятих з BBC, що вимовляються з акцентом, який зазвичай називають англійською літературною вимовою. Збірка охоплює такі категорії: коментарі, трансляція новин, лекції, діалоги, поезія, пропаганда. Корпус містить 52 637 слів на 339 хвилин. Склад корпусу описала Літа Тейлор у своїй статті 1996 року «The Compilation of the Govored English Corpus».

Категорія Слів %
Коментарі 9066 17
Трансляція новин 5235 10
Лекції на широку аудиторію 4471 8
Лекції на обмежену аудиторію 7451 14
Релігійне мовлення, включаючи літургію 2043 4
Репортаж у журнальному стилі 4170 9
Художня література 7299 14
Поезія 1292 2
Діалоги 6826 13
Пропаганда 1432 3
Інше 3352 6
Разом 52637 100

Транскрибування

Для транскрибування інтонації записаного матеріалу було розроблено певну систему. Двоє транскрибаторів, Джеррі Ноулз і Брайоні Вільямс, за підтримки Літи Тейлор, проаналізували весь корпус. Систему транскрибування пояснив Б. Вільямс, а Брайан Пікерінг провів експеримент, щоб оцінити ступінь узгодження у роботі обох транскрибаторів щодо частини корпусу, що містить близько 1000 тонів. Ступінь узгодження був високий.

Важливою властивістю сучасного корпусу є те, що він може оброблятися комп'ютером: наразі корпус, як правило, розміщується на жорсткому диску, а не на книжковій полиці. Представляючи корпус у книжковій формі, автори враховували потреби корпусних лінгвістів старого зразка, а також тих, хто ще не знайомий з корпусами. Будь-хто, у кого є корпус на диску, може зробити друковані копії більшості файлів, але без спеціального шрифту для друку просодичних символів тексти транскрипції будуть непридатні для друку або читання. З цієї причини для публікації обрано саме просодичний варіант.

Вся транскрипція у нинішньому друкованому вигляді була зроблена Пітером Олдерсоном, який пізніше обійняв посаду менеджера з дослідження мовлення в IBM. Згодом том був названий «Корпус формального британського англійського мовлення: розмовний англійський корпус Ланкастер/IBM» і вперше опублікований Лонгманом у 1996 році, пізніше Routledge у 2013 році. Наразі книга доступна в онлайн-книгарнях, включаючи Routledge і Book Depository, або в електронному форматі у Google Play Books.

Інші особливості

Граматичні позначки до кожного слова на основі тегів CLAWS1 було додано до тексту SEC. Той факт, що тегування було у машиночитній формі, дозволяв співвідносити граматичну та просодичну інформацію в текстах. Надалі у роботі використовувалися ймовірнісні моделі для розвитку граматичних тегів і автоматизації синтаксичного аналізу.

Енн Віхманн опублікувала своє дослідження про інтонацію SEC «Інтонація в тексті та дискурсі: початок, середина та кінець» у 2000 році.

Машиночитний корпус розмовної англійської мови (MARSEC)

Хоча текст і пов'язані з ним теги існували у машиночитній формі, самі записи існували лише у магнітофонному вигляді. Співпраця між науковцями з університетів Ланкастера та Лідса у Сполученому Королівстві, яка фінансувалася Радою економічних і соціальних досліджень у 1992—1994 роках, мала на меті створити версію корпусу, що містила би записи в цифровій формі. Головними дослідниками були Джеррі Ноулз і Тамаш Вараді (Ланкастер), Пітер Роуч і Саймон Арнфілд (Лідс). Схему проекту виклав Ноулз. Оцифровані записи були записані на CD-ROM. Пізніше диск зробили доступним для завантаження в дослідницьких цілях з Університету Лідса (цієї функції більше немає).

Aix-MARSEC

Робота над MARSEC в Ланкастері та Лідсі була завершена приблизно в 1995 році, але згодом корпус значно розвинувся в Університеті Екс-ан-Прованс у Франції, під керівництвом Деніеля Херста. Зараз база даних складається з двох основних частин: оцифрованих записів від MARSEC та лінгвістичної розмітки. Розмітку здійснено на дев'яти рівнях, включаючи фонеми, склади, слова, наголоси, одиниці ритму та другорядні й головні одиниці мовлення. Незабаром будуть інтегровані два додаткові рівні: граматична розмітка від CLAWS і система граматичних властивостей, розроблена в Екс-ан-Прованс. Можливим недоліком такої доробки є те, що пошук у корпусі можна здійснювати лише за допомогою спеціально написаних скриптів.


Новое сообщение