БАЗА данных для распознавания и синтеза речи
Характеристика текстовСобранная база данных объединяет несколько составных частей, отличающихся типом читаемого текста и соответствующим транскрипционным материалом.
| База |
Описание |
| Таблицы |
Состоит из 50 серий предложений по 10 или 11 предложений на серию (в среднем, 5 слов в предложении). База сбалансирована по фонемному набору. Для базы существует временная, индивидуальная для каждого диктора, звуковая разметка. |
| Цифры |
Тексты состоят из различных последовательностей цифр. Каждым диктором начитывалось пять последовательностей (в среднем, 190 слов в файле), отличающихся порядком цифр и манерой их прочтения (слитно, раздельно с паузами). База использовалась для тестирования полученных при помощи базы "Таблицы" моделей, а также для подстройки моделей, адаптированных для распознавания цифр. Для базы существует транскрипция, полученная при помощи программы-транскриптора. Также существует временная, индивидуальная для каждого диктора пословная разметка, полученная при помощи собственной программы распознавания речи на построенных при помощи других баз моделях. |
| Сбалансированные тексты |
Два художественных текста, сбалансированных по фонемному набору (358 и 398 слов). База использовалась для тренинга и подстройки моделей, построенных на основе базы "Таблицы". При помощи программы-транскриптора для текстов была получена фонемная транскрипция, которая затем адаптировалась для каждого диктора экспертами-фонетистами. |
| Тексты |
Подборка из 51 текста (в среднем, 520 слов в тексте) на основе газетных статей. Вместе с базой "Сбалансированные тексты" использовалась для тренинга и подстройки моделей. Транскрипции адаптированы для каждого диктора. |
| Предложения |
Подборка сбалансированных предложений: 50 серий по 10 или 11 предложений в каждой (см. базу "Таблицы"). Транскрипции получены при помощи программы-транскриптора. |
Общие характеристики каждой базы:
| База |
Всего дикторов |
Мужчин |
Женщин |
Общее время звучания (сек.) |
| Таблицы |
4 |
2 |
2 |
4364 |
| Цифры |
19 |
16 |
3 |
11057 |
| Сбалансированные тексты |
96 |
68 |
28 |
16880 |
| Тексты |
96 |
68 |
28 |
25816 |
| Предложения |
35 |
16 |
19 |
50281 |
| Во всей базе |
137 |
89 |
48 |
108398 |
Предварительная обработка каждой базы:
| База |
Выполненные действия |
| Таблицы |
Для каждого диктора хранится 510 файлов *.wav; по одному предложению в файле. Каждому такому файлу соответствует текстовый файл *.lab с фонемной транскрипцией и разметкой прочитанного предложения (разметка и транскрипция экспертная).Формат названий файлов: NNnniis.wav (NNnniis.lab),
где NN - номер серии, nn - номер предложения в серии, ii - инициалы или номер диктора, s - пол диктора. |
| Цифры |
Для каждого диктора хранится 5 файлов *.wav с произнесенными последовательностями цифр. Каждому такому файлу соответствует текстовый файл *.lab с фонемной транскрипцией прочитанных слов (транскрипция выполнена программой-транскриптором, одинакова для всех дикторов), а также текстовый файл *.rec с транскрипцией и пословной разметкой прочитанных слов (разметка и транскрипция выполнена программой распознавания речи). Формат названия файлов: 51nniis.wav (51nniis.lab, 51nniis.rec),
где nn - номер предложения в серии, ii - инициалы или номер диктора, s - пол диктора. |
| Сбалансированные тексты |
Для каждого диктора хранится файл *.wav с зачитанным сбалансированным текстом. Каждому такому файлу соответствует текстовый файл *.lab с фонемной экспертной транскрипцией прочитанного текста. Формат названий файлов:
53nniiis.wav (53nniiis.lab),
где nn - номер сбалансированного текста, iii - инициалы или номер диктора, s - пол диктора. |
| Тексты |
Для каждого диктора хранится файл *.wav с зачитанным текстом. Каждому такому файлу соответствует текстовый файл *.lab с фонемной экспертной транскрипцией прочитанного текста. Формат названий файлов:
54nniiis.wav (54nniiis.lab),
где nn - номер сбалансированного текста, iii - инициалы или номер диктора, s - пол диктора. |
| Предложения |
Для каждого диктора хранится 510 файлов *.wav; по одному предложению в файле. Каждому такому файлу соответствует текстовый файл *.lab с фонемной транскрипцией прочитанных слов (транскрипция выполнена программой-транскриптором, одинакова для всех дикторов)
Nnnniiis.wav (NNnniiis.lab),
где NN - номер серии, nn - номер предложения в серии, iii - инициалы или номер диктора, s пол диктора. |
Характеристика дикторов речевой базы
Возрастная характеристика:
Возраст всех дикторов речевой базы. По оси ординат здесь и далее отложено количество дикторов, по оси абсцисс - их возраст.
Возраст дикторов речевой базы "Таблицы"
Возраст дикторов речевой базы "Цифры"
Возраст дикторов речевых баз "Сбалансированные тексты" и "Тексты"
Возраст дикторов речевой базы "Предложения"
Диалектные группы дикторов по месту рождения:
| Севернорусское наречие: |
| Ладого-Тихвинская группа |
1 человек |
| Костромская группа |
1 человек |
| Архангельские говоры |
1 человек |
| Среднерусские говоры: |
| Владимиро-Поволжский говор |
6 человек |
| Южнорусское наречие: |
| Рязанская группа |
8 человек |
| Курско-Орловская группа |
11 человек |
| Тульская группа |
6 человек |
| Западная диалектная зона |
4 человека |
| Восточная диалектная зона |
12 человек |
| Литературная норма: |
| Московская |
84 человека |
| Петербургская |
3 человека |
Метод записи речевой базыЗапись речевой базы выполнялась при помощи следующего оборудования и в следующих условиях: Микрофон: Shure SM10A (гарнитура). Неравномерность частотной характеристики в диапазоне от 200 до 10000 Гц v 3 дБ Микрофонный предусилитель: Symetrix SX202. Отношение сигнал/шум 96 дБ. Звуковая плата: Turtle Beach Tropez Plus (использовался линейный вход) Отношение сигнал/шум 80 дБ.
Фильтры: отсутствовали Помещение: тихий кабинет Запись и сохранение информации: сигнал от микрофона подавался на линейный вход звуковой платы. Оцифрованный сигнал записывался непосредственно на жесткий диск. Частота опроса и разрядность: 22050 Гц, 16 бит
Носитель и структура речевой базы данных
Носители информации:Речевая база данных хранится на CD ROM ISO9660.
| База |
Количество компакт-дисков |
| Таблицы |
1 |
| Цифры |
1 |
| Сбалансированные тексты |
4 |
| Тексты |
4 |
| Предложения |
4 |
| Во всей базе |
14 | Структура речевой базы: База данных хранится в виде файлов звукозаписи *.wav.
| База |
Структура |
| Таблицы |
2040 файлов (по 510 на каждого диктора) хранятся в одном каталоге на CD "База 1. Размеченные таблицы" в отдельном для каждого диктора каталоге на MOD "Б1. Таблицы". В двух каталогах хранится по 2040 файлов *.lab, содержащих соответствующие размеченные транскрипции (латинские и кириллические). |
| Цифры |
19 каталогов (по одному каталогу для каждого диктора), содержащих по 5 файлов каждый. Один каталог с транскрипциями всех файлов *.lab. Один каталог с размеченными при помощи программы распознавания пословными транскрипциями всех файлов *.rec. |
| Сбалансированные тексты |
По одному файлу для каждого диктора. Файлы хранятся в общих каталогах. Всего 96 файлов. |
| Тексты |
По одному файлу для каждого диктора. Файлы хранятся в общих каталогах. Всего 96 файлов. |
| Предложения |
35 каталогов (по одному каталогу для каждого диктора), содержащих по 510 файлов каждый. |
УСЛОВИЯ продажиВыяснить условия приобретения речевой базы можно здесь
|