Телефоны: (+7 495) 77-55-122, 77-55-123, 77-55-124. Главная страницаE-MailКонтактная информацияПоискКарта сайтаВерсия для печати
Видеоконференции Решения для Телемедицины Дистанционное обучение Речевые технологии Компьютерная техника Новости

RU


EN
www.stel.ru » Речевые технологии » Базы данных
Поиск:
Логин: Пароль:
О компании
Новости
Видеоконференции
Телемедицина
Мультимедийные залы
Дистанционное обучение
Речевые технологии
АПК "Голос"
Qspeech
"Голос - Аноним"
Компьютерная техника
Контакты
English version
Карта сайта
Речевая база данных для программ распознавания и синтеза речи. Описание

БАЗА данных для распознавания и синтеза речи 

Характеристика текстов

Собранная база данных объединяет несколько составных частей, отличающихся типом читаемого текста и соответствующим транскрипционным материалом.

База Описание
Таблицы

Состоит из 50 серий предложений по 10 или 11 предложений на серию (в среднем, 5 слов в предложении). База сбалансирована по фонемному набору. Для базы существует временная, индивидуальная для каждого диктора, звуковая разметка.

Цифры

Тексты состоят из различных последовательностей цифр. Каждым диктором начитывалось пять последовательностей (в среднем, 190 слов в файле), отличающихся порядком цифр и манерой их прочтения (слитно, раздельно с паузами). База использовалась для тестирования полученных при помощи базы "Таблицы" моделей, а также для подстройки моделей, адаптированных для распознавания цифр. Для базы существует транскрипция, полученная при помощи программы-транскриптора. Также существует временная, индивидуальная для каждого диктора пословная разметка, полученная при помощи собственной программы распознавания речи на построенных при помощи других баз моделях.

Сбалансированные тексты

Два художественных текста, сбалансированных по фонемному набору (358 и 398 слов). База использовалась для тренинга и подстройки моделей, построенных на основе базы "Таблицы". При помощи программы-транскриптора для текстов была получена фонемная транскрипция, которая затем адаптировалась для каждого диктора экспертами-фонетистами.

Тексты

Подборка из 51 текста (в среднем, 520 слов в тексте) на основе газетных статей. Вместе с базой "Сбалансированные тексты" использовалась для тренинга и подстройки моделей. Транскрипции адаптированы для каждого диктора.

Предложения

Подборка сбалансированных предложений: 50 серий по 10 или 11 предложений в каждой (см. базу "Таблицы"). Транскрипции получены при помощи программы-транскриптора.


Общие характеристики каждой базы:

База Всего дикторов Мужчин Женщин Общее время звучания (сек.)
Таблицы 4 2 2 4364
Цифры 19 16 3 11057
Сбалансированные тексты 96 68 28 16880
Тексты 96 68 28 25816
Предложения 35 16 19 50281
Во всей базе 137 89 48 108398

Предварительная обработка каждой базы:

База Выполненные действия
Таблицы

Для каждого диктора хранится 510 файлов *.wav; по одному предложению в файле. Каждому такому файлу соответствует текстовый файл *.lab с фонемной транскрипцией и разметкой прочитанного предложения (разметка и транскрипция экспертная).Формат названий файлов:

NNnniis.wav (NNnniis.lab),

где
NN - номер серии,
nn - номер предложения в серии,
ii - инициалы или номер диктора,
s - пол диктора.
Цифры

Для каждого диктора хранится 5 файлов *.wav с произнесенными последовательностями цифр. Каждому такому файлу соответствует текстовый файл *.lab с фонемной транскрипцией прочитанных слов (транскрипция выполнена программой-транскриптором, одинакова для всех дикторов), а также текстовый файл *.rec с транскрипцией и пословной разметкой прочитанных слов (разметка и транскрипция выполнена программой распознавания речи). Формат названия файлов:

51nniis.wav (51nniis.lab, 51nniis.rec),

где
nn - номер предложения в серии,
ii - инициалы или номер диктора,
s - пол диктора.
Сбалансированные тексты

Для каждого диктора хранится файл *.wav с зачитанным сбалансированным текстом. Каждому такому файлу соответствует текстовый файл *.lab с фонемной экспертной транскрипцией прочитанного текста. Формат названий файлов:

53nniiis.wav (53nniiis.lab),

где
nn - номер сбалансированного текста,
iii - инициалы или номер диктора,
s - пол диктора.

Тексты

Для каждого диктора хранится файл *.wav с зачитанным текстом. Каждому такому файлу соответствует текстовый файл *.lab с фонемной экспертной транскрипцией прочитанного текста. Формат названий файлов:

54nniiis.wav (54nniiis.lab),

где
nn - номер сбалансированного текста,
iii - инициалы или номер диктора,
s - пол диктора.

Предложения

Для каждого диктора хранится 510 файлов *.wav; по одному предложению в файле. Каждому такому файлу соответствует текстовый файл *.lab с фонемной транскрипцией прочитанных слов (транскрипция выполнена программой-транскриптором, одинакова для всех дикторов)

Nnnniiis.wav (NNnniiis.lab),

где
NN - номер серии,
nn - номер предложения в серии,
iii - инициалы или номер диктора,
s пол диктора.


Характеристика дикторов речевой базы

Возрастная характеристика:

Возрастная характеристика дикторов речевой базы русского языка для распознавания и синтеза речи

Возраст всех дикторов речевой базы. По оси ординат здесь и далее отложено количество дикторов, по оси абсцисс - их возраст.

Возрастная характеристика дикторов речевой базы для распознавания и синтеза речи

Возраст дикторов речевой базы "Таблицы"

Возрастная характеристика дикторов речевой базы для распознавания и синтеза речи

Возраст дикторов речевой базы "Цифры"

Возрастная характеристика дикторов речевой базы для распознавания и синтеза речи

Возраст дикторов речевых баз "Сбалансированные тексты" и "Тексты"

Возрастная характеристика дикторов русской речевой базы для распознавания и синтеза речи

Возраст дикторов речевой базы "Предложения"

Диалектные группы дикторов по месту рождения:

Севернорусское наречие:
Ладого-Тихвинская группа 1 человек
Костромская группа 1 человек
Архангельские говоры 1 человек
Среднерусские говоры:
Владимиро-Поволжский говор 6 человек
Южнорусское наречие:
Рязанская группа 8 человек
Курско-Орловская группа 11 человек
Тульская группа 6 человек
Западная диалектная зона 4 человека
Восточная диалектная зона 12 человек
Литературная норма:
Московская 84 человека
Петербургская 3 человека

Метод записи речевой базы

Запись речевой базы выполнялась при помощи следующего оборудования и в следующих условиях: Микрофон: Shure SM10A (гарнитура). Неравномерность частотной характеристики в диапазоне от 200 до 10000 Гц v 3 дБ Микрофонный предусилитель: Symetrix SX202. Отношение сигнал/шум 96 дБ. Звуковая плата: Turtle Beach Tropez Plus (использовался линейный вход) Отношение сигнал/шум 80 дБ.
Фильтры: отсутствовали Помещение: тихий кабинет Запись и сохранение информации: сигнал от микрофона подавался на линейный вход звуковой платы. Оцифрованный сигнал записывался непосредственно на жесткий диск. Частота опроса и разрядность: 22050 Гц, 16 бит

Носитель и структура речевой базы данных

Носители информации:

Речевая база данных хранится на CD ROM ISO9660.

База Количество компакт-дисков
Таблицы 1
Цифры 1
Сбалансированные тексты 4
Тексты 4
Предложения 4
Во всей базе 14

Структура речевой базы: База данных хранится в виде файлов звукозаписи *.wav.

База Структура
Таблицы

2040 файлов (по 510 на каждого диктора) хранятся в одном каталоге на CD "База 1. Размеченные таблицы" в отдельном для каждого диктора каталоге на MOD "Б1. Таблицы". В двух каталогах хранится по 2040 файлов *.lab, содержащих соответствующие размеченные транскрипции (латинские и кириллические).

Цифры

19 каталогов (по одному каталогу для каждого диктора), содержащих по 5 файлов каждый. Один каталог с транскрипциями всех файлов *.lab. Один каталог с размеченными при помощи программы распознавания пословными транскрипциями всех файлов *.rec.

Сбалансированные тексты По одному файлу для каждого диктора. Файлы хранятся в общих каталогах. Всего 96 файлов.
Тексты По одному файлу для каждого диктора. Файлы хранятся в общих каталогах. Всего 96 файлов.
Предложения 35 каталогов (по одному каталогу для каждого диктора), содержащих по 510 файлов каждый.

УСЛОВИЯ продажи

Выяснить условия приобретения речевой базы можно здесь
© 1991-2010 "Стэл - Компьютерные Системы"