Что такое индикаторы голоса
ЗВУКОВОЙ ИНДИКАТОР
Полезное
Смотреть что такое «ЗВУКОВОЙ ИНДИКАТОР» в других словарях:
звуковой индикатор — — [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN peeperaudio indicator … Справочник технического переводчика
звуковой индикатор течи (продуктопровода) — — [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN audible leak indicator … Справочник технического переводчика
карманный звуковой индикатор — (уровня радиационного воздействия) [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN pocket peeper … Справочник технического переводчика
поисковый звуковой индикатор — — [Я.Н.Лугинский, М.С.Фези Жилинская, Ю.С.Кабиров. Англо русский словарь по электротехнике и электроэнергетике, Москва, 1999 г.] Тематики электротехника, основные понятия EN prospecting audio radiation indicator … Справочник технического переводчика
индикатор неисправностей — (ИН) Визуальный или звуковой индикатор, который четко информирует водителя транспортного средства о неисправности любого имеющего отношение к выбросам элемента, связанного с БДС, или самой БДС. [ГОСТ Р 41.83 2004] Тематики автотранспортная… … Справочник технического переводчика
звуковой/визуальный индикатор управляемого специфического ресурса/устройства — Звуковой/визуальный индикатор сигнала тревоги, особый для каждого отдельного управляемого ресурса (МСЭ Т M.3100). [http://www.iks media.ru/glossary/index.html?glossid=2400324] Тематики электросвязь, основные понятия EN managed resource… … Справочник технического переводчика
индикатор (в метрологии) — индикатор Техническое средство или вещество, предназначенное для установления наличия какой либо физической величины или превышения уровня ее порогового значения. Пример. Индикатором наличия (или отсутствия) измерительного сигнала может служить… … Справочник технического переводчика
индикатор состояния (УЗИП) — Устройство, указывающее рабочее состояние УЗИП. Примечание Подобные индикаторы могут быть локальными с визуальной и/или звуковой сигнализацией и/или могут иметь дистанционную сигнализацию и/или выходной контакт. [ГОСТ Р 51992 2011 (МЭК 61643… … Справочник технического переводчика
Индикатор — (Indicator) Индикатор это информационная система, вещество, прибор, устройство, отображающий изменения какого либо параметра Индикаторы графиков валютного рынка форекс, какие они бывают и где их можно скачать? Описание индикаторов MACD,… … Энциклопедия инвестора
индикатор — 3.23 индикатор (indicator): см. индикатор оценки. Источник: ГОСТ Р ИСО/МЭК 15504 1 2009: Информационные технологии. Оценка процессов. Часть 1. Концепция и словарь … Словарь-справочник терминов нормативно-технической документации
Почему измерителей сигнала так много?
Измерить сигнал, что может быть проще? Подключил вольтметр и измеряй. Но, не всё так просто. Реальные звуковые сигналы — это не синусоида. Они устроены гораздо сложнее. Поэтому при измерении уровней звуковых сигналов используют несколько типов измерителей. Почему?
Дело в том, что измерители имеют различные динамические параметры и, соответственно, по-разному реагируют на разнообразные реальные сигналы. Следовательно и области применения их несколько отличаются. По одним удобно следить за максимальными уровнями сигналов, но реальную громкость они практически не отображают. Другие, наоборот, несмотря на то что они плохо реагируют на пики сигналов, вполне удовлетворительно отражают субъективную воспринимаемую нами громкость (уровень) сигнала.
Пик-фактор
Итак, существуют три основных типа вольтметров — вольтметр «средних значений», «пиковый» вольтметр и вольтметр «действующих значений», иначе называемый «среднеквадратичный» (RMS).
VU-измеритель
VU-измеритель — это вольтметр средних значений (VU-meter, или «волюметр»). Он исторически появился самым первым, и является самым простым по устройству — показывающий прибор просто включён в диагональ диодного моста. Динамические характеристики измерителя полностью определяются инерционными параметрами стрелочного индикатора, а все механические измерители имеют весьма значительный разброс по этим параметрам. Соответственно и показывает он по преимуществу «цену на дрова на северном полюсе во время засухи».
Однако, благодаря его длительному применению звукорежиссёры накопили богатый опыт работы, позволяющий (при соответствующей практике) правильно оценивать показания измерителя и вносить необходимые поправки «на слух», с учётом характера звукового материала. Только этим (и ничем иным) и объясняется такая феноменальная «живучесть» этого типа измерителей.
RMS- измеритель
Вольтметр действующих значений (среднеквадратичный) показывает величину напряжения, пропорциональную реальной долговременной мощности сигнала, его «тепловой эквивалент» И в самом деле, лучшие RMS-вольтметры построены именно с использованием термопреобразователей. Исследуемое напряжение нагревает термоэлемент, по температуре которого и судят о величине напряжения. Однако, как вы понимаете, нагрев термоэлемента — дело долгое, измеритель получается излишне инерционным, и применять его для оценки звуковых сигналов занятие неблагодарное. Другое дело — измерение напряжения шумов.
Запомните! Измерять уровень шумов аппаратуры можно только среднеквадратичным вольтметром! И никаким иным! При использовании любых других — ошибки в результатах из-за стохастического характера шумов абсолютно непредсказуемы!
PEAK- измеритель
Пиковый вольтметр в подавляющем большинстве случаев как раз и служит измерителем уровней звуковых сигналов в профессиональной аппаратуре. Однако он «в чистом виде» малопригоден для работы, так как, реагируя даже на самые короткие пики сигнала, будет давать постоянно завышенные показания, а фонограмма при этом будет тихой. Как же быть? Выход был найден в некотором (намеренном) «ухудшении» параметров измерителя. Таким образом, чтобы отдельные, «очень уж короткие» пики сигналов он как бы «перестал видеть». Для этого в схему измерителя были введены специальные интегрирующие зарядно-разрядные цепочки, определяющие динамические характеристики прибора. Такие измерители получили название «квазипиковые» (PPM — международное обозначение), и вот они-то на самом деле и являются теми измерителями, с которыми мы имеем дело в повседневной практике
Запомните! ВСЕ измерители, на которых написано «Peak» — на самом деле являются квазипиковыми! Единственные чисто пиковые измерители — это индикаторы «Over» на некоторых цифровых рекордерах.
При работе в виртуальной звуковой студии (секвенсоре) сейчас распространено применение «двойных» индикаторов, которые показывают оба значения — и пиковое, и действующее. Хотя следует понимать, что индикатор «Peak« реально квазипиковый (см. выше), а та часть индикатора, которая на самом деле показывает истинный RMS-уровень (есть и такие, только цена «кусается»), стыдливо, по инерции, иногда именуется «VU».
Для единообразия применения динамические характеристики двух типов измерителей стандартизированы.
Квазипиковый измеритель должен иметь время интеграции 5 мс, а время возврата — 1,7 с. По определению, время интеграции — это длительность такой одиночной тональной посылки, при которой указатель индикатора доходит до отметки –2 дБ, а время возврата — это время, за которое указатель индикатора после отключения от его входа сигнала номинального уровня опускается до отметки –20 дБ.
В отличие от квазипиковых, у измерителей средних уровней нет раздельных времен интеграции и возврата, а есть только одно, одинаковое для обоих направлений перемещения указателя, оно называется постоянной времени. В измерителях со светодиодным или иными световыми указателями постоянная времени измерительной схемы должна составлять 300 мс.
Как пользоваться измерителями?
Поскольку квазипиковые (PPM-Meter) и измерителей средних уровней (VU—Meter) имеют различные динамические свойства и, следовательно, по-разному реагируют на реальные сигналы, их области применения различаются. По квазипиковому индикатору удобно следить за максимальными уровнями сигналов (чтобы не допустить перегрузки устройств записи или усиления звука), однако реальную громкость сигналов он практически не отображает. VU-измерители плохо реагируют на пики сигналов, однако вполне адекватно отражают именно громкость, субъективно воспринимаемую слуховым аппаратом человека.
Неудивительно, что их используют совместно. Это очень разумное решение.
В наши дни в секвенсорах имеются для линейки светодиодов или специализированные индикаторы, на которых одновременно отображаются и пиковое, и среднее значения уровня в виде светящегося столбика и перемещающейся точки или черточки (peak hold). Часто эти два измерителя имеют одно и то же время интеграции, только точка либо гораздо медленнее возвращается, либо на определенный промежуток времени фиксируется, а затем гаснет. Подобные измерители реализованы программным путем в звуковых редакторах и в плагинах. В ряде случаев пиковые значения сигнала отображаются не в графической, а в числовой форме.
При использование такого «совмещённого» измерителя нужно понимать, что в цифровой аппаратуре амплитуда сигнала запоминается в виде числа и не является непрерывно изменяющимся напряжением, граница максимума на самом деле является максимально допустимым значением. В общих чертах у цифровой аппаратуры нет запаса динамического диапазона; следовательно, уровень входного сигнала нужно установить таким, чтобы амплитуда сигнала, оставаясь близкой к 0 дБ, ни при каких условиях не переходила эту границу. Иначе при превышении верхнего порога сигнала происходит не плавное искажение формы сигнала (как в аналоговой аппаратуре), а срезание верхушек колебания, оказывающихся выше этого порога.
Если вы не хотите, чтобы тембр звука получился специфическим и неприятным на слух, что характерно для цифрового ограничения сигнала, сделайте так, чтобы показания цифрового индикатора ни при каких условиях не переходили верхний порог.
В общем случае невозможно уменьшить уровень входного сигнала, если он уже поступил в компьютер; если он слишком сильный, необходимо уменьшить уровень сигнала на выходе источника сигнала или на входе устройства сопряжения аудиоаппаратуры.
Краткие сведения о различных VU/PPM — измерителях уровня
Обычно в дополнительных настройках измерителя в секвенсоре можно выбрать ряд настроек шкал и динамических свойств измерителей. Зачем? Дело в том, что в теории и в практике измерения уровня аудиосигнала нет единства и жесткой стандартизации. Давным-давно крупные разработчики радиоаппаратуры пошли каждый своим путем.
Вот небольшая таблица:
При воспроизведении одной и той же фонограммы столбики различных измерителей уровня будут «колыхаться» по-разному. Любителю заметить разницу при переходе от одного измерителя к другому сложно, а профессионал (привыкший к одному измерителю) будет испытывать дискомфорт при переходе на другой.
На этом всё. Удачи в проектах!
Спасибо, что читаете New Style Sound ( RSS-лента ). Подписывайтесь и делитесь статьями с друзьями.
Что такое индикаторы голоса
✿ что такое индикаторы тона/теги интонации и зачем их использовать?
это специальные метки, указывающие на интонацию и уточняющие, что подразумевает говорящий. они были придуманы нейроотличными людьми, так как многим из них (например, аутичным) тяжело понимать интонацию. с такими проблемами могут столкнуться и нейротипичные люди — согласно исследованиям, на наше впечатление о человеке до 93% влияния оказывают невербальные сигналы — звучание голоса, язык тела. текст лишён всех перечисленных полутонов, что иногда затрудняет коммуникацию. это прекрасно иллюстрирует количество вбросов и фейков, день за днём циркулирующих по интернету. проблема знакома и людям, имеющим проблемы с социализацией — сложно читать между строк, когда только учишься. индикаторы позволяют внести в диалог ясность и избежать потенциальных недопониманий.
✿ разве нельзя для этой же цели использовать эмодзи или ролёвку в звёздочках?
«послушайте! ведь, если звезды зажигают — значит, это кому-нибудь нужно? значит, кто-то хочет, чтобы они были?» (с)
✿ как понять, где использовать индикаторы тона/теги интонации, а где нет?
НЕ ИСПОЛЬЗУЙТЕ ИНДИКАТОРЫ ТОНА НЕ ПО НАЗНАЧЕНИЮ
P.S. ЕСЛИ ВЫ НЕ ВИДИТЕ ДЛЯ СЕБЯ НЕОБХОДИМОСТИ В ИНДИКАТОРАХ ТОНА, ЭТО НЕ ДАЁТ ВАМ ПРАВА СМЕЯТЬСЯ НАД ТЕМИ, КТО В НИХ НУЖДАЮТСЯ. ПОЖАЛУЙСТА, НЕ БУДЬТЕ МУДАКАМИ.
P.S. ЕСЛИ ВЫ НЕ ВИДИТЕ ДЛЯ СЕБЯ НЕОБХОДИМОСТИ В ИНДИКАТОРАХ ТОНА, ЭТО НЕ ДАЁТ ВАМ ПРАВА СМЕЯТЬСЯ НАД ТЕМИ, КТО В НИХ НУЖДАЮТСЯ. ПОЖАЛУЙСТА, НЕ БУДЬТЕ МУДАКАМИ.
НЕ ИСПОЛЬЗУЙТЕ ИНДИКАТОРЫ ТОНА НЕ ПО НАЗНАЧЕНИЮ
/букв
сказанное буквально
— я тебя уже полчаса жду /букв
/небукв или /метаф или /м
сказанное метафорично
— ай, стеклишко в глаз попало /метаф
— РЫДАЮ /небукв
/хк
хедканон
/кб или /ф
кликбейт / фейк: можно поставить индикатор как в конце поста, так и в начале, если беспокоитесь за читателей с тревожностью
— /кб я ухожу из твиттера подробности по ссылке /кб
/кп
копипаста: текст, который методом «копировать—вставить» гуляет по интернету в огромном количестве вариаций и обычно не подразумевает под собой что-либо серьёзное
— моя мама узнала о моих отношениях на расстоянии. она позвала меня к в гостиную со словами что я забыла и оставила свой телефон разблокированным на кухне. я чуть не откинулась. я села рядом и она в лоб спрашивает: «кто такой чимин?» /кп
/цит
цитата
🎶/ или /сп
слова песни
/отс
отсылка
/срз
серьёзно
— я думаю, что ты — замечательное светлое солнышко. /срз
/хзсрз
для случаев, когда сами не понимаешь, шутишь ты или говоришь серьёзно
— я готов встречаться с кем-то без любви просто за киндеры. /хзсрз
/искр или /ив
искренне / искренний вопрос
— а почему ты так говоришь? /искр /нейтр
/рит или /рв
риторически / риторический вопрос
— а что, так можно было? /рит
/нег
негативно
— АХАХАХХАХА /нег
/поз
позитивно
— ты тыты ыты сделала ЧТО. /поз
/беззл или /бзл или /нейтр
беззлобно / нейтрально
— не думаю, что это взаправду. скорее всего, очередной тролль, не ведитесь /нейтр
/безвр или /бвр
безвредно: может использоваться, чтобы дать читателям знать, что ветка или ссылка абсолютно невинна и её можно спокойно открыть, не боясь ничего, что может повредить им, обидеть их или вызвать тревожность
— открой этот тред, если тебе грустно и ты любишь крольчат /бвр
/мягк
мягко, по-дружески
— я тебя не знаю. /шут /мягк
/оз или /оп
озадачено / опечалено: индикатор для случаев, когда слова собеседника немного расстраивают тебя или застают врасплох, но твои эмоции не настолько негативны, чтобы ставить «/нег»
— что ты имеешь в виду под этим? ты действительно считаешь, что она была права насчёт меня? /оп
/смят
смятение, растерянность, смешанные эмоции
— ко мне сейчас подбежала девочка, сказала, что у меня классная собака, и сразу же убежала громко хихикая, когда её мама позвала. стою осмысливаю /смят
/утв
утвердительно
— вау это так. здОРОВО. /утв
/нбх
транслитерация с nobody here: тег применим в случаях, когда речь не идёт о конкретном собеседнике (в реплаях и переписке) или подписчиках (в постах и твитах), а, скорее, касается предмета обсуждения, на прочтение которым сообщения ты и не рассчитываешь
— я вам, дамочка, не доверяю. и логика ваша меня не устраивает. /нег /нбх
— мне кое-кто нравится. /нбх
/тмс
транслитерация с to myself: тег применим в случаях, когда обращаешься к самим себе
— ЗАЙ СКОЛЬКО МОЖНО ПЕРЕЧИТЫВАТЬ ОДИН И ТОТ ЖЕ ФИК МОЖЕТ ПОЙДЁШЬ ДЕЛАМИ ЗАЙМЁШЬСЯ /тмс
— если я поставлю индикатор, шутка перестанет быть смешной!
— так может хуёвая шутка тогда у тебя, если её так легко испортить двумя символами в конце? (с)
/шут или /ш
шутка
/полушут или /пш
полушутка
/ирон
ирония
/сарк
сарказм
/гиперб или /гип
гипербола: преувеличение
— я сто лет его не видел /гиперб
/зерк
зеркалка, зеркальная шутка
/локмем или /лм
локальный мем, локальная шутка
/орфорофл или /орфл
пояснение о намеренном искажении орфографии там, где это кажется необходимым
— страшна /орфл давай лучше погуляем, это лучше чем думать о плохом
/р или /ром
романтический подтекст
/п
платонический/дружеский подтекст
— ААААА МОЁ СЕРДЦЕ ГОСПОДИ ЧТО ТЫ ДЕЛАЕШЬ СО МНОЙ /п
/а
альтерический/квирплатонический подтекст: описывает тип влечения и отношений, которые не могут быть на сто процентов быть отнесены ни к романтике, ни к даже самой лучшей дружбе, а находятся где-то посередине
/скс
сексуальные намерения
/нескс
несексуальные намерения
— у тебя такой секси мозг /нескс
/ем
если можно ©
— обнимаю /ем
Pitch-tracking, или определение частоты основного тона в речи, на примерах алгоритмов Praat, YAAPT и YIN
В сфере распознавания эмоций голос – второй по важности после лица источник эмоциональных данных. Голос можно охарактеризовать по нескольким параметрам. Высота голоса – одна из основных таких характеристик, однако в сфере акустических технологий корректнее называть этот параметр частотой основного тона.
Частота основного тона имеет непосредственное отношение к тому, что мы называем интонацией. А интонация, например, связана с эмоционально-экспрессивными характеристиками голоса.
Тем не менее, определение частоты основного тона является не совсем тривиальной задачей с интересными нюансами. В этой статье мы обсудим особенности алгоритмов для ее определения и сравним существующие решения на примерах конкретных аудиозаписей.
Введение
Для начала вспомним, чем, по сути, является частота основного тона и в каких задачах она может понадобиться. Частота основного тона, которую еще обозначают как ЧОТ, Fundamental Frequency или F0 – это частота колебания голосовых связок при произнесении тоновых звуков (voiced). При произнесении нетоновых звуков (unvoiced), например говорении шепотом или произнесении шипящих и свистящих звуков, связки не колеблются, а значит эта характеристика для них не релевантна.
* Обратите внимание, что деление на тоновые и не тоновые звуки не эквивалентно делению на гласные и согласные.
Вариабельность частоты основного тона довольно велика, причем она может сильно отличаться не только между людьми (для более низких в среднем мужских голосов частота составляет 70-200 Гц, а для женских может достигать 400 Гц), но и для одного человека, особенно в эмоциональной речи.
Определение частоты основного тона применяется для решения широкого спектра задач:
Кстати, помните историю про Laurel и Yanny? Различия в том, какие слова слышат люди при прослушивании одной и той же аудиозаписи, возникли как раз из-за разницы в восприятии F0, на которую влияют много факторов: возраст слушающего, степень усталости, устройство воспроизведения. Так, при прослушивании записи в колонках с качественным воспроизведением низких частот, вы будете слышать Laurel, а в аудиосистемах, где низкие частоты воспроизводятся плохо, Yanny. Эффект перехода можно заметить и на одном устройстве, например здесь. А в этой статье в качестве слушателя выступает нейросеть. В другой статье можно почитать, как объясняется феномен Yanny/Laurel с позиций речеобразования.
Поскольку подробный разбор всех методов определения F0 был бы чересчур объемным, статья носит обзорный характер и может помочь сориентироваться в теме.
Методы определения F0
Методы определения F0 можно разделить на три категории: основанные на временной динамике сигнала, или time-domain; основанные на частотной структуре, или frequency-domain, а также комбинированные методы. Предлагаем ознакомиться с обзорной статьей по теме, где подробно разбираются обозначенные методы выделения F0.
Отметим, что любой из обсуждаемых алгоритмов состоит из 3 основных шагов:
Препроцессинг (фильтрация сигнала, разделение его на фреймы)
Поиск возможных значений F0 (кандидатов)
Трекинг — выбор наиболее вероятной траектории F0 (поскольку для каждого момента времени мы имеем несколько конкурирующих кандидатов, нам необходимо найти среди них наиболее вероятный трек)
Очертим несколько общих моментов. Перед применением методов time-domain сигнал предварительно фильтруют, оставляя только низкие частоты. Задаются пороги – минимальная и максимальная частоты, например от 75 до 500 Гц. Определение F0 производится только для участков с гармонической речью, поскольку для пауз или шумовых звуков это не только бессмысленно, но и может внести ошибки в соседние фреймы при применении интерполяции и/или сглаживании. Длину фрейма выбирают так, чтобы в ней содержалось как минимум три периода.
Основной метод, на базе которого впоследствии появилось целое семейство алгоритмов – автокорреляционный. Подход достаточно прост — необходимо рассчитать автокорреляционную функцию и взять ее первый максимум. Он и будет отображать самую выраженную частотную компоненту в сигнале. В чем может быть сложность в случае использования автокорреляции и почему далеко не всегда первый максимум будет соответствовать нужной частоте? Даже в близких к идеальным условиям на записях высокого качества метод может ошибаться из-за сложной структуры сигнала. В условиях близких к реальным, где помимо прочего мы можем столкнуться с исчезновением нужного пика на шумных записях или записях изначально низкого качества, число ошибок резко возрастает.
Несмотря на ошибки, автокорреляционный метод довольно удобен и привлекателен своей базовой простотой и логичностью, поэтому именно он взят за основу во многих алгоритмах, в том числе в YIN (Инь). Даже само название алгоритма отсылает нас к балансу между удобством и неточностью метода автокорреляции: “The name YIN from ‘‘yin’’ and ‘‘yang’’ of oriental philosophy alludes to the interplay between autocorrelation and cancellation that it involves.” [4]
Создатели YIN попытались исправить слабые места автокорреляционного подхода. Первое изменение – использование функции Cumulative Mean Normalized Difference, которая должна снизить чувствительность к амплитудным модуляциям, сделать пики более явными:
\begin
d’_t(\tau)=
\begin
1, & \tau=0 \\
d_t(\tau) \bigg/ \bigg[ \frac<1> <\tau>\sum\limits_
\end
\end
Также YIN пытается избежать ошибок, возникающих в случаях, когда длина оконной функции не делится нацело на период колебания. Для этого используется параболическая интерполяция минимума. На последнем шаге обработки аудиосигнала выполняется функция Best Local Estimate для предотвращения резких скачков значений (хорошо это или плохо – вопрос спорный).
Если говорить о частотной области, то на первый план выходит гармоническая структура сигнала, то есть наличие спектральных пиков на частотах, кратных F0. “Свернуть” этот периодический паттерн в явный пик можно при помощи кепстрального анализа. Кепстр — преобразование Фурье от логарифма спектра мощности; кепстральный пик соответствует наиболее периодической компоненте спектра (про него можно почитать здесь и здесь).
Гибридные методы определения F0
Следующий алгоритм, на котором стоит остановиться поподробнее, имеет говорящее название YAAPT — Yet Another Algorithm of Pitch Tracking — и фактически является гибридным, потому что использует как частотную, так и временную информацию. Полное описание есть в статье, здесь мы опишем только основные этапы.
Рисунок 1. Схема алгоритма YAAPTalgo (ссылка).
YAAPT состоит из нескольких основных этапов, первым из которых является препроцессинг. На этом этапе значения изначального сигнала возводят в квадрат, получают вторую версию сигнала. Этот шаг преследует ту же цель, что и Cumulative Mean Normalized Difference Function в YIN – усиление и восстановление “затертых” пиков автокорреляции. Обе версии сигнала фильтруют — обычно берут диапазон 50-1500 Гц, иногда 50-900 Гц.
Затем по спектру преобразованного сигнала рассчитывается базовая траектория F0. Кандидаты на F0 определяются с помощью функции Spectral Harmonics Correlation (SHC).
\begin
SHC(t,f) = \sum\limits_
\end
где S(t,f) — магнитудный спектр для фрейма t и частоты f, WL — длина окна в Гц, NH — число гармоник (авторы рекомендуют использовать первые три гармоники). Также по спектральной мощности происходит определение фреймов voiced-unvoiced, после чего ищется наиболее оптимальная траектория, при этом учитывается возможность pitch doubling/pitch halving [3, Section II, C].
Далее, как для изначального сигнала, так и для преобразованного производится определение кандидатов на F0, и вместо автокорреляционной функции здесь используется Normalized Cross Correlation (NCCF).
\begin
NCCF(m) = \frac<\sum\limits_
Подробное описание алгоритма можно найти в статье 1993 года.
Как выглядит результат работы трекера (path-finder) можно посмотреть, нажав ОК и затем просмотрев (View & Edit) получившийся файл Pitch. Видно, что помимо выбранной траектории были еще довольно значимые кандидаты с частотой ниже.
Рисунок 3. PitchPath для первых 1,3 секунд аудиозаписи.
Возьмем две библиотеки, предлагающих питч-трекинг – aubio, в которой алгоритмом по умолчанию является YIN, и библиотеку AMFM_decompsition, в которой есть реализация алгоритма YAAPT. В отдельный файл (файл PraatPitch.txt) вставим значения F0 из Praat (это можно сделать вручную: выбрать звуковой файл, нажать View & Edit, выделить весь файл и выбрать в верхнем меню Pitch-Pitch listing).
Теперь сравним результаты по всем трем алгоритмам (YIN, YAAPT, Praat).
Рисунок 4. Сравнение работы алгоритмов YIN, YAAPT и Praat.
Мы видим, что при заданных по умолчанию параметрах YIN довольно сильно выбивается, получая очень плоскую траекторию с заниженными относительно Praat значениями и полностью теряя переходы между мужским и женским голосом, а также между эмоциональной и не эмоциональной речью.
YAAPT зарезал совсем высокий тон при эмоциональной женской речи, но в целом справился явно лучше. За счет каких своих особенностей YAAPT работает лучше — сразу ответить точно, конечно, нельзя, но можно предположить, что роль играет получение кандидатов из трех источников и более скрупулезный расчет их веса, чем в YIN.
Поскольку вопрос определения частоты основного тона (F0) в том или ином виде встает почти перед каждым, кто работает со звуком, путей для его решения достаточно много. Вопрос необходимой точности и особенности аудиоматериала в каждом конкретном случае определяют, насколько внимательно необходимо подбирать параметры, или в ином случае можно ограничиться базовым решения наподобие YAAPT. Принимая Praat за эталон алгоритма для обработки речи (все же им пользуется огромное количество исследователей), можно сделать вывод о том, что YAAPT в первом приближении надежнее и точнее, чем YIN, хотя и для него наш пример оказался сложноват.
Автор: Ева Казимирова, научный сотрудник Neurodata Lab, специалист по обработке речи.