EA201890557A1 20180831 Номер и дата охранного документа [PDF] EAPO2018\PDF/201890557 Полный текст описания [**] EA201890557 20160823 Регистрационный номер и дата заявки US62/209,742 20150825 Регистрационные номера и даты приоритетных заявок US2016/048233 Номер международной заявки (PCT) WO2017/035163 20170302 Номер публикации международной заявки (PCT) EAA1 Код вида документа [PDF] eaa21808 Номер бюллетеня [**] АУДИОДЕКОДЕР И СПОСОБ ДЕКОДИРОВАНИЯ Название документа [8] H04S 7/00 Индексы МПК [AU] Бребарт Дирк Ерун, [AU] Купер Дэвид Мэттью, [SE] Самуэльссон Лейф Йонас Сведения об авторах [US] ДОЛБИ ЛЭБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШН, [NL] ДОЛБИ ИНТЕРНЭШНЛ АБ Сведения о заявителях
 

Патентная документация ЕАПВ

 
Запрос:  ea201890557a*\id

больше ...

Термины запроса в документе

Реферат

[RU]

Способ представления второго представления аудиоканалов или объектов как потока данных, причем способ содержит следующие этапы: (а) обеспечение множества базовых сигналов, базовые сигналы представляют первое представление аудиоканалов или объектов; (b) обеспечение множества параметров преобразования, параметры преобразования предназначены для преобразования первого представления во второе представление; параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.


Полный текст патента

(57) Реферат / Формула:

Способ представления второго представления аудиоканалов или объектов как потока данных, причем способ содержит следующие этапы: (а) обеспечение множества базовых сигналов, базовые сигналы представляют первое представление аудиоканалов или объектов; (b) обеспечение множества параметров преобразования, параметры преобразования предназначены для преобразования первого представления во второе представление; параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.


Евразийское (21) 201890557 (13) A1
патентное
ведомство
(12) ОПИСАНИЕ ИЗОБРЕТЕНИЯ К ЕВРАЗИЙСКОЙ ЗАЯВКЕ
(43) Дата публикации заявки 2018.08.31
(22) Дата подачи заявки 2016.08.23
(51) Int. Cl. H04S 7/00 (2006.01)
(54) АУДИОДЕКОДЕР И СПОСОБ ДЕКОДИРОВАНИЯ
(31) 62/209,742; 15189008.4
(32) 2015.08.25; 2015.10.08
(33) US; EP
(86) PCT/US2016/048233
(87) WO 2017/035163 2017.03.02
(71) Заявитель:
ДОЛБИ ЛЭБОРЕТЕРИЗ ЛАЙСЕНСИНГ КОРПОРЕЙШН (US); ДОЛБИ ИНТЕРНЭШНЛ АБ (NL)
(72) Изобретатель:
Бребарт Дирк Ерун, Купер Дэвид Мэттью (AU), Самуэльссон Лейф Йонас (SE)
(74) Представитель:
Медведев В.Н. (RU)
(57) Способ представления второго представления аудиоканалов или объектов как потока данных, причем способ содержит следующие этапы: (а) обеспечение множества базовых сигналов, базовые сигналы представляют первое представление аудиоканалов или объектов; (b) обеспечение множества параметров преобразования, параметры преобразования предназначены для преобразования первого представления во второе представление; параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.
ОПИСАНИЕ ИЗОБРЕТЕНИЯ
2420-549093ЕА/018
АУДИОДЕКОДЕР И СПОСОБ ДЕКОДИРОВАНИЯ
ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННУЮ ЗАЯВКУ
[0001] Настоящая заявка испрашивает приоритет согласно предварительной заявке на патент США № 62/209,742, поданной 25 августа 2015 года, и заявке на европейский патент № 15189008.4, поданной 8 октября 2015 года, содержание каждой из которых полностью включено в настоящую заявку посредством ссылки. ОБЛАСТЬ ТЕХНИКИ
[0002] Настоящее изобретение относится к области обработки сигналов и, в частности, раскрывает систему для эффективной передачи аудиосигналов, имеющих компоненты для ориентации в пространстве.
УРОВЕНЬ ТЕХНИКИ
[0003] Любое обсуждение уровня техники по тексту описания никоим образом не должно рассматриваться как признание того, что такая области техники широко известна или является частью общедоступных сведений в предметной области.
[0004] Создание контента, кодирование, распространение и воспроизведение аудиоинформации традиционно выполняется в формате на основе каналов, то есть, одна конкретная целевая система воспроизведения предусматривается для контента в экосистеме контента. Примерами таких целевых форматов аудио систем воспроизведения являются моно, стерео, 5.1, 7.1 и т.п.
[0005] Если контент должен быть воспроизведен на другой системе воспроизведения, отличающейся от намеченной, может быть применен процесс понижающего микширования или повышающего микширования. Например, контент в формате 5.1 может быть воспроизведен на системе воспроизведения стерео с использованием заданных уравнений понижающего микширования. Другим примером является воспроизведение контента, закодированного в формате стерео, на конфигурации динамиков 7.1, которое может содержать процесс так называемого повышающего микширования, которым может управлять или не управлять информация, присутствующая в стереосигнале. Системой, способной к повышающему микшированию,
является система Dolby Pro Logic от Dolby Laboratories Inc (Roger Dressier, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com).
[0006] Когда контент в формате стерео или в многоканальном формате должен быть воспроизведен в наушниках, часто желательно смоделировать многоканальную конфигурацию динамиков посредством импульсных характеристик слухового аппарата (HRIR) или бинауральных импульсных характеристик комнаты (BRIR), которые моделируют путь прохождения звука от каждого динамика до барабанных перепонок в (смоделированной) окружающей среде без эха и с эхом, соответственно. В частности, аудиосигналы могут быть подвергнуты свертке с помощью характеристик HRIR или BRIR, чтобы восстановить разности уровней между ушами (ILD), разности времени между ушами (ITD) и спектральные признаки, которые позволяют слушателю определять местоположение каждого индивидуального канала. Моделирование акустической окружающей среды (реверберация) также помогает достигнуть некоторого восприятия расстояния.
[0007] Локализация источника звука и моделирование виртуального динамика
[0008] Когда контент в формате стерео, в многоканальном формате или в формате на основе объектов должно быть воспроизведено в наушниках, часто желательно смоделировать многоканальную конфигурацию динамиков или множество отдельных виртуальных акустических объектов посредством свертки с помощью импульсных характеристик слухового аппарата (HRIR) или бинауральных импульсных характеристик комнаты (BRIR), которые моделируют путь прохождения звука от каждого динамика до барабанных перепонок в (смоделированной) окружающей среде без эха и с эхом, соответственно.
[0009] В частности, аудиосигналы подвергаются свертке с помощью характеристик HRIR или BRIR, чтобы восстановить разности уровней между ужами (ILD), разности времени между ушами (ITD) и спектральные признаки, которые позволяют слушателю определять местоположение каждого индивидуального канала или объекта.
Моделирование акустической окружающей среды (ранние отражения и поздняя реверберация) помогает достигнуть некоторого восприятия расстояния.
[0010] Обратимся к фиг. 1, на которой проиллюстрирован схематический обзор 10 потока обработки для рендеризации двух
объектов или канальных сигналов 1 13, 11, считываемых из хранилища 12 контента для обработки, например, посредством четырех характеристик 14 HRIR. Выходные данные характеристик HRIR затем суммируются 15, 16 для каждого канального сигнала, чтобы произвести выходные данные динамиков наушников для воспроизведения слушателю через наушники 18. Основной принцип характеристик HRIR, например, разъяснен в литературе Wightman et al (1989).
[ООН] Подход со сверткой с помощью характеристик HRIR/BRIR сопровождается несколькими недостатками, одним из которых является значительное количество обработки, которая требуется для воспроизведения с помощью наушников. Свертка с помощью характеристики HRIR или BRIR должна быть применена для каждого входного объекта или канала отдельно, и поэтому сложность, как правило, растет линейно в зависимости от количества каналов или объектов. Поскольку наушники, как правило, используются вместе с работающими от аккумулятора портативными устройствами, высокая вычислительная сложность не желательна, поскольку она в значительной степени сокращает время работы от батареи. Кроме того, с введением аудио-контента на основе объектов, который может содержать более чем 100 активных объектов одновременно, сложность свертки с помощью характеристики HRIR может быть в значительной степени выше, чем для традиционного контента на основе каналов.
[0012] Методика параметрического кодирования
[0013] Вычислительная сложность не является единственной проблемой для доставки контента на основе каналов или объектов в экосистеме, включающей в себя создание, распределение и воспроизведение контента. Во многих ситуациях на практике, и особенно для мобильных приложений, сильно ограничена скорость
передачи данных, доступная для доставки контента. Потребители, телевизионные компании и поставщики контента доставляли аудио-контент в формате стерео (с двумя каналами) с использованием перцепционных аудиокодеков с потерями с типичными битрейтами между 4 8 и 192 кбит/с. Эти традиционные основанные на каналах аудиокодеки, такие как уровень MPEG-1 layer 3 (Brandenberg et al., 1994), MPEG AAC (Bosi et al., 1997) и Dolby Digital (Andersen et al., 2004) имеют битрейт, который масштабируется приблизительно линейно в зависимости от количества каналов. В результате доставка десятков или даже сотен объектов приводят к битрейтам, которые затруднительны или даже недоступны для целей доставки потребителю.
[0014] Чтобы сделать возможной доставку сложного контента на основе объектов при битрейтах, которые сопоставимы с битрейтом, требуемым для доставки контента в формате стерео, с использованием традиционных перцепционных аудиокодеков, за прошлое десятилетие подверглись научным исследованиям так называемые параметрические методы. Эти параметрические методы дают возможность воссоздания большого количества каналов или объектов из относительно низкого количества базовых сигналов. Эти базовые сигналы могут быть перенесены от отправителя к получателю с использованием традиционных аудиокодеков с дополнительной (параметрической) информацией, чтобы сделать возможным воссоздание исходных объектов или каналов. Примерами таких методик являются Parametric Stereo (Schuijers et al., 2004), MPEG Surround (Herre et al. , 2008) и MPEG Spatial Audio Object Coding (Herre et al., 2012) .
[0015] Важным аспектом таких методик, как Parametric Stereo и MPEG Surround, является то, что эти методы нацелены на параметрическое воссоздание единственного, предварительно заданного представления (например, динамики стерео в Parametric Stereo и динамики 5.1 в MPEG Surround) . В случае MPEG Surround виртуализатор наушников может быть интегрирован в декодер, который генерирует конфигурацию виртуальных динамиков 5.1 для наушников, в которых виртуальные динамики 5.1 соответствуют конфигурации динамиков 5.1 для воспроизведения с помощью
динамиков. Следовательно, эти представления весьма зависимы в том, что представление для наушников представляет ту же самую
(виртуальную) схему размещения динамиков, что и представление для динамиков. MPEG Spatial Audio Object Coding
(пространственное кодирование аудиообъектов MPEG), с другой стороны, нацелено на воссоздание объектов, которые требуют последующей рендеризации.
[0016] Обратимся теперь к фиг. 2, на которой будет обзорно описана параметрическая система 20, поддерживающая каналы и объекты. Система разделена на кодер 21 и декодер 22. Кодер 21 принимает каналы и объекты 2 3 в качестве входных данных и генерирует звукозапись 2 4 с понижающим микшированием с ограниченным количеством базовых сигналов. Кроме того, вычисляется последовательность параметров 25 воссоздания объектов/каналов. Кодер 2 6 сигналов кодирует базовые сигналы из блока 2 4 понижающего микширования и включает в итоговый битовый поток вычисленные параметры 25, а также метаданные 2 7 объектов, указывающие, каким образом объекты должны быть рендеризированы.
[0017] Декодер 22 сначала декодирует 29 базовые сигналы, затем выполняется воссоздание 30 каналов и/или объектов с помощью переданных параметров 31 воссоздания. Полученные в результате сигналы могут быть воспроизведены непосредственно
(если это каналы) или могут быть рендеризированы 32 (если это объекты). В последнем случае каждый воссозданный сигнал объекта рендеризируется в соответствии со своими привязанными метаданными 33 объекта. Одним примером таких метаданных является вектор позиции (например, координаты х, у и z объекта в трехмерной системе координат).
[0018] Матрицирование декодера
[0019] Воссоздание 3 0 объектов и/или каналов может быть достигнуто посредством переменных по времени и частоте матричных операций. Если декодированные базовые сигналы 35 обозначены как
SL J, где s - индекс базового сигнала, и п - индекс отсчета, первый этап, как правило, содержит преобразование базовых сигналов посредством преобразования или набора фильтров.
[0020] Могут быть использованы самые различные преобразования и наборы фильтров, такие как дискретное преобразование Фурье (DFT), модифицированное дискретное косинусное преобразование (MDCT) или набор квадратурных зеркальных фильтров (QMF). Выходные данные такого преобразования
или набора фильтров обозначены как Zs[k,b]^ где ^ _ индекс
подполосы или спектральный индекс, и к - индекс кадра, слота или
времени или отсчета подполосы.
[0021] В большинстве случаев индексы подполос или
спектральные индексы отображаются на меньшее множество
параметрических полос р, которые имеют общие параметры
воссоздания объектов/каналов. Это может быть обозначено как
b ? В(Р) _ Другими словами, В(Р) представляет множество последовательных подполос Ь, которые принадлежат параметрической
полосе с индексом р. С другой стороны, относится к
параметрической полосе с индексом р, на которую была отображена
подполоса Ь. Подполосы или воссозданные каналы или объекты J в области преобразования затем получаются посредством
Z, М[Р(Ь)1
матрицирования сигналов 1 с помощью матриц mL^v Ji:
Yi[k,b] Yj[k,b]
= M[p(b)]
Z^k.b] Zs[k,b]
[0022] Сигналы УДп-1 воссозданных каналов и/или объектов во временной области затем получаются посредством обратного преобразования или набора фильтров для синтеза.
[0023] Приведенный выше процесс, как правило, применяется к некоторому ограниченному диапазону отсчетов, слотов или кадров к
подполосы. Другими словами, матрицы M[p(b)]^ Как правило, обновляются/модифицируются со временем. Для простоты обозначения эти обновления здесь не обозначены. Однако считается, что
обработка множества отсчетов к, связанного с матрицей М[р(Ь)]^ может являться переменным по времени процессом.
[0024] В некоторых случаях, в которых количество
воссозданных сигналов J значительно больше, чем количество базовых сигналов S, часто полезно использовать выходные данные Dm[k,b] ,
mL J факультативного декоррелятора, воздействующие на один или более базовых сигналов, которые могут быть включены в воссозданные выходные сигналы:
YJk.b] Yj[k,b] = M[p(b)]
Z^k.b]
Zs[k,b] DJkb]
DM[k,b]
[0025] Фиг. 3 более подробно схематично иллюстрирует одну форму блока 30 воссоздания каналов или объектов, показанного на фиг. 2. Входные сигналы 35 сначала обрабатываются наборами 41 фильтров для, затем выполняется факультативная декорреляция (D1, D2) 44 и матрицирование 42, и применяется набор 43 фильтров для
синтеза. Матричной манипуляцией М[р(Ь)] управляют параметры 31 воссоздания.
[0026] Предсказание с минимальной среднеквадратической ошибкой (MMSE) для воссоздания объекта/канала
[0027] Хотя существуют разные стратегии и способы для воссоздания объектов или каналов из множества базовых сигналов Zs[k,bl
SL J, один конкретный способ часто упоминается как прогноз с минимальной среднеквадратической ошибкой (MMSE), который использует корреляционные и ковариационные матрицы для вывода
матричных коэффициентов ^, которые минимизируют норму L2 между желаемым и воссозданным сигналами. Для этого способа
предполагается, что базовые сигналы zsl-n-l генерируются в блоке 24 понижающего микширования кодера как линейная комбинация сигналов
11 J входных объектов или каналов:
zs[n] = ^ад[п]
[0028] Для входного контента на основе каналов коэффициенты ^> is усиления амплитудного панорамирования обычно являются
постоянными, в то время как для контента на основе объектов, в
котором намеченная позиция объекта обеспечивается посредством
переменных по времени метаданных объектов, коэффициенты усиления, следовательно, могут быть переменными по времени. Это уравнение также может быть сформулировано в области преобразования или подполос, и в этом случае множество
коэффициентов Si,sM усиления используется для каждого элемента разрешения по частоте/полосы к, и, таким образом, коэффициенты
bls усиления могут быть сделаны переменными по частоте:
zs[k,b] = ^[ВД^Ь]
[0029] Матрица 42 декодера, игнорируя на данный момент декорреляторы, производит:
т _
Yj[k,b]
Zs[k,b]
М[Р(Ь)]
или в матричной формулировке, опуская индекс b подполосы b и индекс р параметрической полосы для ясности:
Y = ZM
Z = XG
[0030] Критерием вычисления матричных коэффициентов ^
кодером является минимизация среднеквадратической ошибки Е, которая представляет квадратическую ошибку между выходными
данными ^) декодера и первоначальными входными объектами/каналами
E = Hft[k,b]-Xj[k,b])2
j,k,b
, заданы в матричном представлении как:
lr,*
[0031] Тогда матричные коэффициенты, которые минимизируют ^ аны в матричном ]
М = (Z * Z + el)" Н * X
где эпсилон - константа регуляризации, и (*) - оператор
комплексно-сопряженного транспонирования. Эта операция может
быть выполнена для каждой параметрической полосы р независимо,
получая матрицу М[р(Ь)]^
[0032] Предсказание с минимальной среднеквадратической ошибкой (MMSE) для преобразования представления
[0033] Помимо воссоздания объектов и/или каналов параметрические методики могут использоваться для преобразования одного представления в другое представление. Примером такого преобразования представления является преобразование звукозаписи в формате стерео, предназначенной для воспроизведения с помощью динамиков, в бинауральное представление для наушников, или наоборот.
[0034] Фиг. 4 иллюстрирует поток управления для способа 50 для одного такого преобразования представления. Аудиоданные объектов или каналов сначала обрабатываются в кодере 52 посредством набора 54 гибридных квадратурных зеркальных фильтров для анализа. Матрица G рендеризации динамиков вычисляется и
применяется 55 к сигналам • объектов, сохраненным в запоминающем носителе 51, на основе метаданных объектов с использованием методики амплитудного панорамирования, чтобы получить в
результате представление s для динамиков в формате стерео. Это представление для динамиков может быть закодировано с помощью аудиокодера 57.
[0035] Кроме того, бинауральная матрица Н рендеризации генерируется и применяется 58 с использованием базы 59 данных передаточных функций слухового аппарата (HRTF). Эта матрица Н
используется для вычисления бинауральных сигналов ^i, которые позволяют воссоздать бинауральную звукозапись с использованием стереофонической звукозаписи для динамиков в качестве входных данных. Матричные коэффициенты М кодируются аудиокодером 57.
[0036] Переданная информация передается от кодера 52 к декодеру 53, где она распаковывается 61 для включения
компонентов Ми s. Если в качестве системы воспроизведения
используются динамики, представление для динамиков
воспроизводится с использованием информации ^s каналов, и, следовательно, матричные коэффициенты М отбрасываются. С другой стороны, для воспроизведения с помощью наушников представление
для динамиков сначала преобразовывается 62 в бинауральное представление посредством применения переменной по времени и частоте матрицы М перед применением гибридных фильтров QMF для синтеза и воспроизведением 60.
[0037] Если желаемые бинауральные выходные данные из элемента 62 матрицирования записаны в матричном представлении как:
Y= ХН
тогда матричные коэффициенты М могут быть получены в кодере 52 как:
М = (G*X*XG + el)-1G*X*XH
[0038] В этом применении коэффициенты матрицы Н кодера, применяемой в блоке, обозначенном номером 58, обычно являются комплекснозначными, например, имеющими элемент модификации задержки или фазы, чтобы позволить восстановить разности времени между ушами, которые играют очень большую роль при восприятии для локализации источника звука в наушниках. Другими словами, бинауральная матрица Н рендеризации является комплексной, и, таким образом, матрица М преобразования является комплексной. Для прозрачного для восприятия восстановления признаков локализации источника звука было показано, что желательно частотное разрешение, которое имитирует частотное разрешение слуховой системы человека (Breebaart 2010).
[0039] В упомянутых выше разделах для определения матричных
коэффициентов М используется критерий минимальной
среднеквадратической ошибки. Без потери общности аналогичным образом могут использоваться другие известные критерии или способы вычисления матричных коэффициентов, чтобы заменить или дополнить принцип минимальной среднеквадратической ошибки. Например, матричные коэффициенты М могут быть вычислены с использованием остаточных членов более высокого порядка или посредством минимизации нормы L1 (например, критерий наименьших абсолютных отклонений). Кроме того, могут использоваться различные способы, в том числе методики неотрицательной факторизации или оптимизации, непараметрическая оценка, оценка
максимального правдоподобия и т.п. Кроме того, матричные
коэффициенты могут быть вычислены с использованием итерационных
процессов или процессов градиентного спуска, методов
интерполяции, эвристических методов, динамического
программирования, машинного обучения, нечеткой оптимизации, имитации отжига или решений в замкнутой форме, и может использоваться методика анализа посредством синтеза. Наконец, что не менее важно, на оценку матричных коэффициентов могут быть наложены ограничения различным образом, например, посредством ограничения диапазона значений, условий регуляризации, наложения требований сохранения энергии и т.п.
[0040] Требования преобразования и набора фильтров
[0041] В зависимости от применения и от того, должны ли быть воссозданы объекты или каналы, могут быть наложены определенные требования на частотное разрешение преобразования или набора фильтров для блока 41 набора фильтров на фиг. 3. В наиболее практическом применении частотное разрешение соответствует предполагаемому разрешению слуховой системы человека, чтобы дать наилучшее воспринимаемое качество звука для данного битрейта (определяемого несколькими параметрами) и сложности. Известно, что слуховая система человека может рассматриваться как набор фильтров с нелинейным частотным разрешением. Эти фильтры упоминаются как критические полосы (Zwicker, 1961), и они являются приблизительно логарифмическими по природы. На низких частотах критические полосы составляют менее 100 Гц по ширине, в то время как на высоких частотах критические полосы могут составлять более 1 кГц по ширине.
[0042] Это нелинейное поведение может создать проблемы, когда речь идет о конструкции набора фильтров. Преобразования и наборы фильтров могут быть очень эффективно реализованы с использованием симметрии в их структуре обработки при условии, что частотное разрешение является постоянным по частоте.
[0043] Это подразумевает, что длина преобразования или количество подполос будут определены критической шириной полосы на низких частотах, и отображение элементов разрешения DFT на так называемые параметрические полосы может использоваться для
имитации нелинейного частотного разрешения. Такой процесс отображения, например, разъяснен в литературе Breebaart et al.,
(2005) и Breebaart et al. (2010) . Один недостаток этого подхода состоит в том, что требуется очень длинное преобразование, чтобы удовлетворить ограничение низкочастотной критической ширины полосы, в то время как преобразование является относительно длинным (или неэффективным) на высоких частотах. Альтернативное решение для расширения частотного разрешения на низких частотах состоит в том, чтобы использовать структуру гибридного наборов фильтров. В такой структуре используется каскад из двух наборов фильтров, в котором второй набор фильтров расширяет разрешение первого, но только в нескольких самых нижних подполосах
(Schuijers и др., 2004).
[0044] Фиг. 5 иллюстрирует одну форму структуры 41 гибридного набора фильтров, подобного изложенному в литературе
Schuijers et al. Входной сигнал 2И сначала обрабатывается набором 71 комплекснозначных квадратурных зеркальных фильтров (CQMF) для анализа. Затем сигналы подвергаются дискретизации с понижением с коэффициентом Q, например, в блоке 72, и в результате получаются сигналы Z[k,b] подполос, где к - индекс отсчета подполосы, и b - индекс частоты подполосы. Кроме того, по меньшей мере один из полученных в результате сигналов подполосы обрабатывается вторым набором 74 фильтров (Найквиста), в то время как остальные сигналы подполос подвергаются задержке 75 для компенсации задержки, вносимой набором фильтров Найквиста. В этом конкретном примере каскад наборов фильтров дает в результате 8 подполос (Ь=1, 8)^ которые отображаются на б параметрических полос Р= (1> 6) с нелинейным частотным разрешением. Полосы 7 6 объединяются вместе, чтобы сформировать одну параметрическую полосу (р=б).
[0045] Преимуществом этого подхода является более низкая сложность по сравнению с использованием единственного набора фильтров с намного большим количеством (более узких) подполос. Однако недостаток состоит в том, что задержка всей системы значительно увеличивается, и, следовательно, использование
памяти также значительно больше, что вызывает увеличение
потребления энергии.
[0046] Ограничения предшествующего уровня техники
[0047] Возвращаясь к фиг. 4, предлагается на предшествующем
уровне техники использовать концепцию матрицирования 62,
возможно дополненную использованием декорреляторов, чтобы
воссоздавать каналы, объекты или сигналы представления из
множества базовых сигналов s. Это приводит к следующей матричной формулировке для описания предшествующего уровня техники в обобщенном виде:
.zjk.b],
Y,[k,b]
Zs[k,b] D^k.b]
DM[k,b] lM[p(b)]
[0048] Матричные коэффициенты ^ либо передаются
непосредственно от кодера к декодеру, либо выводятся из
параметров локализации источника звука, например, как описано в
литературе Breebaart et al 2005 для параметрического кодирования
стерео или Herre et al., (2008) для многоканального
декодирования. Кроме того, этот подход также может
использоваться для восстановления разности фаз между каналами
посредством использования комплекснозначных матричных
коэффициентов (см., например, Breebaart at al., 2010 и Breebaart, 2005).
[0049] Как проиллюстрировано на фиг. 6, на практике использование комплекснозначных матричных коэффициентов подразумевает, что желаемая задержка 8 0 представлена кусочным постоянным приближением 81 фазы. В предположении, что желаемая характеристика фазы представляет собой чистую задержку 8 0 с линейно уменьшающейся фазой с ростом частоты (пунктирная линия), операция комплекснозначного матрицирования предшествующего уровня техники приводит в результате к кусочному постоянному приближению 81 (сплошная линия). Приближение может быть улучшено
посредством увеличения разрешения матрицы ^. Однако это имеет два важных недостатка. Требуется увеличение разрешения набора фильтров, что приводит к увеличению использования памяти, более высокой вычислительной сложности, более длительному время ожидания и, таким образом, большему потреблению энергии. Также требуется отправка большего количества параметров, что приводит к более высокому битрейту.
[0050] Все эти недостатки являются преимущественно проблематичными для мобильных устройств и устройств с батарейным питанием. Было бы выгодно иметь более оптимальное доступное решение.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0051] Задача изобретения в его предпочтительной форме состоит в том, чтобы обеспечить улучшенную форму кодирования и декодирования аудиосигналов для воспроизведения в разных представлениях.
[0052] В соответствии с первым аспектом настоящего изобретения предложен способ представления второго представления аудиоканалов или объектов как потока данных, причем способ содержит следующие этапы: (а) обеспечение множества базовых сигналов, базовые сигналы представляют первое представление аудиоканалов или объектов; (Ь) обеспечение множества параметров преобразования, параметры преобразования предназначены для преобразования первого представления во второе представление; параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.
[0053] Множество коэффициентов фильтра может представлять фильтр с конечной импульсной характеристикой (КИХ; FIR) . Множество базовых сигналов предпочтительно разделяется на последовательность временных сегментов, и множество параметров преобразования может быть обеспечено для каждого временного сегмента. Коэффициенты фильтра могут включать в себя по меньшей мере один коэффициент, который может являться комплекснозначным.
Первое или второе представление могут быть предназначены для воспроизведения с помощью наушников.
[0054] В некоторых вариантах осуществления параметры преобразования, соответствующие более высоким частотам, не модифицируют фазу сигнала, в то время как для более низких частот параметры преобразования модифицируют фазу сигнала. Множество коэффициентов фильтра может быть предпочтительно выполнено с возможностью обработки матрицы свертки с несколькими отводами. Множество коэффициентов фильтра может быть предпочтительно использовано для обработки низкочастотной полосы.
[0055] Множество базовых сигналов и множество параметров преобразования предпочтительно объединяются для формирования потока данных. Параметры преобразования могут включать в себя матричные коэффициенты высокочастотных аудиоданных для матричной манипуляции высокочастотной части множества базовых сигналов. В некоторых вариантах осуществления для среднечастотной части высокочастотной части множества базовых сигналов матричная манипуляция предпочтительно может включать в себя комплекснозначные параметры преобразования.
[0056] В соответствии с дополнительным аспектом настоящего
изобретения предложен декодер для декодирования закодированного
аудиосигнала, закодированный аудиосигнал включает в себя: первое
представление, включающее в себя множество базовых
аудиосигналов, предназначенных для воспроизведения аудиоданных в
первом формате представления аудиоданных; и множество параметров
преобразования для преобразования базовых аудиосигналов в первом
формате представления во второй формат представления, причем
параметры преобразования включают в себя, по меньшей мере,
высокочастотные параметры преобразования аудиоданных и
низкочастотные параметры преобразования аудиоданных,
низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, при этом декодер включает в себя: первый блок разделения для разделения множества базовых аудиосигналов и множества параметров преобразования, блок матричного умножения для применения
параметров матрицы свертки с несколькими отводами к низкочастотным компонентам базовых аудиосигналов; для применения свертки к низкочастотным компонентам, производя свернутые низкочастотные компоненты; и блок скалярного умножения для применения высокочастотных параметров преобразования аудиоданных к высокочастотным компонентам базовых аудиосигналов, чтобы произвести скалярные высокочастотные компоненты; выходной набор фильтров для объединения свернутых низкочастотных компонентов и скалярных высокочастотных компонентов, чтобы произвести выходной сигнал во временной области во втором формате представления.
[0057] Блок матричного умножения может модифицировать фазу
низкочастотных компонентов базовых аудиосигналов. В некоторых
вариантах осуществления параметры преобразования матрицы свертки
с несколькими отводами предпочтительно являются
комплекснозначными. Высокочастотные параметры преобразования аудиоданных также предпочтительно являются комплекснозначными. Множество параметров преобразования дополнительно может содержать действительнозначные параметры преобразования аудиоданных более высокой частоты. В некоторых вариантах осуществления декодер может дополнительно включать в себя фильтры для разделения базовых аудиосигналов на низкочастотные компоненты и высокочастотные компоненты.
[0058] В соответствии с дополнительным аспектом настоящего
изобретения, предложен способ декодирования закодированного
аудиосигнала, причем закодированный аудиосигнал включает в себя:
первое представление, включающее в себя множество базовых
аудиосигналов, предназначенных для воспроизведения аудиоданных в
первом формате представления аудиоданных; и множество параметров
преобразования для преобразования базовых аудиосигналов в первом
формате представления во второй формат представления, причем
параметры преобразования включают в себя по меньшей мере
высокочастотные параметры преобразования аудиоданных и
низкочастотные параметры преобразования аудиоданных,
низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, при этом способ включает в себя следующие этапы: свертка низкочастотных
компонентов базовых аудиосигналов с помощью низкочастотных
параметров преобразования, чтобы произвести свернутые
низкочастотные компоненты; умножение высокочастотных компонентов
базовых аудиосигналов на высокочастотные параметры
преобразования, чтобы произвести умноженные высокочастотные компоненты; объединение свернутых низкочастотных компонентов и умноженных высокочастотных компонентов, чтобы произвести частотные компоненты выходного аудиосигнала для воспроизведения во втором формате представления.
[0059] В некоторых вариантах осуществления закодированный сигнал может содержать несколько временных сегментов, способ дополнительно предпочтительно может включать в себя следующие этапы: интерполяция параметров преобразования нескольких временных сегментов закодированного сигнала, чтобы произвести интерполированные параметры преобразования, включающие в себя интерполированные низкочастотные параметры преобразования аудиоданных; и свертка нескольких временных сегментов низкочастотных компонентов базовых аудиосигналов с помощью интерполированных низкочастотных параметров преобразования аудиоданных, чтобы произвести несколько временных сегментов свернутых низкочастотных компонентов.
[0060] Множество параметров преобразования закодированного аудиосигнала может являться предпочтительно переменным по времени, и способ дополнительно предпочтительно может включать в себя следующие этапы: свертка низкочастотных компонентов с помощью низкочастотных параметров преобразования для нескольких временных сегментов, чтобы произвести несколько множеств промежуточных свернутых низкочастотных компонентов; интерполяция нескольких множеств промежуточных свернутых низкочастотных компонентов, чтобы произвести свернутые низкочастотные компоненты.
[0061] Интерполяция может использовать метод наложения и суммирования нескольких множеств промежуточных свернутых низкочастотных компонентов.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[00 62] Теперь будут описаны варианты осуществления
изобретения лишь в качестве примера со ссылкой на прилагаемые чертежи.
[0063] Фиг. 1 иллюстрирует схематический обзор процесса свертки HRIR для двух объектов источников, каждый канал или объект обрабатывается парой характеристик HRIR/BRIR;
[00 64] Фиг. 2 схематично иллюстрирует обобщенную параметрическую систему кодирования, поддерживающую каналы и объекты;
[00 65] Фиг. 3 схематично более подробно иллюстрирует одну форму блока 30 воссоздания каналов или объектов, показанного на фиг. 2;
[00 66] Фиг. 4 иллюстрирует поток данных способа преобразования представления для динамиков в формате стерео в бинауральное представление наушников;
[00 67] Фиг. 5 схематично иллюстрирует структуру гибридного набора фильтров для анализа в соответствии с предшествующим уровнем техники;
[00 68] Фиг. 6 иллюстрирует сравнение желаемой (пунктирная линия) и фактической (сплошная линия) характеристик фазы, полученных на предшествующем уровне техники;
[00 69] Фиг. 7 схематично демонстрирует иллюстративную систему набора фильтров и отображения параметров кодера в соответствии с вариантом осуществления изобретения;
[0070] Фиг. 8 схематично иллюстрирует набор фильтров и отображение параметров декодера в соответствии с вариантом осуществления; и
[0071] Фиг. 9 иллюстрирует кодер для преобразования представления в формате стерео в бинауральное представление.
[0 072] Фиг. 10 схематично иллюстрирует декодер для преобразования представления в формате стерео в бинауральное представление.
СПИСОК ЛИТЕРАТУРЫ
[0073] Wightman, F. L. , and Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.
[0074] Schuijers, Erik, et al. (2004) . "Low complexity parametric stereo coding." Audio Engineering Society Convention 116. Audio Engineering Society.
[0075] Herre, J., Kjorling, K., Breebaart, J., Faller, C, Disch, S., Purnhagen, H.,... & Chong, K. S. (2008). MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding. Journal of the Audio Engineering Society, 56(11), 932-955.
[0076] Herre, J., Purnhagen, H., Koppens, J., Hellmuth, 0., Engdegard, J., Hilpert, J., & Oh, H. 0. (2012). MPEG Spatial Audio Object Coding-the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 60(9), 655-673.
[0077] Brandenburg, K., & Stoll, G. (1994). ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio. Journal of the Audio Engineering Society, 42(10), 780792 .
[0078] Bosi, M., Brandenburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H., & Dietz, M. (1997). ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 45(10), 789-814.
[0079] Andersen, R. L., Crockett, B. G., Davidson, G. A., Davis, M. F., Fielder, L. D., Turner, S. C.,... & Williams, P. A. (2004, October). Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. In Audio Engineering Society Convention 117. Audio Engineering Society.
[0080] Zwicker, E. (1961) . Subdivision of the audible frequency range into critical bands (Frequenzgruppen). The Journal of the Acoustical Society of America, (33 (2)), 248.
[0081] Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322.
[0082] Breebaart, J., Nater, F., & Kohlrausch, A. (2010). Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. Journal of the
Audio Engineering Society, 58(3), 126-140.
[0083] Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322. ПОДРОБНОЕ ОПИСАНИЕ
[0084] Этот предпочтительный вариант осуществления обеспечивает способ воссоздания объектов, каналов или "представлений" из множества базовых сигналов, который может быть применен в наборах фильтров с низким частотным разрешением. Одним примером является преобразование представления в формате стерео в бинауральное представление, предназначенное для воспроизведения с помощью наушников, которое может быть применено без (гибридного) набора фильтров Найквиста. Сокращенное частотное разрешение декодера компенсируется матрицей свертки с несколькими отводами. Эта матрица свертки требует лишь небольшое количество отводов (например, два) и в практических случаях требуется только на низких частотах. Этот способ (1) сокращает вычислительную сложность декодера, (2) сокращает использование памяти декодера и (3) сокращает битрейт параметров.
[0085] В предпочтительном варианте осуществления обеспечены система и способ для преодоления нежелательной вычислительной сложности и требований к памяти на стороне декодера. Это реализовано посредством обеспечения высокого частотного разрешения в кодере при использовании ограниченного (более низкого) частотного разрешение в декодере (например, использование частотного разрешения, которое значительно хуже, чем использованное в соответствующем кодере) и использования матрицы (свертки) с несколькими отводами для компенсации сокращенного частотного разрешения декодера.
[008 6] Как правило, поскольку матрица с высоким частотным разрешением требуется только на низких частотах, матрица (свертки) с несколькими отводами может использоваться на низких частотах, в то время как традиционная (без состояний) матрица может использоваться для остальных (более высоких) частот. Другими словами, на низких частотах матрица представляет
множество КИХ-фильтров (FIR-фильтров), воздействующих на каждую комбинацию ввода и вывода, в то время как на высоких частотах используется матрица без состояний.
[0087] Набор фильтров и отображение параметров кодера [008 8] Фиг. 7 демонстрирует иллюстративную систему 90 набора фильтров и отображения параметров кодера в соответствии с вариантом осуществления. В этом иллюстративном варианте 90 осуществления 8 подполос (b = 1, 8)^ например, обозначенных номером 91, первоначально генерируются посредством гибридного (каскадного) набора 92 фильтров и набора 93 фильтров Найквиста. Затем первые четыре подполосы отображаются 94 на одну и ту же
параметрическую полосу (Р= 1) для вычисления матрицы свертки M[k,p=l]^ например, матрица теперь имеет дополнительный индекс к. Остальные подполосы (Ь = 5, 8) отображаются на параметрические полосы (P = 2, 3)
с использованием матрицы М[р(Ь)] 95^ 95 без
состояний.
[0089] Набор фильтров и отображение параметров декодера
[0090] Фиг. 8 демонстрируют соответствующую иллюстративную систему 100 набора фильтров и отображения параметров декодера. В отличие от кодера, набор фильтров Найквиста не присутствует, и при этом нет никаких задержек для компенсации задержки набора фильтров Найквиста. Набор фильтров 101 для анализа декодера генерирует только 5 подполос (Ь=1, 5)^ например, обозначенных номером 102, которые подвергнуты дискретизации с понижением с коэффициентом Q. Первая подполоса обрабатывается матрицей 103 свертки M[k,p=l]^ в то Время Как остальные полосы обрабатываются матрицами 104, 105 без состояния в соответствии с предшествующим уровнем техники.
[0091] Хотя приведенный выше пример применяет набор фильтров Найквиста в кодере 90 и соответствующую матрицу свертки только для первой подполосы CQMF в декодере 100, тот же самый процесс может быть применен ко множеству подполос, не обязательно ограниченных только самой нижней подполосой (подполосами).
[0092] Вариант осуществления кодера
[0093] Один вариант осуществления, который является особенно полезным, состоит в преобразовании представления для динамиков в бинауральное представление. Фиг. 9 иллюстрирует кодер 110, использующий предложенный способ для преобразования
представления. Множество входных каналов или объектов xi[n] сначала преобразовывается с использованием набора 111 фильтров. Набор 111 фильтров представляет собой гибридный набор комплексных квадратурных зеркальных фильтров (HCQMF), но в равной степени могут использоваться другие структуры наборов
фильтров. Полученные в результате представления подполос 11 J обрабатываются дважды 112, 113.
[0094] Во-первых (113), чтобы сгенерировать множество
базовых сигналов ^s[k [0095] Во-вторых (112), чтобы генерировать множество
Y-fk Ы
желаемых преобразованных сигналов J ' 112. Эти выходные данные, например, могут быть сгенерированы с использованием обработки HRIR, чтобы полученные в результате сигналы были предназначены для воспроизведения с помощью наушников. Такая обработка HRIR может использоваться в области набора фильтров, но в равной степени может быть выполнена во временной области посредством свертки HRIR. Характеристики HRIR получаются из базы 114 данных.
[0096] Матрица М[к,р] свертки затем получается посредством подачи базовых сигналов Zs[k,b] через линию 116 задержки с отводами. Каждый из отводов линий задержки служит в качестве дополнительных входов в модуль 115 предсказания MMSE. Этот модуль предсказания MMSE вычисляет матрицу М[к,р] свертки, которая
минимизирует ошибку между желаемыми преобразованными сигналами у. [к ь]
JL ' J и выходными данными декодера 100 на фиг. 8 посредством применения матриц свертки. После этого матричные коэффициенты
М[к,р] заданы как:
M = (Z*Z + el)-1Z*Y
содержит все входы линии
В этой формулировке матрица задержки с отводами.
[0097] Взяв первоначально случай для воссоздания одного
сигнала для данной подполосы Ь, когда имеется А входов от
линий задержки с отводами, имеем:
' ZJO.b] ... Z^-CA-rhb] Zs[0,b] ... Zs[-(A-l),b] '
Z =
ZJK-l.b] ... ZJK-1-(A-l),b] Zs[K-l,b] ...Zs[K-l-(A-l),b]
Y =
' Yi[0,b] Y1[K-l,b]_
= (Z*Z + el)_1Z*Y
M =
mjIO.b] ... ms[0,b]
m^A-l.b] ... ms[A-l,b]
сигналами
[0098] Полученные в результате коэффициенты M[k,p] матрицы свертки квантуются, кодируются и передаются вместе с базовыми zs[n]
. Тогда декодер может использовать процесс свертки
Yfkbl ZJk,b]
для воссоздания 1^и' из входных сигналов SL J:
Y[k,b] = Јzs[k,b] * ms[., b]
или в другой записи с использованием выражения свертки: А-1
Y[k,b] = X 2 Zstk - a,b]ms[a,b]
s a = 0
[0099] Подход свертки может быть комбинирован с линейным (без состояний) матричным процессом.
[00100] Дополнительное различие может быть сделано между комплекснозначным и действительнозначным матрицированием без состояний. На низких частотах (как правило, ниже 1 кГц) процесс свертки (А> 1) является предпочтительным, чтобы обеспечить возможность точного воссоздания свойств между каналами в соответствии с перцепционной шкалой частот. На средних частотах, приблизительно до 2 или 3 кГц, слуховая система человека чувствительна к разностям фаз между каналами, но не требует
очень высокого частотного разрешения для воссоздания такой фазы. Это подразумевает, что комплекснозначная матрица с одним отводом (без состояний) является достаточной. Для более высоких частот слуховая система человека фактически не чувствительна к фазе с тонкой структурой форм волны, и применение действительнозначной матрицы без состояний является достаточным. С ростом частот количество выходов набора фильтров, отображаемых на параметрическую полосу, как правило, увеличивается, чтобы отразить нелинейное частотное разрешение слуховой системы человека.
[00101] В другом варианте осуществления первое и второе представления в кодере меняются местами, например, первое представление предназначено для воспроизведения с помощью наушников, и второе представление предназначено для воспроизведения с помощью динамиков. В этом варианте осуществления представление для динамиков (второе представление) генерируется посредством применения зависимых от времени параметров преобразования по меньшей мере в двух частотных полосах к первому представлению, причем параметры преобразования дополнительно задаются как включающие в себя множество коэффициентов фильтра по меньшей мере для одной из частотных полос.
[00102] В некоторых вариантах осуществления первое представление может быть разделено во времени на последовательность сегментов с отдельным множеством параметров преобразования для каждого сегмента. При дальнейшем уточнении, когда параметры преобразования сегментов недоступны, параметры могут быть интерполированы на основе предыдущих коэффициентов.
[00103] Вариант осуществления декодера
[00104] Фиг. 10 иллюстрирует вариант осуществления декодера 120. Входной битовый поток 121 разделен на битовый поток 131 базовых сигналов и данные 124 параметров преобразования. Далее декодер 123 базовых сигналов декодирует базовые сигналы z [п] , которые затем обрабатываются набором 125 фильтров для анализа. Полученные в результате сигналы Z [k, Ь] в частотной области с
подполосой b=l, 5 обрабатываются блоками 126, 129 и 130
матричного умножения. В частности, блок 12 6 матричного умножения
применяет комплекснозначную матрицу М[к, р=1] свертки к сигналу
Z[k, b=l] в частотной области. Кроме того, блок 129 матричного
умножения применяет комплекснозначные коэффициенты М[р=2]
матрицы с одним отводом к сигналу Z[k, b=2] . Наконец, блок 130
матричного умножения применяет действительнозначные матричные
коэффициенты М[р=3] к сигналам Z[k, b=3, 5] в частотной
области. Выходные сигналы блока матричного умножения преобразовываются в выходные данные 12 8 во временной области посредством набора 127 фильтров для синтеза. Ссылки на z [п] , Z[k] и т.д. относятся ко множеству базовых сигналов, а не к какому-либо конкретному базовому сигналу. Таким образом, z [п] , Z[k] и т.д. могут быть интерпретированы как zs [n] , Zs[k] и т.д.,
где 0 - 5 < N, и N - количество базовых сигналов.
[00105] Другими словами, блок 126 матричного умножения
определяет выходные отсчеты подполосы Ь=1 выходного сигнала J из взвешенных комбинаций текущих отсчетов подполосы Ь=1 базовых сигналов Z[k] и предыдущих отсчетов подполосы Ь=1 базовых сигналов Z[k] (например, Z[k-a], где 0 < а < А, и А больше 1). Весовые коэффициенты, используемые для определения выходных
к 1 ум
отсчетов подполосы Ь=1 выходного сигнала ) , соответствуют комплекснозначной матрице М[к, р=1] свертки для сигнала.
[00106] Кроме того, блок 12 9 матричного умножения
к о УМ
определяет выходные отсчеты подполосы Ь=2 выходного сигнала "
из взвешенных комбинаций текущих отсчетов подполосы Ь=2 базовых сигналов Z [к]. Весовые коэффициенты, используемые для определения выходных отсчетов подполосы Ь=2 выходного сигнала Y \к\
i , соответствуют комплекснозначным коэффициентам М[р=2] матрицы с одним отводом.
[00107] Наконец, блок 130 матричного умножения определяет
К Т г УМ
выходные отсчеты подполос Ь=3, 5 выходного сигнала ) из
взвешенных комбинаций текущих отсчетов подполос Ь=3, 5
базовых сигналов Z[k]. Весовые коэффициенты, используемые для
определения выходных отсчетов подполос Ь=3, 5 выходного
YAk]
сигнала " , соответствуют действительнозначным матричным коэффициентам М[р=3].
[00108] В некоторых случаях декодер 123 базовых сигналов
может воздействовать на сигналы с таким же частотным
разрешением, которое обеспечено набором 125 фильтров для
анализа. В таких случаях декодер 125 базовых сигналов может быть
выполнен с возможность выдавать сигналы Z[k] в частотной
области, а не сигналы z [п] во временной области, в этом случае
набор 12 5 фильтров для анализа может быть опущен. Кроме того, в
некоторых случаях может быть предпочтительно применить
комплекснозначные коэффициенты матрицы с одним отводом вместо
действительнозначных матричных коэффициентов к сигналам Z[k,
b=3, 5] .
[00109] На практике матричные коэффициенты М могут обновляться со временем; например, посредством привязки индивидуальных кадров базовых сигналов к матричным коэффициентам М. В качестве альтернативы или дополнительно матричные коэффициенты М дополняются метками времени, которые указывают, в какое время или интервал базовых сигналов z [п] должны быть применены матрицы. Чтобы сократить битрейт передачи, связанный с обновлениями матриц, количество обновлений оптимально ограничено, что приводит к редкому распределению обновлений матриц. Такие нечастые обновления матриц требуют специальной обработки, чтобы гарантировать плавные переходы от одного экземпляра матрицы к следующему. Матрицы М могут обеспечиваться с привязанными заданными сегментами (кадрами) времени и/или частотными регионами базовых сигналов Z. Декодер может использовать множество методов интерполяции, чтобы гарантировать плавный переход от последующих экземпляров матрицы М по времени. Один пример такого метода интерполяции состоит в вычислении накладывающихся оконных кадров сигналов Z и вычислении соответствующего множества выходных сигналов Y для каждого такого кадра с использованием матричных коэффициентов М,
привязанных к этому конкретному кадру. Последующие кадры затем могут быть агрегированы с использованием методики наложения с суммированием, обеспечивающей плавный переход со взаимным наложением. В качестве альтернативы декодер может принять метки времени, привязанные к матрице М, которые описывают желаемые матричные коэффициенты в заданные моменты времени. Для отсчетов аудиоданных между метками времени матричные коэффициенты матрицы М могут быть интерполированы с использованием линейной, кубической, ограниченной по полосе интерполяции или других средств для интерполяции, чтобы гарантировать плавные переходы. Помимо интерполяции по времени подобные методики могут использоваться для интерполяции матричных коэффициентов по частоте.
[00110] Таким образом, настоящий документ описывает способ (и соответствующий кодер 90) для представления второго
представления аудиоканалов или объектов 1 как потока данных, который должен быть передан или обеспечен соответствующему декодеру 100. Способ содержит этап обеспечения базовых сигналов 2
s, упомянутые базовые сигналы представляют первое представление
аудиоканалов или объектов '. Как описано в общих чертах выше,
базовые сигналы s могут быть определены на основе аудиоканалов Xi
или объектов 1 с использованием сначала рендеризации параметров G (а именно с использованием первой матрицы усиления, например, для амплитудного панорамирования). Первое представление может быть предназначено для воспроизведения с помощью динамиков или для воспроизведения с помощью наушников. С другой стороны, второе представление может быть предназначено для воспроизведения с помощью наушников или для воспроизведения с помощью динамиков. Таким образом, может быть выполнено преобразование из воспроизведения с помощью динамиков в воспроизведение с помощью наушников (или наоборот).
[00111] Способ дополнительно содержит обеспечение параметров М преобразования (а именно одной или более матриц преобразования), упомянутые параметры М преобразования
предназначены для преобразования базовых сигналов s упомянутого
первого представления в выходные сигналы J упомянутого второго представления. Параметры преобразования могут быть определены, как описано в общих чертах в настоящем документе. В частности,
желаемые выходные сигналы для второго представления могут быть
определены из аудиоканалов или объектов 1 с использованием вторых параметров Н рендеризации (как описано в общих чертах в настоящем документе). Параметры М преобразования могут быть определены посредством минимизации отклонения выходных сигналов
Y- Y-
> от желаемых выходных сигналов ) (например, с использованием
критерия минимальной среднеквадратической ошибки).
[00112] Также, в частности, параметры М преобразования могут быть определены в области подполос (т.е., для разных частотных полос). С этой целью базовые сигналы Z[k, b] в области подполос могут быть определены для частотных полос В с использованием набора 92, 93 фильтров кодера. Количество В частотных полос больше одного, например, В равно или больше 4, б, 8, 10. В примерах, описанных в настоящем документе, В=8 или В=5. Как описано в общих чертах выше, набор 92, 93 фильтров кодера может содержать гибридный набор фильтров, который обеспечивает, что низкочастотные полосы из В частотных полос имеют более высокое частотное разрешение, чем высокочастотные полосы из В частотных полос. Кроме того, могут быть определены желаемые выходные сигналы Y[k, b] в области подполос для В частотных полос. Параметры М преобразования для одной или более частотных полос могут быть определены посредством минимизации
Y- Y-
отклонения выходных сигналов > от желаемых выходных сигналов > в
одной или более частотных полос (например, с использованием критерия минимальной среднеквадратической ошибки).
[00113] Каждый из параметров М преобразования, таким образом, может быть задан для по меньшей мере двух частотных полос (а именно для В частотных полос). Кроме того, параметры преобразования могут включать в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной
из частотных полос.
[00114] Таким образом, описан способ (и соответствующий
декодер) для определения выходных сигналов второго представления
аудио каналов/объектов из базовых сигналов первого представления
аудио каналов/объектов. Первое представление может
использоваться для воспроизведения с помощью динамиков, и второе представление может использоваться для воспроизведения с помощью наушников (или наоборот) . Выходные сигналы определяются с использованием параметров преобразования для разных частотных полос, причем параметры преобразования по меньшей мере для одной из частотных полос содержат параметры матрицы свертки с несколькими отводами. В результате использования параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос вычислительная сложность декодера 100 может быть сокращена, а именно посредством сокращения частотного разрешения набора фильтров, используемого декодером.
[00115] Например, определение выходного сигнала для первой частотной полосы с использованием параметров матрицы свертки с несколькими отводами может содержать определение текущего отсчета первой частотной полосы выходного сигнала как взвешенной комбинации текущего и одного или более предыдущих отсчетов первой частотной полосы базовых сигналов, причем весовые коэффициенты, используемые для определения взвешенной комбинации, соответствуют параметрам матрицы свертки с несколькими отводами для первой частотной полосы. Один или более параметров матрицы свертки с несколькими отводами для первой частотной полосы обычно являются комплекснозначными.
[00116] Кроме того, определение выходного сигнала для второй частотной полосы может содержать определение текущего отсчета второй частотной полосы выходного сигнала как взвешенной комбинации текущих отсчетов второй частотной полосы базовых сигналов (а не на основе предыдущих отсчетов второй частотной полосы базовых сигналов), причем весовые коэффициенты, используемые для определения взвешенной комбинации, соответствует параметрам преобразования для второй частотной полосы. Параметры преобразования для второй частотной полосы
могут быть комплекснозначными или в качестве альтернативы могут быть действительнозначными.
[00117] В частности, одно и то же множество параметров матрицы свертки с несколькими отводами может быть определено по меньшей мере для двух смежных частотных полос из В частотных полос. Как проиллюстрировано на фиг. 7, одно множество параметров матрицы свертки с несколькими отводами может быть определено для частотных полос, обеспеченных набором фильтров Найквиста (т.е. для частотных полос, имеющих относительно высокое частотное разрешение). Посредством этого использование набора фильтров Найквиста в декодере 100 может быть опущено, тем самым сокращая вычислительную сложность декодера 100 (при поддержании качества выходных сигналов для второго представления).
[00118] Кроме того, один и тот же действительнозначный параметр преобразования может быть определен по меньшей мере для двух смежных высокочастотных полос (как проиллюстрировано в контексте фиг. 7) . Посредством этого вычислительная сложность декодера 100 может быть дополнительно сокращена (при поддержании качества выходных сигналов для второго представления). Интерпретация
[00119] Упоминание по тексту этого описания "одного варианта осуществления", "некоторых вариантов осуществления" или "варианта осуществления" означает, что конкретный признак, структура или характеристика, описанные в связи с вариантом осуществления, включены по меньшей мере в один вариант осуществления настоящего изобретения. Таким образом, появления фраз "в одном варианте осуществления", "в некоторых вариантах осуществления" или "в варианте осуществления" в различных местах по тексту этого описания не обязательно все относятся к одному и тому же варианту осуществления, но могут. Кроме того, конкретные признаки, структуры или характеристики могут быть объединены любым подходящим образом, как будет очевидно для специалиста в области техники из этого раскрытия, в одном или более вариантах осуществления.
[00120] Если не указано иначе, использование в настоящем документе порядковых числительных "первый", "второй", "третий" и т.д. для описания общего объекта указывает лишь на то, что упоминаются разные экземпляры подобных объектов, и не подразумевает, что описанные таким образом объекты должны находиться в данной последовательности ни во времени, ни в пространстве, ни по ранжированию, и ни каким-либо другим образом.
[00121] В приведенной ниже формуле изобретения и в описании в настоящем документе любой из терминов "содержащий", "состоящий из" или "который содержит" является неограничивающим термином, который означает включение по меньшей мере следующих элементов/признаков, но не исключая других. Таким образом, термин "содержащий", когда он используется в формуле изобретения, не должен интерпретироваться как ограничивающий для перечисленных после него средств, элементов или этапов. Например, контекст выражения "устройство, содержащее А и В" не должен быть ограничен устройствами, состоящими только из элементов А и В. Любой из терминов "включающий в себя" или "который включает в себя", используемых в настоящем документе, также является неограничивающим термином, который также означает включение по меньшей мере элементов/признаков, которые следуют за термином, но не исключая других. Таким образом, "включающий в себя" является синонимом и означает "содержащий".
[00122] Используемый в настоящем документе термин "иллюстративный" используется в смысле обеспечения примеров, в противоположность указанию на качество. Таким образом, "иллюстративный вариант осуществления" является вариантом осуществления, обеспеченным в качестве примера, в противоположность тому, чтобы обязательно являться вариантом осуществления иллюстративного качества.
[00123] Следует понимать, что в приведенном выше описании иллюстративных вариантов осуществления изобретения различные признаки изобретения иногда группируются в единственном варианте осуществления, фигуре или их описании с целью оптимизации
раскрытия и помощи в понимании одного или более различных аспектов изобретения. Однако этот метод раскрытия не должен интерпретироваться как отражение намерения, что заявленное изобретение требует большего количества признаков, чем явно изложено в каждом пункте формулы изобретения. Вместо этого, как отражает последующая формула изобретения, аспекты изобретения лежат менее чем во всех признаках единственного предшествующего раскрытого варианта осуществления. Таким образом, формула изобретения после подробного описания тем самым явно включена в это подробное описание, и каждый пункт формулы изобретения представляет собой отдельный вариант осуществления этого изобретения.
[00124] Кроме того, хотя некоторые варианты осуществления, описанные в настоящем документе, включают в себя некоторые, но не другие признаки, включенные в другие варианты осуществления, подразумевается, что комбинации признаков разных вариантов осуществления находятся в рамках объема изобретения и формируют другие варианты осуществления, как будет понятно специалистам в области техники. Например, в следующей формуле изобретения любой из заявленных вариантов осуществления может использоваться в любой комбинации.
[00125] Кроме того, некоторые варианты осуществления описаны в настоящем документе как способ или комбинация элементов способа, которые могут быть реализованы процессором компьютерной системы или другим средством выполнения функции. Таким образом, процессор с необходимыми инструкциями для выполнения такого способа или элемента способа формирует средство для выполнения способа или элемента способа. Кроме того, описанный в настоящем документе элемент варианта осуществления устройства является примером средства для выполнения функции, выполняемой элементом с целью выполнения изобретения.
[00126] В обеспеченном в настоящем документе описании сформулированы многочисленные конкретные подробности. Однако подразумевается, что варианты осуществления изобретения могут быть осуществлены без этих конкретных подробностей. В других
случаях известные способы, структуры и методики подробно не показаны, чтобы не препятствовать пониманию этого описания.
[00127] Аналогичным образом, следует отметить, что термин "присоединенный", когда он используется в формуле изобретения, не должен интерпретироваться как ограничиваемый только прямыми соединениями. Может использоваться термин "присоединенный" и "соединенный" вместе с их производными. Следует понимать, что эти термины не подразумеваются как синонимы друг для друга. Таким образом, контекст выражения "устройство А, присоединенное к устройству В" не должен быть ограничен устройствами или системами, в которых выход устройства А непосредственно соединен с входом устройства В. Это означает, что существует путь между выходом А и входом В, который может представлять собой путь, включающий в себя другие устройства или средства. "Присоединенный" может означать, что два или более элементов либо находятся в прямом физическом или электрическом контакте, либо эти два или более элементов не находятся в прямом контакте друг с другом, но все же сотрудничают или взаимодействуют друг с другом.
[0012 8] Таким образом, хотя были описаны предполагаемые предпочтительные варианты осуществления изобретения, специалисты в области техники поймут, что в них могут быть внесены другие и дополнительные модификации без отступления от сущности изобретения, и имеется в виду, что все такие изменения и модификации находятся в пределах объема изобретения. Например, любые приведенные выше формулы являются лишь репрезентативными для процедур, которые могут использоваться. Функциональность может быть добавлена или удалена из блок-схем, и операции могут меняться местами среди функциональных блоков. Этапы могут быть добавлены или удалены из способов, описанных в рамках объема настоящего изобретения.
Различные аспекты настоящего изобретения могут быть очевидны на основе следующих перечисленных иллюстративных вариантов осуществления (ЕЕЕ):
ЕЕЕ 1. Способ представления второго представления аудиоканалов или объектов как потока данных, при этом способ
содержит следующие этапы:
(a) обеспечение множества базовых сигналов, упомянутые базовые сигналы представляют первое представление аудиоканалов или объектов;
(b) обеспечение множества параметров преобразования, причем упомянутые параметры преобразования предназначены для преобразования упомянутого первого представления в упомянутое второе представление; упомянутые параметры преобразования также заданы по меньшей мере для двух частотных полос и включают в себя множество параметров матрицы свертки с несколькими отводами по меньшей мере для одной из частотных полос.
ЕЕЕ 2. Способ согласно ЕЕЕ 1, в котором упомянутое множество коэффициентов фильтра представляет фильтр с конечной импульсной характеристикой (КИХ; FIR).
ЕЕЕ 3. Способ согласно любому предыдущему ЕЕЕ, в котором упомянутое множество базовых сигналов разделяется на последовательность временных сегментов, и множество параметров преобразования обеспечено для каждого временного сегмента.
ЕЕЕ 4. Способ согласно любому предыдущему ЕЕЕ, в котором упомянутые коэффициенты фильтра включают в себя по меньшей мере один коэффициент, который является комплекснозначным.
ЕЕЕ 5. Способ согласно любому предыдущему ЕЕЕ, в котором первое или второе представление предназначено для воспроизведения с помощью наушников.
ЕЕЕ б. Способ согласно любому предыдущему ЕЕЕ, в котором параметры преобразования, соответствующие более высоким частотам, не модифицируют фазу сигнала, в то время как для более низких частот параметры преобразования модифицируют фазу сигнала.
ЕЕЕ 7. Способ согласно любому предыдущему ЕЕЕ, в котором упомянутое множество коэффициентов фильтра выполнено с возможностью обработки матрицы свертки с несколькими отводами.
ЕЕЕ 8. Способ согласно ЕЕЕ 7, в котором упомянутое множество коэффициентов фильтра используется для обработки низкочастотной полосы,
ЕЕЕ 9. Способ согласно любому предыдущему ЕЕЕ, в котором
упомянутое множество базовых сигналов и упомянутое множество параметров преобразования объединяются для формирования упомянутого потока данных.
ЕЕЕ 10. Способ согласно любому предыдущему ЕЕЕ, в котором упомянутые параметры преобразования включают в себя матричные коэффициенты высокочастотных аудиоданных для матричной манипуляции высокочастотной части упомянутого множества базовых сигналов.
ЕЕЕ 11. Способ согласно ЕЕЕ 10, в котором для среднечастотной части высокочастотной части упомянутого множества базовых сигналов матричная манипуляция включает в себя комплекснозначные параметры преобразования.
ЕЕЕ 12. Декодер для декодирования закодированного аудиосигнала, где закодированный аудиосигнал включает в себя:
первое представление, включающее в себя множество базовых аудиосигналов, предназначенных для воспроизведения аудиоданных в первом формате представления аудиоданных; и
множество параметров преобразования для преобразования упомянутых базовых аудиосигналов в упомянутом первом формате представления во второй формат представления, причем упомянутые параметры преобразования включают в себя по меньшей мере высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, упомянутые низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами,
декодер включает в себя:
первый блок разделения для разделения множества базовых аудиосигналов и множества параметров преобразования,
блок матричного умножения для применения упомянутых параметров матрицы свертки с несколькими отводами к низкочастотным компонентам базовых аудиосигналов, чтобы применить свертку к низкочастотным компонентам, производя свернутые низкочастотные компоненты; и
блок скалярного умножения для применения упомянутых высокочастотных параметров преобразования аудиоданных к высокочастотным компонентам базовых аудиосигналов, чтобы
произвести скалярные высокочастотные компоненты;
выходной набор фильтров для объединения упомянутых свернутых низкочастотных компонентов и упомянутых скалярных высокочастотных компонентов, чтобы произвести выходной сигнал во временной области в упомянутом втором формате представления.
ЕЕЕ 13. Декодер согласно ЕЕЕ 12, в котором упомянутый блок матричного умножения модифицирует фазу низкочастотных компонентов базовых аудиосигналов.
ЕЕЕ 14. Декодер согласно ЕЕЕ 12 или 13, в котором упомянутые параметры преобразования матрицы свертки с несколькими отводами являются комплекснозначными.
ЕЕЕ 15. Декодер согласно любому из ЕЕЕ 12-14, в котором упомянутые высокочастотные параметры преобразования аудиоданных являются комплекснозначными.
ЕЕЕ 16. Декодер согласно ЕЕЕ 15, в котором упомянутое множество параметров преобразования дополнительно содержит действительнозначные параметры преобразования аудиоданных более высокой частоты.
ЕЕЕ 17. Декодер согласно любому из ЕЕЕ 12-16, дополнительно
содержащий фильтры для разделения базовых аудиосигналов на
упомянутые низкочастотные компоненты и упомянутые
высокочастотные компоненты.
ЕЕЕ 18. Способ декодирования закодированного аудиосигнала, где закодированный аудиосигнал включает в себя:
первое представление, включающее в себя множество базовых аудиосигналов, предназначенных для воспроизведения аудиоданных в первом формате представления аудиоданных; и
множество параметров преобразования для преобразования упомянутых базовых аудиосигналов в упомянутом первом формате представления во второй формат представления, причем упомянутые параметры преобразования включают в себя по меньшей мере высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, упомянутые низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами,
способ включает в себя следующие этапы:
свертка низкочастотных компонентов базовых аудиосигналов с помощью низкочастотных параметров преобразования, чтобы произвести свернутые низкочастотные компоненты;
умножение высокочастотных компонентов базовых аудиосигналов на высокочастотные параметры преобразования, чтобы произвести умноженные высокочастотные компоненты;
объединение упомянутых свернутых низкочастотных компонентов и упомянутых умноженных высокочастотных компонентов, чтобы произвести частотные компоненты выходного аудиосигнала для воспроизведения во втором формате представления.
ЕЕЕ 19. Способ согласно ЕЕЕ 18, в котором упомянутый закодированный сигнал содержит несколько временных сегментов, причем упомянутый способ дополнительно включает в себя следующие этапы:
интерполяция параметров преобразования нескольких временных
сегментов закодированного сигнала, чтобы произвести
интерполированные параметры преобразования, включающие в себя интерполированные низкочастотные параметры преобразования аудиоданных; и
свертка нескольких временных сегментов низкочастотных компонентов базовых аудиосигналов с помощью интерполированных низкочастотных параметров преобразования аудиоданных, чтобы произвести несколько временных сегментов упомянутых свернутых низкочастотных компонентов.
ЕЕЕ 20. Способ согласно ЕЕЕ 18, в котором множество
параметров преобразования упомянутого закодированного
аудиосигнала является переменным по времени, и упомянутый способ дополнительно включает в себя следующие этапы:
свертка низкочастотных компонентов с помощью низкочастотных параметров преобразования для нескольких временных сегментов, чтобы произвести несколько множеств промежуточных свернутых низкочастотных компонентов;
интерполяция нескольких множеств промежуточных свернутых низкочастотных компонентов, чтобы произвести упомянутые свернутые низкочастотные компоненты.
ЕЕЕ 21. Способ согласно либо ЕЕЕ 19, либо ЕЕЕ 20, в котором
упомянутая интерполяция использует метод наложения и суммирования нескольких множеств промежуточных свернутых низкочастотных компонентов.
ЕЕЕ 22. Способ согласно любому из ЕЕЕ 18-21, дополнительно содержащий фильтрацию базовых аудиосигналов в упомянутые низкочастотные компоненты и упомянутые высокочастотные компоненты.
ЕЕЕ 23. Машиночитаемый неизменяемый запоминающий носитель, включающий в себя программные команды для работы компьютера в соответствии со способом согласно любому из ЕЕЕ 1-11 и 18-22.
ФОРМУЛА ИЗОБРЕТЕНИЯ
1. Способ представления второго представления аудиоканалов или объектов в виде потока данных, при этом способ содержит этапы, на которых:
(a) обеспечивают базовые сигналы, каковые базовые сигналы
представляют первое представление аудиоканалов или объектов;
(b) обеспечивают параметры преобразования, каковые
параметры преобразования предназначены для преобразования
базовых сигналов первого представления в выходные сигналы
второго представления; каждый из упомянутых параметров
преобразования задан для по меньшей мере двух частотных полос и
включает в себя множество параметров матрицы свертки с
несколькими отводами для по меньшей мере одной из частотных
полос; первое представление предназначено для воспроизведения с
помощью динамиков, и второе представление предназначено для
воспроизведения с помощью наушников, или наоборот.
2. Способ по п. 1, в котором параметры матрицы свертки с несколькими отводами указывают фильтр с конечной импульсной характеристикой (КИХ; FIR).
3. Способ по любому предыдущему пункту, в котором базовые сигналы разделены на последовательность временных сегментов, и параметры преобразования обеспечиваются для каждого временного сегмента.
4. Способ по любому предыдущему пункту, в котором параметры
матрицы свертки с несколькими отводами включают в себя по
меньшей мере один коэффициент, который является
комплекснозначным.
5. Способ по любому предыдущему пункту, в котором
упомянутое обеспечение базовых сигналов содержит этап, на
котором определяют базовые сигналы из аудиоканалов или объектов с использованием первых параметров рендеризации;
при этом способ содержит этап, на котором определяют желаемые выходные сигналы для второго представления из аудиоканалов или объектов с использованием вторых параметров рендеризации; и
упомянутое обеспечение параметров преобразования содержит
этап, на котором определяют параметры преобразования посредством минимизации отклонения выходных сигналов от желаемых выходных сигналов.
6. Способ по п. 5, в котором упомянутое определение
параметров преобразования содержит этапы, на которых
определяют базовые сигналы в области подполос для В частотных полос с использованием набора фильтров кодера;
определяют желаемые выходные сигналы в области подполос для В частотных полос с использованием набора фильтров кодера; и
определяют одно и то же множество параметров матрицы свертки с несколькими отводами для по меньшей мере двух смежных частотных полос из В частотных полос.
7. Способ по п. б, в котором
упомянутый набор фильтров кодера содержит гибридный набор фильтров, который обеспечивает, что низкочастотные полосы из В частотных полос имеют более высокое частотное разрешение, чем высокочастотные полосы из В частотных полос; и
упомянутые две по меньшей мере смежных частотных полосы являются низкочастотными полосами.
8. Способ по п. 7, в котором упомянутое определение
параметров преобразования содержит этап, на котором определяют
один и тот же действительнозначный параметр преобразования для
упомянутых по меньшей мере двух смежных высокочастотных полос.
9. Способ по любому предыдущему пункту, в котором
упомянутые по меньшей мере две частотных полосы содержат
полосу более низкой частоты и полосу более высокой частоты,
параметры преобразования, заданные для полосы более высокой
частоты, не модифицируют фазу сигнала базовых сигналов, и
параметры преобразования, заданные для полосы более низкой
частоты, модифицируют фазу сигнала базового сигнала.
10. Способ по любому предыдущему пункту, в котором упомянутые параметры матрицы свертки с несколькими отводами используются для обработки низкочастотной полосы.
11. Способ по любому предыдущему пункту, в котором упомянутые базовые сигналы и упомянутые параметры преобразования объединяются для формирования упомянутого потока данных.
10.
12. Способ по любому предыдущему пункту, в котором
упомянутые параметры преобразования включают в себя
матричные коэффициенты высокочастотных аудиоданных для матричной манипуляции высокочастотной части упомянутых базовых сигналов.
13. Способ по п. 12, в котором для среднечастотной части высокочастотной части упомянутых базовых сигналов матричная манипуляция включает в себя комплекснозначные параметры преобразования.
14. Декодер для декодирования закодированного аудиосигнала, причем закодированный аудиосигнал включает в себя:
первое представление, включающее в себя базовые
аудиосигналы, предназначенные для воспроизведения
закодированного аудиосигнала в первом формате представления аудиоданных; и
параметры преобразования для преобразования базовых аудиосигналов в первом формате представления в выходные сигналы второго формата представления, при этом параметры преобразования содержат высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, причем низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, при этом первый формат представления предназначен для воспроизведения с помощью динамиков, и второй формат представления предназначен для воспроизведения с помощью наушников, или наоборот,
при этом декодер включает в себя:
первый блок разделения для разделения базовых аудиосигналов и параметров преобразования,
блок матричного умножения для применения параметров матрицы свертки с несколькими отводами к низкочастотным компонентам базовых аудиосигналов, чтобы применить свертку к низкочастотным компонентам, производя свернутые низкочастотные компоненты;
блок скалярного умножения для применения высокочастотных параметров преобразования аудиоданных к высокочастотным компонентам базовых аудиосигналов, чтобы получить скалярные высокочастотные компоненты; и
выходной набор фильтров для объединения свернутых
низкочастотных компонентов и скалярных высокочастотных компонентов, чтобы получить выходной сигнал во временной области второго формата представления.
15. Декодер по п. 14, в котором блок матричного умножения модифицирует фазу низкочастотных компонентов базовых аудиосигналов.
16. Декодер по п. 14 или 15, при этом параметры преобразования матрицы свертки с несколькими отводами являются комплекснозначными.
17. Декодер по любому из пп. 14-16, при этом
высокочастотные параметры преобразования аудиоданных являются
комплекснозначными.
18. Декодер по п. 17, при этом параметры преобразования дополнительно содержат действительнозначные высокочастотные параметры преобразования аудиоданных.
19. Декодер по любому из пп. 14-18, дополнительно содержащий фильтры для разделения базовых аудиосигналов на низкочастотные компоненты и высокочастотные компоненты.
20. Способ декодирования закодированного аудиосигнала, причем закодированный аудиосигнал включает в себя:
первое представление, включающее в себя базовые
аудиосигналы, предназначенные для воспроизведения
закодированного аудиосигнала в первом формате представления аудиоданных; и
параметры преобразования для преобразования базовых аудиосигналов в первом формате представления в выходные сигналы второго формата представления, при этом параметры преобразования содержат высокочастотные параметры преобразования аудиоданных и низкочастотные параметры преобразования аудиоданных, причем низкочастотные параметры преобразования включают в себя параметры матрицы свертки с несколькими отводами, при этом первый формат представления предназначен для воспроизведения с помощью динамиков, и второй формат представления предназначен для воспроизведения с помощью наушников, или наоборот, при этом способ включает в себя этапы, на которых: выполняют свертку низкочастотных компонентов базовых
аудиосигналов с помощью низкочастотных параметров
преобразования, чтобы получить свернутые низкочастотные компоненты;
умножают высокочастотные компоненты базовых аудиосигналов на высокочастотные параметры преобразования, чтобы получить умноженные высокочастотные компоненты;
объединяют свернутые низкочастотные компоненты и умноженные высокочастотные компоненты, чтобы получить частотные компоненты выходного аудиосигнала для второго формата представления.
21. Способ по п. 20, в котором закодированный аудиосигнал содержит несколько временных сегментов, при этом способ дополнительно включает в себя этапы, на которых:
выполняют интерполяцию параметров преобразования нескольких временных сегментов закодированного аудиосигнала, чтобы получить интерполированные параметры преобразования, включающие в себя интерполированные низкочастотные параметры преобразования аудиоданных; и
выполняют свертку нескольких временных сегментов низкочастотных компонентов базовых аудиосигналов с помощью интерполированных низкочастотных параметров преобразования аудиоданных, чтобы получить несколько временных сегментов свернутых низкочастотных компонентов.
22. Способ по п. 20, в котором параметры преобразования закодированного аудиосигнала являются переменными по времени, и упомянутая свертка низкочастотных компонентов базовых аудиосигналов включает в себя этапы, на которых:
выполняют свертку низкочастотных компонентов базовых аудиосигналов с помощью низкочастотных параметров преобразования для нескольких временных сегментов, чтобы получить несколько множеств промежуточных свернутых низкочастотных компонентов; и
выполняют интерполяцию этих нескольких множеств промежуточных свернутых низкочастотных компонентов, чтобы получить свернутые низкочастотные компоненты.
23. Способ по любому из п. 2 0 или 22, в котором упомянутая интерполяция использует метод наложения и суммирования нескольких множеств промежуточных свернутых низкочастотных
23.
компонентов.
24. Способ по любому из пп. 20-23, дополнительно содержащий
этап, на котором выполняют фильтрацию базовых аудиосигналов в
упомянутые низкочастотные компоненты и упомянутые
высокочастотные компоненты.
25. Машиночитаемый неизменяемый носитель, включающий в себя программные команды для работы компьютера в соответствии со способом по любому из пп. 1-13 и 20-24.
По доверенности
4 ['
Вывод для левого наушника
Контент каналов или объектов
Rill I"
ФИГ. 1
(Предшествующий уровень техники)
-t^
CD О CD
Кодер
Декодер/блок рендеризации
Создать звукозапись с понижающим микшированием
Кодер сигналов
W".
Декодер сигналов
Воссоздание каналов или объектов
Блок рендеризации
Вычислить параметры
Параметры воссоздания
Параметры воссоздания
Метаданные объектов
Метаданные объектов
ФИГ. 2
(Предшествующий уровень техники)
ФИГ.З
Декодер/
А м /
/ | , 62 г /
" г ! У\ Синтезе
:] / \ j\ ГИбрИДНЫМ
Аудиодекодер\ :*Н Матрицирование! *н ^И(]мр0И
Фактическая характеристика фазы Желаемая характеристика фазы
ФИГ. 6
Кодер 93
Y2WM
Прогноз MMSE
[/r,p=l]
j | j ; JC.
^1 Сгенерировать | | базовые сигналы Л (амплитудное ^!панорамирование)
116 |
ФИГ. 9
-1 I
z" j-
z'1
1 >
-.1 I
z* j-"
(19)
(19)
(19)
ФИГ. 5
ФИГ. 5
ФИГ. 5
ФИГ. 5
ФИГ. 5
ФИГ. 7
ФИГ. 8
ФИГ. 8
ФИГ. 8
ФИГ. 8
ФИГ. 10