Эта статья основана на содержании выступления г-на Ма Сивэя на сессии по облачным аудио- и видеотехнологиям нового поколения на Интернет-конференции в реальном времени RTC2017.
Добро пожаловать в гостиСообщество разработчиков RTC, общаться с большим количеством разработчиков технологии RTC (коммуникация в реальном времени) и участвовать в других мероприятиях разработчиков.
马思伟:
北京大学信息科学技术学院教授
2005年博士毕业于中国科学院计算技术研究所。2005年8月至2007年8月在美国南加州大学进行博士后研究,之后到北大工作至今。2013年获国家自然科学基金委优青项目资助,2015年入选中组部第二批青年拔尖人才计划。主要研究方向为视频编码及处理,已发表论文200余篇,已获授权发明专利40多项。担任IEEE Transactions on Circuits and System for Video Technolgoy(TCSVT)、Journal of Visual Communication and Representation(JVCIR)期刊编委(AE)、中国图象图形学学会理事、AVS视频组联合组长等。自2002年起,陆续参与组织AVS1、AVS+、AVS2一系列国家标准的制定,曾获国家技术发明奖二等奖、国家科学技术进步奖二等奖等奖励。
Прежде всего, давайте рассмотрим историю кодирования видео. Кодирование видео возникло из вещательного телевидения. Долгое время основная движущая сила реформы кодирования и декодирования видео исходила из вещательного телевидения. Конечно, сегодня мы видим, что кодирование видео в Интернете становится все быстрее и быстрее.Вчера на Всемирном конгрессе ICET 2017 председатель ICET также сказал, что предыдущее кодирование было обновленной версией каждые десять лет, но теперь от последняя разработка H.265 Посмотрите, может быть, меньше десяти лет.
Мы видели эту картинку, вы, возможно, видели ее в молодости, в телевизоре диск, это самый важный тестовый сигнал телевизора, это первое цифровое телевидение и радио в 1951 году. Это происхождение - кодирование с импульсной модуляцией, которое эквивалентно одному значению пикселя в импульсе.Прежнее было использовать фиксированные биты и 8 бит для представления кодирования и передачи телевизионных сигналов изображения. Это в сфере телевещания.В нашей компьютерной индустрии компьютер родился в 1946 году, но изображение появилось на компьютере в 1957 году. Кирш был создателем первого цифрового изображения, и он использовал своего сына для создания первой главы цифровых изображений. В 2007 году исполнилось 50 лет со дня рождения этого изображения, а сейчас исполняется 60 лет. Первоначальный малыш теперь 50- или 60-летний старик. Сегодняшние цифровые изображения достигли разрешения 4K или даже 8K.
Когда дело доходит до кодирования, принцип кодирования заключается в том, что в видео много избыточности, включая временную избыточность появления двух последовательных изображений, избыточность восприятия, при которой человеческий глаз не чувствителен к высокочастотной информации, и восприятие, не чувствительное к восприятию, избыточность. Основываясь на этом принципе, я начал с 261 на заре фреймворка видеокодека, до сегодняшнего дня выходит 266, и фреймворк практически не изменился.
В этих рамках технологию кодирования можно разделить на три основных блока. Частью этого является кодирование с преобразованием, только что упомянутое, что высокочастотная информация удаляется путем преобразования избыточной информации. Среди них также есть пространственные и временные области для удаления избыточной информации. Есть предиктивное кодирование, а есть энтропийное кодирование. Это метод трехблочного кодирования.
Если вы посмотрите на технологии кодирования трех основных блоков, на самом деле это был почти 1950 год, компьютер родился в 1946 году, а теория относительной информации родилась в 1948 году. В начале 1950-х годов оцифровка начала эру цифровое кодирование видео. В первые дни из-за ограничения вычислительной мощности обработка в основном основывалась на пикселях и обрабатывалась случайной статистикой, такой как технология статистического кодирования программирования хаффма, которую мы видели. Увеличенная вычислительная мощность теперь имеет блочную обработку. Первоначально это можно было сделать только на основе изображений, а затем можно было изменить обработку на основе блоков, оценку движения на основе блоков, компенсацию движения и размер блока изображения, как в случае с H.264 и 265, которые мы видим сегодня. . Трансформация, произошедшая в конце 1970-х годов, в основном создала индустрию кодирования видео, которую мы имеем сегодня, а это означает, что она в основном находилась в состоянии старого и нового вина в течение 40 лет. Глядя назад, это ситуация в последние годы.Конечно, 265 также имеет несколько лет истории.Это чтобы увидеть прогресс в этой области, в том числе преобразование изображения с положительным преобразованием изображения. Это технологическое развитие кодирования видео.
Посмотрите на текущий прогресс технологии кодирования видео. Во-первых, это пространственное разрешение, от исходного маленького изображения до стандартной четкости, до высокой четкости, а затем до сверхвысокой четкости. Второе — это временное разрешение, от исходных 15 кадров и более высоких 20 кадров до 120. В-третьих, точность выборки, текущий HDR-телевизор с высоким динамическим диапазоном составляет не менее 10 бит, но достаточно ли 10 бит, он будет разработан в будущем и может достигать 20 бит. В-четвертых, количество точек обзора и диапазон поля зрения тесно связаны. Видеопередача — это не одно видео, это может быть два канала, это может быть несколько каналов, это количество точек обзора. Диапазон видео, угол обзора, становится все шире и шире, то есть поле зрения. В-пятых, данные модели. Данные модели — это запись, которая включает контурные объекты. Данные о глубине, а также особенности, знание содержания изображения, объектов. Также есть облако точек, которое может полностью реконструировать объект, и от этой технологии зависит воспроизведение дальнего вида.
Кодировка модели, выходящая за рамки стандартной кодировки. Концепция модельного кодирования существует уже давно.С конца 1980-х до середины 1990-х годов звучал громкий голос о том, что модельное кодирование является вторым типом кодирования, но сегодня мы обнаруживаем, что второе поколение так и не появилось. мощность.Всегда используйте оригинал второго поколения. Концепция модельного кодирования очень легкая.Она может охватывать все исходное кодирование на основе пикселей.Это тоже модель, но ее модель основана на сигнальной модели. Конечно, то, с чем мы знакомы, — это объектная модель.Эта концепция очень новая, но она бесполезна, и есть много проблем.Здесь мы упоминаем анализ сцены и анализ людей и мест. Далее, включая человеческую часть, человеческое тело и человеческое лицо можно смоделировать более точно, что также является большим количеством попыток кодирования. Таким образом, соответствующая таблица также реагировала на историю кодирования в раннем прошлом, в том числе на основе модели лица и даже плача и смеха лица.Пока модель хорошо сделана, ее можно восстановить с очень небольшим количеством данных в будущем. . Конечно, в последней разработке также упоминалось интеллектуальное кодирование, которое представляет собой модель, объединяющую сигнал и изображение, кодирование видео на основе обучения.Давайте посмотрим на тенденцию развития кодирования видео. 4K становится все более популярным. Мы видели интернет-вещание, в том числе недавнюю встречу в Гуандуне, чтобы предложить технологию телевещания 4K в качестве следующего шага, и мы в Пекине также предложили, чтобы Зимние Олимпийские игры 2022 года были пилотным вещанием 8K. Картинку выше можно сравнить, там тест 8К, насколько мелко высокое разрешение в левом верхнем углу. Конечно, видео 8K — это не только вопрос разрешения, но и поддерживающих технологий, включая точность выборки, частоту кадров и звук.
Речь идет о тенденции развития сжатия 8K. Но 8K, о которых мы говорим, — это не только вопрос разрешения, внизу есть еще пиксели и более высокая точность. Это фотография, сделанная камерой с разрешением 1 миллиард пикселей. Изображение увеличено, и на нем отчетливо видны три слова «Taihe Hall». Повышение разрешения не означает, что нужно загружать видео большего размера, для серверной части это означает, что можно предоставить больше форм видеоприложений. Одним из них является AR и VR. В настоящее время визуальные эффекты 4K VR по-прежнему проблематичны, а для передачи по-прежнему требуются более высокая пропускная способность и точность видео. Кодирование модели также оказывает большее влияние на AR. Что касается проблем, одной из них является сжатие объема данных, которое все еще остается относительно серьезным. Для таких видео, как 8K, 4K и HDR, уровень необработанных данных составляет 60 Гбит/с. Вторая проблема — переход от сжатия к анализу. Только что говорили о первом толчке для кодирования видео — это телетрансляция, позволяющая видеть лучшее визуальное качество. Но на сегодняшний день многие видео в мире, такие как слежка, предназначены не для просмотра людьми, а для компьютеров. У нас нет людей, смотрящих на видео с камер наблюдения и ожидающих, что компьютеры проведут анализ. Текущее сжатие ориентировано на хранение и передачу, что снижает использование полосы пропускания, но поддержка анализа довольно слабая. Поэтому многие исследования по видеоанализу проводятся уже после сжатия. Однако по мере того, как технология анализа и идентификации на ранних стадиях становится все сильнее и сильнее, многие видеоаналитики начинают выполнять интеллектуальный анализ и интеллектуальное кодирование во время кодирования видео.Я также быстро пройду последние достижения.Одним из них является JEM266, который больше всего беспокоит.Qualcomm способствует развитию нового поколения.Это было впервые предложено на конференции MPEG, и был предложен HM-KTA-1.0, и новый Стандарт будет разработан к 2020 году.
Производительность JEM была значительно улучшена. В объективном тесте эффективность кодирования увеличилась на 30%, а сложность увеличилась в 12 раз, что по-прежнему очень напряжно для реализации кодирования. Это прототип, который только что вышел, и серверная часть определенно будет больше оптимизирована и получит больше технологий между сложностью и производительностью.
Недавно несколько платформ предприняли некоторые попытки на основе JEM, и вы можете увидеть результаты их тестирования. На трех платформах видео SDR, HDR и 360 можно увидеть, что в основном одни и те же требования могут быть выполнены при уменьшении исходной скорости передачи данных вдвое. Этот привлекателен для 8K. От вектора движения с фиксированной точностью к вектору движения с адаптивной точностью, чем ближе к центру прогнозирования, тем выше точность, и чем ниже используется более низкая точность, когда он находится далеко, чтобы сохранить кодовую скорость кодирования вектора движения. Второй про деление, режимов деления слишком много, и каждому выбирать - головная боль. Давайте поговорим о 360, в основном сращивании проекции, а затем сжатии и кодировании после сращивания. Самое важное в этой ссылке — проекционные данные, которые определяют, что вы хотите сжать, а что потерять, что оказывает большое влияние на весь опыт виртуальной реальности. Это важное направление. Из изображения мы можем видеть панорамную видеопроекцию, из куба, октаэдра, икосаэдра, сферы, в JEM существует более десятка методов проекции. Оценка качества отличается.Конечно, эта оценка качества также влияет на дизайн вашего инструмента кодирования.Существует концепция WSPSNR, потому что она проецируется со сферы на плоскость, и некоторые данные теряются.Как рассчитать WSPSNR сложно , конечно, есть еще много других способов.Только что рассказал о технологии JEM. Как и световое поле, раньше оно фокусировало изображение, но теперь оно записывает свет содержимого в разных направлениях и использует массив камер или микролинзу для формирования изображения.
Квадратное сжатие изображений, JPEG более активен, он был выпущен в январе 2017 года как платформа для сжатия изображений в светлом поле. Здесь мы сделали предварительное исследование.Есть много проблем с изображением светового поля.Свет и изображение, собираемые каждой маленькой линзой, различны, и есть много различий в середине. После завершения каждый фильтр — это на самом деле видео, а каждый маленький объектив — это маленькое изображение, и с этими различиями нужно разобраться. Позже сбор данных представляет собой сбор облака точек, который превращает модель лица в анимационную сцену. Позже мы перенесем 3D-сцену, которая является техническим направлением развития моделирования 3D-модели сцены на следующем этапе. При этом MPE также относительно быстр. В CFP, выпущенном 4 Differential в этом году, первая платформа проверки будет создана примерно в октябре, Это похоже на AR и VR, которые могут передавать динамические модели с 3D-моделями.Этот блок представляет собой структуру кодирования последовательности, которая упаковывает закодированные данные в каждый блок.Конечно, это сложнее для данных облака точек.
Это рендеринг сравнения.Видно,что это исходные данные.Один кадр короны может быть 136мб.Мы видим,что сжатие будет в тысячу или в десять тысяч раз,и много информации потеряется . Следующее обсуждение будущего, мы очень хорошо знакомы с краткой историей, включая краткую историю человечества, краткую историю будущего, включая три революции, которые Харари упомянул в краткой истории человечества, одна из которых - когнитивная революция, потому что когнитивная революция создаст инструменты, а также во-первых, сельскохозяйственная революция может накормить больше людей, а поскольку людей больше, есть рабочая сила для осуществления научной революции. В кодировании видео я изменил когнитивную революцию на «революцию захвата». Глубина захвата видео, облако точек и сжатые измерения, теорема выборки Найквиста и т. д. оказывают большое влияние на сбор данных. Приобретение является источником кодирования, и приобретение повлияет на структуру кадра кодирования. Вторая компьютерная революция только что заявила, что сельское хозяйство может производить больше продуктов питания и кормить больше людей. В области кодирования видео кодирование возможно благодаря поддержке вычислительной мощности. Сначала расчеты были попиксельными, потом поблочными, а сейчас расчеты все более сложные. Раньше это был CPU, затем GPU, а теперь NPU. Эти вычислительные мощности являются мощными, но кодирование видео еще не использует преимущества этих вычислительных мощностей. В настоящее время изучается использование этой вычислительной мощности, в настоящее время изучается кодирование на основе нейронной сети, просто чтобы воспользоваться этой более эффективной вычислительной мощностью. Третья — это научная революция, которую я считаю когнитивной революцией в программировании. Распознавайте контент в видео и распознавайте контент. Это включает в себя простые визуальные функции, продвинутый уровень — глубокое обучение, а более продвинутый уровень — обучение вычислениям, подобное мозгу. Этот процесс является направлением для поддержки будущего кодирования видео. Эти трое дополняют друг друга, в коллекции есть новинки, а вычислительная мощность должна не отставать. Чем сильнее расчет будет поддерживать приобретение. То же самое касается познания, где большая вычислительная мощность также улучшает познание. Так что эти трое поддерживают друг друга. Давайте посмотрим на революцию сбора данных ниже.Выход представляет собой дискретный цифровой сигнал.Самый известный из них - теорема выборки Найквиста, которая заключается в передискретизации. 4K и 8K настолько велики, что многие собранные данные избыточны для реконструкции. Однако эта коллекция отличается от обработки человеческого глаза. Здесь вводится сжатое ощущение, подчеркивая редкую выборку при проб. Здесь есть прямое приложение, e — исходное изображение. При сэмплировании только 20% пикселей сэмплируются через выборку коэффициентов, а собранное представляет собой a, а затем восстанавливается до e по принципу разреженных изображений. Объем данных значительно уменьшается. Получение сигнала является дискретным как по времени, так и по амплитуде, что является дискретным сигналом. Но проблема дискретных сигналов заключается в том, что объем данных очень сильно увеличивается. Это все передискретизация. Однако процесс приобретения человеческим мозгом заключается в том, что вначале происходит световая стимуляция, фотоэлектрическое преобразование и кодирование через сетчатку и, наконец, распознавание через сетчатку. Человеческому мозгу требуется 160 мс, чтобы распознать изображение. Несомненно, что сегодняшняя технология сбора намного выше, чем частота сбора человеческого глаза, но интеллектуальный анализ и идентификация людей намного выше, чем у оборудования. Получение лица отличается.Верхняя часть-аналоговый сигнал, а нижняя часть-сигнал данных.На самом деле, наши человеческие глаза называются кодированием нейронных импульсов, что означает, что когда человек видит что-то, что не меняется, он делает не излучать нервные импульсы, чтобы не было сигнала. Поэтому энергоемкость человеческого мозга особенная. Если потребление энергии человеческим мозгом также велико, он сожжет мозг. Поэтому люди полагаются на очень маломощные вычисления для проведения анализа и идентификации. Это датчик изображения с очень низким энергопотреблением, который отличается от традиционных CMOS и CCD для обновления массива. Это сбор данных, управляемый событиями, и для анализа возникновения событий требования к точности очень эффективны. У меня также есть кое-какие мысли о компьютерной революции.Во-первых, мы знакомы с интерфейсными вычислениями, и у нас есть специальные чипы для видеокодеков, такие как ранние процессоры C-Cube, которые используются в VCD и DVD. В последнее время появились мощные процессоры ARM, которые могут поддерживать 4K, а кодек H.265, который использует Tesla, может обрабатывать 8K. Новейший процессор нейронной сети глубокого обучения Cambrian. Здесь мы все еще исходим из преобразования, преобразование — это модуль, который важен для кодирования видео, самое раннее изменение основано на 8x8 DCT. Преимущество ДКП в том, что при связности сигнала коэффициент корреляции достигает 0,95, ДКП является оптимальным преобразованием. Однако реальный сигнал сильно отличается: если изображение имеет край, DCT становится неэффективным, поскольку корреляция снижается. Это предложено направление, основанное на направлении, организованной и коррелированной корреляции. На основе этого принципа он расширяет ДСТ, дискретные синусоидальные изменения. После того, как синусоидального изменения еще нет, я начал искать оптимальное преобразование KLT путем поиска в процессе разработки H.265. Обновленные практики в H.266, изначально автономное обучение, H.266 используют онлайн-обучение, обученное с помощью одного или двух кадров данных. В 1987 году было предложено нейросетевое кодирование. Совсем недавно Google начал революцию в кодировании нейронных сетей. После стольких лет разработки принцип кодирования нейронной сети в основном все еще выяснен. Выше сказано, что нейросеть может выполнять больше вычислений, так вот пример, какова роль такого количества вычислений? Слева схематическая диаграмма коэффициента масштабирования, а справа схематическая диаграмма сложности кодирования, Мы сосредоточимся на последних двух, один из которых - ГРУ и ЦП JPEG и Остаток (на основе кодирования нейронной сети). Коэффициент сжатия JPEG и Residual составляет 15 раз. С точки зрения вычислительной сложности, если JPEG считается равным 1, то сложность кодирования Residual на GPU составляет 3200, а сложность кодирования на CPU — 260 000. Первоначальная фильтрация состоит в том, чтобы вести статистику, чтобы найти оптимальный коэффициент фильтрации. Это тоже можно заменить нейронной сетью, фильтрация на основе нейронной сети может быть рассчитана напрямую через нейронную сеть без обучения. Вышеизложенное основано на фильтрации в пространственной области. Существуют также корреляции между изображениями и кадрами во временной области, которые также можно использовать.Благодаря обучению и оптимизации производительность может быть улучшена. Нейронные сети также могут делать генеративные прогнозы. Наконец, существует когнитивная революция. Когнитивная революция заключается в том, что обработка интерфейса основана на блоках, а блоки, которые мы видим, представляют собой значения и числа пикселей. Однако когда человеческий мозг обрабатывает от краев к контурам и к объектам, возникает большая разница. Если кодирование является более эффективным и интеллектуальным, оно должно быть кодированием на основе признаков, чтобы можно было выполнять более эффективный анализ и обработку.Самым последним из них является Feature-Based Encoding (CDVA), последний стандарт 2018 года. Видеонаблюдение является типичным приложением. Для миллионов каналов видео, если это традиционное кодирование, объем данных достигнет 1 Тбит/с, если это CDVA, объем данных уменьшится до 10 Гбит/с, при степени сжатия в десятки тысяч раз. Отправляйте очень мало данных для достижения цели анализа и идентификации.
Уже есть несколько схем совместного кодирования текстурных признаков. Видео и функции передаются на всем пути, чтобы помочь в анализе и идентификации.Суммировать:4K популярен, 8K — тренд будущего, а стандарт следующего поколения заслуживает внимания; Революция в области сбора данных еще больше расширяет размерность визуальных данных и обогащает разнообразие кодирования визуальных данных; Слияние технологий сбора данных, вычислений и когнитивных технологий делает возможным интеллектуальное кодирование.