Top.Mail.Ru
Всероссийская общественная организация

Союз Композиторов России

Основан
в 1932 г.

Николай Хруст. Какие аудиоформаты вам нужны?

СОДЕРЖАНИЕ КРАТКО

Из всего многообразия аудиоформатов вам нужно четыре:

1) для качественного слушания, фонотеки
2) для «чернового» прослушивания, служебных целей
3) «для Википедии»
4) для обработки звука в реальном времени

Какие именно, почему так, и что с этим делать — читайте ниже!

Чтобы понять, чем один формат отличается от другого, вкратце разберёмся, каким бывает

ЦИФРОВОЙ ЗВУК

ЗВУКОВЫЕ "ПИКСЕЛИ"
Наверняка вам доводилось видеть изображение звуковой волны (например, в программе – редакторе звука). Как и любую картинку, график звука можно записать в цифровом виде, если разбить его на много маленьких кусочков-«пикселей». Чем мельче пиксели, чем их больше по горизонтали и по вертикали, тем качественнее картинка. Только в случае звука по горизонтали у нас откладывается ось времени, а по вертикали – значение сигнала (в реальном звуке, который распространяется по воздуху, значение сигнала – это изменение давления воздушной среды). Каждая секунда звука разбивается на много мельчайших одинаковых отрезков времени, в каждом из которых записывается одно значение сигнала. Число таких отрезков в секунду называется частотой дискретизации. А число возможных градаций значения сигнала определяется разрядностью – этот параметр указывает сколько бит используется для записи одного значения сигнала: чем больше используется бит, тем больше градаций значения можно записать. Например, на нашем рисунке показана разрядность в 4 бит, что даёт 24 = 16 градаций значения.

Рис. 1. Цифровая запись звуковой волны. Зелёная кривая — оригинальный звук, фиолетовые столбики — её цифровая запись в виде отдельных значений сигнала

В результате цифрового представления звуковая волна получает такой вид:

Рис. 2. Цифровое представление звуковой волны

Это, конечно, очень грубая «прорисовка», но если использовать более высокие частоту дискретизации и разрядность, можно сделать «ступенчатость» незаметной нашему уху (так же, как очень маленькие пиксели незаметны глазу).

Частота дискретизации аудио-компакт-диска (Audio CD) – 44 100 герц (значений сигнала в секунду) = 44,1 кГц (килогерц). Этого достаточно, чтобы закодировать все слышимые человеческим ухом частоты. А его разрядность – 16 бит, позволяющая передать 216 = 65 536 градаций значений сигнала.

Специалисты спорят, нужно ли более высокое разрешение для качественного звука. Косвенные данные свидетельствуют, что да. Поэтому существует цифровой звук с более высокими частотами дискретизации – 48, 96, 192, 384 кГц – и разрядностями – 24, 32 бит. Такое высокое разрешение поддерживает формат DVD Audio, многие типы файлов (flac, wav, aiff...), некоторые форматы звука для кино (Dolby TrueHD, DTS-HD Master Audio...).

СЖАТЫЙ И НЕСЖАТЫЙ ЗВУК

Битрейт
Однако, звук даже в качестве Audio CD занимает много места! Это показывает параметр битрейт (bit rate, скорость данных, кбит/с): он сообщает сколько бит (килобит) требуется для записи 1 секунды звука. Для «обычного», несжатого звука узнать битрейт очень просто: нужно умножить разрядность (число бит на 1 значение сигнала) на частоту дискретизации (число значений в секунду) и на количество каналов звука (не забудем, что стереозвук имеет два канала звука — левый и правый, — в каждом из которых звуковая волна записывается отдельно).Используя наш рисунок, битрейт символически можно изобразить так:

Рис. 3. Битрейт несжатого звука (голубая область)

Нетрудно посчитать, что битрейт аудио-компакт-диска – 16 бит × 44 100 Гц × 2 канала = 1 411 200 бит/с = 1 411,2 кбит/с. Это чаще всего верно и для форматов файлов несжатого звука (wav, aiff). Так, секунда несжатого звука занимает ок. 172 кбайт, одна минута – 10 Мбайт, час музыки занимает 606 Мбайт, общий объём звучания звукового CD – 74 мин, т. е. ок. 750 Мбайт.


Как мы это подсчитали?

Главное тут — не перепутать килобит с килобайтом.

Скорость данных традиционно измеряется в килобитах, а хранящийся объём данных — в килобайтах.
1 бит — это элементарная единица цифровой информации — один нолик или единичка.
1 килобит (кбит) = 1000 бит.
1 байт = 8 бит (важно не путать биты и байты).
1 килобайт (кбайт) = 210 = 1024 байта (что то же, что 8192 бита).
1 мегабайт (Мбайт) = 1024 кбайта.

Так, чтобы узнать сколько килобайтов занимает 74 минуты музыки с битрейтом 1 411,2 кбит/с, надо 1 411,2 × 1000 (бит в килобите) ÷ 8 (бит в байте) ÷ 1024 (байт в килобайте) ÷ 1024 (килобайт в мегабайте) × 60 (секунд в минуте) × 74 (минуты) ≈ 747 Мбайт

Как видно, приставки «кило-», «мега-» и пр. для битов и байтов используются по-разному: для битов они означают 1000-кратные единицы, а для байтов — 1024-кратные. Ситуация осложняется тем, что недобросовестные производители устройств хранения данных иногда считают Мбайт как 1000 кбайт, чтобы на упаковке можно было написать большее число. Из-за этого для байтов были придуманы новые названия приставок: «кибибайт», «мебибайт» и т. д., но они не прижились. Конечно, мы посчитали «честные» килобайты, равные степеням двойки.

Производители компакт-дисков указывают их объём как 650 Мбайт (или 700 Мбайт), что, как видим, меньше, чем 74 музыки в формате Audio CD, но при записи звука используется особый режим нанесения данных, позволяющий более плотно «укладывать» биты на дорожки диска.


Поэтому человечество стало искать способ сократить объём файлов, не уменьшая частоту дискретизации и разрядность.

Сжатие с потерями качества звука
В результате исследований выяснилось, что восприятие человека как бы «пропускает» некоторые звуки и отдельные их компоненты, и если их удалить из звукового потока, то слушатель ничего не заметит. Благодаря алгоритму, отбрасывающему «ненужное», удалось достичь впечатляющих степеней сжатия размера файла – в 10 раз и выше! Тем не менее, оказалось, что человеческий мозг – «не дурак» и понимает, что со звуком «что-то не то». Сжатие с потерями даёт более уплощённый, «картонный» звук, теряется прозрачность, детализация звучания, ощущение пространства.

Важную роль играет битрейт, который задаётся создателем звукового файла. Для сжатия с потерями чем выше битрейт, тем качественнее звук, но и тем больше размер файла. Лет 15 назад большинство слушателей музыки устраивал битрейт mp3-файлов в 128–192 кбит/с (десятикратное сжатие). В последнее время наблюдается тенденция к предпочтению более высоких битрейтов (256–320 кбит/с) или других форматов (.ogg, .opus). Продвинутые алгоритмы сжатия используют переменный битрейт: для более сложных фрагментов музыки отводится больше бит, а для более лёгких — меньше, тем самым сохраняется более-менее одинаковое качество в разные моменты звучания.

Сжатие без потерь
Чтобы избежать ухудшения качества, как альтернативу сжатию с потерями стали разрабатывать способы сжатия звуковой информации без потерь. Такое сжатие аналогично архивированию: когда данные упаковываются в архив – файл формата zip, rar и т. д., размер которого меньше исходных данных. Потом его можно распаковать и исходные данные будут точно восстановлены до последнего бита. Но обычные методы архивирования дают весьма небольшую степень сжатия звуковых данных. Поэтому для звука стали разрабатывать специальные алгоритмы, основанные на идее предсказуемости, самоподобии звуковых волн. Такие алгоритмы обычно позволяют сжать файл в 2–3 раза. Итоговый размер файла получается больше, чем при сжатии с потерями, зато с полным сохранением исходного качества.


Звуковые файлы сжатия без потерь (такие, как .flac) можно проигрывать без предварительной распаковки: аудиоплеер распаковывает файл прямо во время проигрывания (впрочем, то же верно и для файлов с потерями). В отличие от «потерьных» форматов, битрейт здесь не так важен: он всё время меняется в зависимости от того, насколько удалось сжать тот или иной фрагмент звука, и, конечно же, не влияет на качество.

ФОРМАТЫ ЗВУКОВЫХ ФАЙЛОВ

Повторим наш изначальный тезис: для всех возможных целей вам достаточно только четыре аудиоформата. Рассмотрим их!

MP3
Самый популярный аудиоформат с наихудшим качеством звука. Формат сжатия с потерями

Как так получилось?
mp3 – исторически первый формат сжатия звука. Он появился и распространился в те далёкие времена, когда компьютерной памяти было мало, а в интернет выходили звонком по телефону. Цифровой звук как таковой был ещё новинкой и бытовал наряду с аналоговыми кассетами. Альтернативой mp3 был только несжатый звук (wav…), занимающий большие объёмы данных. Пользователи были вдохновлены самой возможностью записать на один CD-ROM все альбомы любимого артиста или переслать песню по электронной почте. На голоса скептиков невзыскательные тогда ещё потребители не обратили внимания. Так mp3 вскоре стал самым распространённым форматом хранения звука.


«Я не слышу разницы между качеством mp3 и не-mp3.»

Многие так говорят — до тех пор, пока не послушают одну и ту же фонограмму в несжатом виде (на Audio CD или в wav) и закодированную в mp3.
Разница определяется даже на средней аппаратуре неискушёнными слушателями, и я пока не видел ни одного человека, который бы не согласился с этим после проведения такого опыта. Это косвенно подтверждается и тем, что пользователи постепенно переходят на высокие битрейты: сегодня увеличение объёмов данных уже перестаёт быть проблемой, а слушатели становятся всё более требовательными к качеству.
Действительно, на битрейтах 256–320 кбит/с ухудшение заметить намного сложнее. Тем не менее, при любом сжатии с потерями происходит необратимая деградация звука, которая может стать слышимой, если кодировка в mp3 происходит многократно при каких-то манипуляциях со звуком. Например, вам надо отрезать от песни кусочек или, наоборот, удлинить её повтором какой-то её части, смонтировать звук с другими звуками. Для того, чтобы отредактировать звук, программа-редактор неизбежно распакует его в несжатый вид, при этом потерянные звуковые данные, конечно, не восстановятся. Если после редактирования результат будет заново сконвертирован в mp3, звук будет ухудшен снова. При передаче в эфир по цифровому радио, ТВ, включении в видеоролик (файл небольшого размера), звуковой поток будет заново сжат, и так на каждом этапе звук будет ухудшаться ещё и ещё.

Кроме того, на высоких битрейтах сама идея сжатия с потерями теряет смысл: 320 кбит/с — это всего лишь вчетверо меньше, чем битрейт исходного несжатого звука. Преимущество такой «порчи» данных оказывается слишком маленьким.



FLAC
flac – формат сжатия звука без потерь данных, наиболее популярный среди своих «собратьев». Сжимает размер файла, в зависимости от сложности звуковой информации в 1,4–4 раза (битрейт колеблется от 350 до 1010 кбит/с). Его распространённости способствовал открытый исходный код, позволивший создать огромное число программ, которые с ним работают на всех операционных cистемах.


Flac распространился настолько широко, что даже такие «бронтозавры», как Apple и Microsoft смирились с его существованием и включили поддержку flac в стандартные плееры своих операционных систем, начиная с Windows 10, Mac OS High Sierra, iOS 11. Так что на сегодняшний день файл flac можно проиграть, не устанавливая никаких дополнительных программ. Кроме этого, однако, очень давно существует множество бесплатных плееров для всех операционных систем. Большинство браузеров также поддерживают проигрывание флака, хотя до полной поддержки в интернете ещё далеко; если файл не проигрывается прямо с сайта, лучше скачать его на диск и послушать плеером.

Формат flac имеет множество продвинутых функций. Например, встроенную разметку на треки. Скажем, можно записать четырёхчастную симфонию Бетховена в один файл flac, но если загрузить этот файл в плеер (такой, как Foobar или Vox), то он покажет плейлист из четырёх дорожек, информация о которых содержится внутри файла. Flac поддерживает любую частоту дискретизации и разрядность и имеет множество других полезных особенностей, таких, как возможность интернет-вещания и т. п.

OGG VORBIS
ogg Vorbis – формат сжатия с потерями с несколько лучшим, чем у mp3 качеством звука, свободной лицензией и дополнительными возможностями. Формат ogg создан для звука и видео, причём, возможно использование разных систем кодирования звука (так называемый формат-контейнер). Обычно ogg используется с кодировщиком Vorbis, который при одинаковом битрейте даёт более хорошее качество звучания, чем mp3. Все звуковые примеры на Википедии представлены в этом формате, так как он занимает мало места и соответствует идеологии свободного ПО. Поддерживается большинством интернет-браузеров и множеством плееров. Хорошо себя зарекомендовал как на высоких, так и на самых низких битрейтах, что важно для передачи речи.


В последнее время производитель — фонд Xiph.org – предлагает использовать вместо Vorbis новый свободный кодировщик Opus, который уже имеет поддержку во многих браузерах. Если он получит ещё большее распространение, то рядовые пользователи не заметят «подмены», так как файл, вероятно, будет иметь то же расширение .ogg (хотя существует и отдельное расширение .opus). Впрочем, пока это дело будущего.

WAV (и AIFF)
Старейший звуковой формат, содержащий звук в несжатом виде, аналогичном аудио-компакт-диску. wav был разработан Microsoft в начале 90-х гг. (а формат aiff – Apple в 1988). Форматы wav и aiff идентичны друг другу за исключением некоторых технических деталей, интересных только специалистам. Сейчас оба формата поддерживаются как на Windows, так и на Mac OS, поэтому, в общем, нет абсолютно никакой разницы в их использовании. Единственное отличие: aiff позволяет хранить дополнительную информацию. Разумеется, файлы wav и aiff занимают много места на диске, поэтому хранить в этих форматах фонотеку или использовать их для пересылки по интернету вряд ли стоит.

Однако, wav (и aiff) имеют одно преимущество перед форматами сжатия. Дело в том, что при проигрывании сжатых форматов плеер «на лету» распаковывает его, что требует дополнительных ресурсов процессора. При обычном прослушивании музыки это не имеет значения, нагрузка на процессор всё равно остаётся очень низкой. Но при работе со звуком в реальном времени (сложной обработке звука, создании звуковых коллажей, импровизации, сэмплировании и т. д.) это может стать значимым. Поэтому в несжатых форматах имеет смысл хранить короткие звуки, предназначенные для дальнейшей работы с ними, например, звуковые эффекты.

КАК ПРОИГРАТЬ ВСЕ ЭТИ ФАЙЛЫ И КАК КОНВЕРТИРОВАТЬ В НИХ МУЗЫКУ?

ПРОИГРАТЬ
Как уже говорилось выше, сейчас не существует проблемы проигрывания любого из этих форматов на компьютере и телефоне. Windows Media Player и Itunes играют flac, wav, mp3; браузеры Chrome, Firefox, Safari, Opera (включая их мобильные версии) и многие другие так или иначе поддерживают все четыре формата.


Тем не менее, для удобства, универсальности и избежания каких-то подводных камней, мы рекомендуем установить проверенный (и, разумеется, бесплатный) плеер, корректно играющий все форматы.

Для операционных систем компьютеров мы безусловно рекомендуем Foobar — foobar2000.org: для Windows, Mac, Linux; существуют и мобильные версии: iOS, Android, Win Mobile. Этот крайне удобный плеер с минималистическим интерфейсом обладает огромным числом функций, в частности, понимает встроенную во flac разметку на треки и т. д., и т. п., а с установкой компонентов становится монстром функциональности (редчайшие форматы, запись CD, игра из архива etc.). К сожалению, на Mac компоненты и конвертирование форматов недоступны, однако набор базовых функций фубара, тем не менее, стоит того, чтобы использовать его и в OS X.

Для iOS-устройств мы, всё же, пока рекомендуем VLC как самый удобный «всеформатный» плеер (версия фубара для «яблогаджетов» пока выглядит не столь понятной). Этот плеер подойдёт и любителям экзотических операционных систем (FreeBSD, Solaris…)

Для Mac OS, кроме фубара мы можем порекомендовать Vox — удобный стильный плеер, также читающий «фубаровскую» разметку на треки.

Портативные колонки иногда могут не проигрывать с флэшки ничего, кроме mp3, однако, практически вся портативная акустика сегодня соединяется со смартфонами и ноутбуками по bluetooth, поэтому можно легко решить проблему, проигрывая файлы с телефона или компьютера (см. выше) через колонку по блютус или по кабелю.

КОНВЕРТИРОВАТЬ
Перекодировать музыку из одного формата в другой можно только на компьютерах

Что и куда надо конвертировать
Разумеется, в результате простого изменения формата файла качество звука не может улучшаться: оно может или ухудшаться, или оставаться таким же. Поэтому нет никакого смысла перекодировать mp3 или ogg во flac: потерянные данные уже не вернутся. Но однозначно имеет смысл «пожать» во flac имеющиеся у вас wav-, aiff-файлы и Audio CD. Если малый размер важнее качества, их можно «жать» в форматы с потерями. Распаковывать «сжатые» форматы в wav может быть нужно только, если вы работаете со звуком в реальном времени, и вам надо сократить нагрузку на процессор.

Простое решение для всех ОС
Программы, позволяющие конвертировать звуковой файл в любой другой формат «одним кликом»:

Для любой операционной системы: fre:ac.
Только для Mac:XLD множество форматов, включая opus. Интерфейс почти отсутствует: это только строка меню и окно настроек (Cmd+,), где можно поменять формат выходного файла.

Продвинутое решение для Windows (рекомендуется)
Вы уже поставили Foobar? : ) Вот и прекрасно, вам больше не понадобится никаких программ! Надо только скачать и установить для фубара набор кодировщиков во все форматы. После этого вы сможете просто кодировать в любой формат с любыми настройками прямо из фубара. Что это даёт? А то, что, например, вы можете составить в нём плейлист из любых файлов и дорожек Audio CD в любом сочетании и, например, перекодировать весь плейлист в один файл flac со встроенной разметкой на треки (Embed Cue Sheet). Или сделаете разметку не встроенной, а в отдельном cue-файле. Или просто в процессе кодировки вы добавите собственные метки файлов. При этом фубар сам «сграбит» нужные дорожки с CD и выполнит все промежуточные действия по перекодировке


Для чего это нужно меломану?

Допустим, появился у вас новый альбом из произведений Беата Фуррера в исполнении ансамбля Klangforum Wien. Некоторые из них многочастные. Но у вас уже большая фонотека сочинений Фуррера, причём, вам нужно видеть именно сочинения, а не альбомы (так как на альбомах могут быть собраны совершенно разные произведения (и даже разных композиторов), и некоторые из них могут дублироваться на разных альбомах). Загружаете все дорожки диска в Foobar и конвертируете каждое отдельное сочинение в отдельный flac-файл, при этом, если одно сочинение занимает, скажем, три дорожки, конвертируете все три дорожки в один файл со встроенной разметкой. На выходе получается ровно столько flac-файлов, сколько у вас на альбоме произведений (но меньше, чем дорожек диска, что удобно). Таким же образом же можно конвертировать из других файлов. Так происходит не только собственно конвертация, но и удобная организация, рубрикация файлов.


CD
Кстати, о компакт-дисках. Важно понимать, что CD бывают двух типов: звуковой Audio CD (Compact Disc Digital Audio, CD-DA) и диск с данными (CD-ROM).

На CD-DA записывается только несжатый звук в разрешении 44,1 кГц, 16 бит. При этом звуковые дорожки не организованы в файлы, а представляют собой сплошной поток битов (ноликов и единичек).
На CD-ROM данные организованы в файлах. К типу CD-ROM относятся и диски с музыкальными записями в mp3. То есть с mp3-диска музыку можно просто переписать, открыв диск как папку на компьютере и переместив файлы на жёсткий диск. А вот с CD-DA так сделать нельзя: чтобы переписать дорожки звукового диска на компьютер, нужна специальная процедура по превращению дорожек в файлы – «граб» или «риппинг».

Foobar и fre:ac умеют делать «рип» CD-DA самостоятельно, заодно конвертируя дорожки в заданный вами формат файлов.Тем не менее, дотошные пользователи рекомендуют «грабить» только программой EAC, которая делает это наиболее аккуратно, стараясь не потерять ни одного бита с компакт-диска (и, кстати, умеет конвертировать в разные аудиоформаты).

Пользователям Mac OS никакой отдельный риппер не нужен, так как он встроен в операционную систему, и рип выполняется автоматически. Поэтому для «маководов» весь процесс выглядит как переписывание файлов из одной папки в другую, при этом дорожки диска превращаются в файлы aiff, которые затем можно конвертировать во что угодно с помощью XLD.


ПРАКТИКУМ

Для примера мы взяли маленький кусочек Вступления из «Семи хайку» Оливье Мессиана в исполнении Пьера Булеза. Все аудиозаписи имеют разрешение 44,1 кГц, 16 бит.Качество Audio CDВ файлах wav и flac содержатся одни и те же аудиоданные, но вы можете сравнить размер.

Качество Audio CD
В файлах wav и flac содержатся одни и те же аудиоданные, но вы можете сравнить размер.

Messiaen-Haikai.flac (1,4 МБ)
Messiaen-Haikai.wav (2,7 МБ)

Сжатие с потерями
Для сравнения представим оба формата: mp3 и ogg Vorbis.Оба файла кодируются с переменным или усреднённым битрейтом, так что приводимые ниже значения являются ожидаемым средним.

Конвертер – XLD, mp3 конвертируется через кодировщик LAME (Stereo Mode: Auto) , ogg — через кодировщик Vorbis в версии aoTuV, Release 1

256 кбит/с (в среднем)
Считается, что при таком битрейте сложно заметить разницу с качеством CD-DA.

Messiaen-Haikai-257-kbps-(ABR).mp3 (521 кБ)
Messiaen-Haikai-255-kbps.ogg (518 кБ)

135–136 кбит/с
Ухудшение уже гораздо заметнее, при этом ogg демонстрирует намного лучшие результаты.

Messiaen-Haikai-136-kbps.mp3 (276 кБ)
Messiaen-Haikai-135-kbps.ogg (275 кБ)

35–36 кбит/с
Такое сильное сжатие подходит только для речи, и здесь преимущества Vorbis особенно хорошо слышны.

Messiaen-Haikai-35-kbps-(ABR).mp3 (71 кБ)
Messiaen-Haikai-36-kbps.ogg (73 кБ)


ЗАКЛЮЧЕНИЕ

Конечно, мир гораздо разнообразнее, и в реальности вам может встретиться больше, чем 4 аудиоформата и 5 программ. Технологии не стоят на месте; вполне возможно, что новый кодек Opus со временем вытеснит и Vorbis, и mp3. Играют роль и бизнес-интересы разных компаний, которые по коммерческим соображениям продвигают свои форматы (wma, m4a и т. д.); из-за «войны форматов» некоторые из них могут не проигрываться, не конвертироваться на «чужих» платформах или требовать дополнительных ухищрений. Практика, однако, показывает, что свободные форматы всё больше завоёвывают достойное место и становятся как бы «зоной согласия» для всех платформ, так как они не обременены патентными ограничениями.

Надеемся, что эта статья сделает ваше «общение» с цифровым звуком намного легче; вы сможете умело и быстро «управляться» со звуковыми файлами, а на технические детали тратить намного меньше времени, чем на чтение этого текста. : )