MP3
Dosya adı uzantısı | .mp3 .bit (1995'ten önce) |
---|---|
İnternet medya türü |
|
Tarafından geliştirilmiştir | Karlheinz Brandenburg, Ernst Eberlein, Heinz Gerhäuser, Bernhard Grill, Jürgen Herre ve Harald Popp (hepsi Fraunhofer Topluluğu'ndan) ve diğerleri |
İlk sürüm | 6 Aralık 1991; 31 yıl önce |
Son sürüm | ISO/IEC 13818-3:1998 Nisan 1998; 24 yıl önce |
Format türü | Kayıplı ses |
Tarafından muhafaza | MPEG-ES |
Standartlar |
|
Açık format mı? | Evet |
Ücretsiz format? | Süresi dolmuş patentler |
MP3 (resmi olarak MPEG-1 Audio Layer III veya MPEG-2 Audio Layer III), büyük ölçüde Almanya'daki Fraunhofer Topluluğu tarafından geliştirilen ve Amerika Birleşik Devletleri ve başka yerlerdeki diğer dijital bilim adamlarının desteğiyle dijital ses için bir kodlama formatıdır. Başlangıçta MPEG-1 standardının üçüncü ses formatı olarak tanımlanmış, daha sonraki MPEG-2 standardının üçüncü ses formatı olarak ek bit hızları ve daha fazla ses kanalı desteği tanımlanarak korunmuş ve daha da genişletilmiştir. MPEG 2.5 olarak bilinen üçüncü bir sürüm - daha düşük bit hızlarını daha iyi desteklemek için genişletilmiştir - yaygın olarak uygulanmaktadır, ancak tanınmış bir standart değildir. ⓘ
Bir dosya biçimi olarak MP3 (ya da mp3) genellikle MP3 standardının diğer karmaşıklıkları olmaksızın MPEG-1 Ses ya da MPEG-2 Ses kodlu verilerin temel akışını içeren dosyaları tanımlar. ⓘ
Ses sıkıştırma ile ilgili olarak (standardın son kullanıcılar için en belirgin ve en iyi bilinen yönü) MP3, kesin olmayan yaklaşımlar ve verilerin kısmi olarak atılmasını kullanarak verileri kodlamak için kayıplı veri sıkıştırma kullanır. Bu, sıkıştırılmamış sese kıyasla dosya boyutlarında büyük bir azalma sağlar. Küçük boyut ve kabul edilebilir doğruluk kombinasyonu, 1990'ların ortalarından sonlarına kadar İnternet üzerinden müzik dağıtımında bir patlamaya yol açtı ve MP3, bant genişliği ve depolamanın hala birinci sınıf olduğu bir zamanda etkinleştirici bir teknoloji olarak hizmet etti. MP3 formatı kısa süre içinde telif hakkı ihlali, müzik korsanlığı ve MP3.com ve Napster gibi dosya kopyalama/paylaşma hizmetleriyle ilgili tartışmalarla ilişkilendirildi. Akıllı telefonları da içeren bir ürün kategorisi olan taşınabilir medya oynatıcıların ortaya çıkmasıyla MP3 desteği neredeyse evrensel olmaya devam etmektedir. ⓘ
MP3 sıkıştırma, (psikoakustik analizle) çoğu insanın işitme kapasitesinin ötesinde olduğu düşünülen belirli ses bileşenlerinin doğruluğunu azaltarak (veya yaklaşık olarak) çalışır. Bu yöntem genellikle algısal kodlama veya psikoakustik modelleme olarak adlandırılır. Kalan ses bilgileri daha sonra MDCT ve FFT algoritmaları kullanılarak alan verimli bir şekilde kaydedilir. CD kalitesinde dijital ses ile karşılaştırıldığında, MP3 sıkıştırma genellikle boyutta %75 ila %95 oranında bir azalma sağlayabilir. Örneğin, 128 kbit/s sabit bit hızında kodlanmış bir MP3, orijinal CD sesinin yaklaşık %9'u boyutunda bir dosya ile sonuçlanacaktır. 2000'li yılların başında, kompakt disk çalarlar MP3 dosyalarının veri CD'lerinde çalınması desteğini giderek daha fazla benimsemiştir. ⓘ
Moving Picture Experts Group (MPEG), MP3'ü MPEG-1 ve daha sonra MPEG-2 standartlarının bir parçası olarak tasarlamıştır. MPEG-1 Ses Katmanı I, II ve III'ü içeren MPEG-1 Ses (MPEG-1 Bölüm 3), 1991 yılında bir ISO/IEC standardı için komite taslağı olarak onaylanmış, 1992 yılında son haline getirilmiş ve 1993 yılında ISO/IEC 11172-3:1993 olarak yayınlanmıştır. Daha düşük örnekleme ve bit hızlarına sahip bir MPEG-2 Ses (MPEG-2 Bölüm 3) uzantısı 1995 yılında ISO/IEC 13818-3:1995 olarak yayınlanmıştır. Mevcut MPEG-1 kod çözücülerinde yalnızca minimum değişiklik gerektirir (başlıktaki MPEG-2 bitinin tanınması ve yeni düşük örnek ve bit hızlarının eklenmesi). ⓘ
MP3 (okunuşu Türkçe: me-pe-üç veya İngilizce: em-pi-tri, açılımı MPEG-1 Audio Layer III) (Film Uzmanlar Grubu Ses Katmanı 3) olan sıkıştırılmış ses biçimi ve bu biçimde kaydedilen seslere verilen ad. Fraunhofer-Institute tarafından geliştirilmiştir. Sayısal hale getirilmiş sesler üzerinden insan kulağının duyamayacağı titreşimlerin silinmesi yöntemine dayanır. ⓘ
MP3 kelimesi, MPEG Layer 3'ün kısaltmasından oluşmuştur. (MPEG=Motion Pictures Experts Group). MP3 formatı disk alanından tasarruf sağlanması amacıyla ortaya çıkmıştır. Sıkıştırma algoritmaları geliştirilmeden önce bilgisayarlarda ses örnekleri .wav, .pcm, .voc, .au, .snd gibi biçimlerde saklanırdı ki bu formatlar sesi depolarken insan kulağının işitemeyeceği ses frekanslarını da depolayarak dosyanın şişmesine yol açarlar. Bu biçimlerde CD kalitesinde 3-5 dakikalık bir ses kaydının saklanabilmesi için 50 ila 70 megabayt arasında bir sabit disk alanı gerekmektedir. ⓘ
Tarihçe
Arka plan
MP3 kayıplı ses verisi sıkıştırma algoritması, işitsel maskeleme adı verilen insan işitme duyusunun algısal bir sınırlamasından yararlanır. 1894 yılında Amerikalı fizikçi Alfred M. Mayer, bir tonun daha düşük frekanslı başka bir ton tarafından duyulamaz hale getirilebileceğini bildirmiştir. 1959 yılında Richard Ehmer, bu fenomenle ilgili eksiksiz bir işitsel eğriler seti tanımlamıştır. 1967 ve 1974 yılları arasında Eberhard Zwicker, Harvey Fletcher ve Bell Laboratuvarlarındaki işbirlikçilerinin bu alandaki temel araştırmaları üzerine inşa edilen kritik frekans bantlarının ayarlanması ve maskelenmesi alanlarında çalışmalar yapmıştır. ⓘ
Algısal kodlama ilk olarak 1966 yılında Fumitada Itakura (Nagoya Üniversitesi) ve Shuzo Saito'nun (Nippon Telegraph and Telephone) çalışmalarına dayanan doğrusal öngörülü kodlama (LPC) ile konuşma kodlama sıkıştırması için kullanılmıştır. 1978 yılında Bell Labs'de Bishnu S. Atal ve Manfred R. Schroeder, insan kulağının maskeleme özelliklerinden yararlanan psikoakustik bir kodlama-algoritması kullanan uyarlanabilir öngörülü kodlama adı verilen bir LPC konuşma kodekini önerdiler. Schroeder ve Atal'ın J.L. Hall ile birlikte yaptıkları daha ileri optimizasyon çalışmaları daha sonra 1979 tarihli bir makalede rapor edilmiştir. Aynı yıl, konuşma için donanım yayınlayan ve üreten (müzik bit sıkıştırması olarak kullanılamaz) M. A. Krasner tarafından da bir psikoakustik maskeleme codec'i önerildi, ancak sonuçlarının nispeten belirsiz bir Lincoln Laboratuvarı Teknik Raporunda yayınlanması, psikoakustik codec geliştirmenin ana akımını hemen etkilemedi. ⓘ
Nasir Ahmed tarafından 1972 yılında önerilen ve kayıplı sıkıştırma için bir tür dönüşüm kodlaması olan ayrık kosinüs dönüşümü (DCT), Ahmed tarafından T. Natarajan ve K. R. Rao ile birlikte 1973 yılında geliştirildi; sonuçlarını 1974 yılında yayınladılar. Bu, Princen ve Bradley'in 1986'daki önceki çalışmalarını takiben 1987'de J. P. Princen, A. W. Johnson ve A. B. Bradley tarafından önerilen değiştirilmiş ayrık kosinüs dönüşümünün (MDCT) geliştirilmesine yol açtı. MDCT daha sonra MP3 algoritmasının temel bir parçası haline gelmiştir. ⓘ
Ernst Terhardt ve arkadaşları 1982 yılında işitsel maskelemeyi yüksek doğrulukla tanımlayan bir algoritma oluşturmuştur. Bu çalışma, Fletcher'a kadar uzanan yazarların çeşitli raporlarına ve başlangıçta kritik oranları ve kritik bant genişliklerini belirleyen çalışmaya eklendi. ⓘ
1985 yılında Atal ve Schroeder, zamanına göre önemli bir veri sıkıştırma oranı elde eden işitsel maskelemeli LPC tabanlı bir algısal konuşma kodlama algoritması olan kod uyarımlı doğrusal tahmini (CELP) sundu. IEEE'nin hakemli Journal on Selected Areas in Communications dergisi 1988 yılında çok çeşitli (çoğunlukla algısal) ses sıkıştırma algoritmaları hakkında rapor vermiştir. Şubat 1988'de yayınlanan "İletişim için Ses Kodlaması" sayısı, bazıları temel tasarımlarının bir parçası olarak işitsel maskelemeyi kullanan ve birkaçı gerçek zamanlı donanım uygulamalarını gösteren çok çeşitli yerleşik, çalışan ses biti sıkıştırma teknolojileri hakkında rapor verdi. ⓘ
Gelişim
MP3 teknolojisinin doğuşu, birkaç yıl boyunca ISO MPEG Audio grubuna başkanlık eden Profesör Hans Musmann'ın bir makalesinde tam olarak açıklanmaktadır. Aralık 1988'de MPEG bir ses kodlama standardı için çağrıda bulundu. Haziran 1989'da 14 ses kodlama algoritması sunuldu. Bu kodlama önerileri arasındaki bazı benzerlikler nedeniyle, dört geliştirme grubunda toplandılar. İlk grup Fraunhofer Gesellschaft, AT&T, France Telecom, Deutsche ve Thomson-Brandt tarafından oluşturulan ASPEC idi. İkinci grup Matsushita, CCETT, ITT ve Philips tarafından oluşturulan MUSICAM idi. Üçüncü grup Fujitsu, JVC, NEC ve Sony tarafından geliştirilen ATAC (ATRAC Coding) idi. Dördüncü grup ise NTT ve BTRL tarafından geliştirilen SB-ADPCM idi. ⓘ
MP3'ün hemen öncülleri "Frekans Alanında Optimum Kodlama" (OCF) ve Algısal Dönüşüm Kodlaması (PXFM) idi. Bu iki kodek, Thomson-Brandt'ın blok anahtarlama katkılarıyla birlikte, MPEG'ye sunulan ve kalite yarışmasını kazanan, ancak uygulanması çok karmaşık olduğu için yanlışlıkla reddedilen ASPEC adlı bir kodek içinde birleştirildi. Bir ses algısal kodlayıcının (OCF) donanımdaki ilk pratik uygulaması (Krasner'in donanımı pratik kullanım için çok hantal ve yavaştı), Motorola 56000 DSP çiplerine dayalı bir psikoakustik dönüşüm kodlayıcısının bir uygulamasıydı. ⓘ
MP3 formatının ve teknolojisinin bir diğer öncülü, psikoakustik bir model tarafından yönlendirilen bir tamsayı aritmetiği 32 alt bant filtre bankasına dayanan algısal kodek MUSICAM'da bulunabilir. Öncelikle Dijital Ses Yayını (dijital radyo) ve dijital TV için tasarlanmıştır ve temel prensipleri 1989'dan beri Matsushita ve Philips ile MUSICAM üzerinde çalıştıktan sonra 1991'de Atlanta'da IEEE-ICASSP konferansı sırasında CCETT (Fransa) ve IRT (Almanya) tarafından bilim camiasına açıklanmıştır. ⓘ
COFDM modülasyonu kullanan bir yayın sistemine dahil edilen bu kodek, 1991 yılında NAB şovu (Las Vegas) sırasında Radio Canada ve CRC Canada ile yayında ve sahada gösterildi. Bu yayın sisteminin ses kısmının uygulanması iki çipli bir kodlayıcıya (biri alt bant dönüşümü için, diğeri G. Stoll (IRT Almanya) ekibi tarafından tasarlanan ve daha sonra psikoakustik model I olarak bilinen psikoakustik model için) ve Y.F. Dehery'nin ekibi (CCETT, Fransa) tarafından tasarlanan bir tamsayı aritmetik yazılımı çalıştıran bir Motorola 56001 DSP çipi kullanan gerçek zamanlı bir kod çözücüye dayanıyordu. İlgili kod çözücünün basitliği ve ilk kez 48 kHz örnekleme frekansı, 20 bit/örnek giriş formatı (1991'de mevcut en yüksek örnekleme standardı, AES/EBU profesyonel dijital giriş stüdyo standardı ile uyumlu) kullanan bu kod çözücünün yüksek ses kalitesi, daha sonra MUSICAM'ın özelliklerinin gelişmiş bir dijital müzik sıkıştırma kod çözücüsü için temel özellikler olarak benimsenmesinin ana nedenleriydi. ⓘ
MUSICAM kodlama yazılımının geliştirilmesi sırasında Stoll ve Dehery'nin ekibi, Avrupa Yayın Birliği'nden bir grup ses uzmanı tarafından seçilen ve daha sonra müzik sıkıştırma kodeklerinin değerlendirilmesi için referans olarak kullanılan bir dizi yüksek kaliteli ses değerlendirme materyalinden kapsamlı bir şekilde yararlanmıştır. Alt bant kodlama tekniğinin, sadece yüksek kaliteli ses materyallerinin algısal kodlaması için değil, aynı zamanda MUSICAM alt bant filtre bankasının özel zamansal maskeleme etkisi nedeniyle (bu avantaj kısa dönüşüm kodlama tekniklerinin belirli bir özelliğidir) özellikle kritik vurmalı ses materyallerinin (davul, üçgen,...) kodlanması için verimli olduğu bulunmuştur. ⓘ
Karlheinz Brandenburg, Almanya'nın Erlangen-Nuremberg Üniversitesi'nde doktora öğrencisi olarak 1980'lerin başında dijital müzik sıkıştırma üzerine çalışmaya başladı ve insanların müziği nasıl algıladığına odaklandı. Doktora çalışmasını 1989 yılında tamamladı. MP3 doğrudan OCF ve PXFM'den türemiştir ve AT&T-Bell Labs'da James D. Johnston ("JJ") ile doktora sonrası araştırmacı olarak çalışan Brandenburg'un Erlangen'deki Fraunhofer Institute for Integrated Circuits (Bernhard Grill ve diğer dört araştırmacı ile birlikte çalıştığı yer - "The Original Six") ile psikoakustik alt bant kodlayıcıların MP2 dalından nispeten küçük katkılarla yaptığı işbirliğinin sonucunu temsil etmektedir. Brandenburg 1990 yılında Erlangen-Nürnberg'de yardımcı doçent oldu. Oradayken, Fraunhofer Topluluğu'nun Heinrich Herz Enstitüsü'ndeki bilim insanlarıyla müzik sıkıştırma üzerine çalışmaya devam etti. 1993 yılında Fraunhofer HHI'nin kadrosuna katıldı. Suzanne Vega'nın "Tom's Diner" adlı şarkısı Karlheinz Brandenburg tarafından MP3 formatını geliştirmek için kullanılan ilk şarkıydı. Brandenburg bu şarkıyı test amaçlı olarak benimsedi ve şemayı her geliştirdiğinde tekrar tekrar dinleyerek Vega'nın sesinin inceliğini olumsuz etkilemediğinden emin oldu. Bu nedenle Vega'ya "MP3'ün Annesi" lakabını taktı. ⓘ
Standartlaştırma
1991 yılında, bir MPEG ses standardı için değerlendirilen iki mevcut öneri vardı: MUSICAM (Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) ve ASPEC (Adaptive Spectral Perceptual Entropy Coding). Philips (Hollanda), CCETT (Fransa), Institute for Broadcast Technology (Almanya) ve Matsushita (Japonya) tarafından önerilen MUSICAM tekniği, basitliği ve hataya karşı dayanıklılığının yanı sıra yüksek düzeyde hesaplama verimliliği nedeniyle seçilmiştir. Alt bant kodlamaya dayanan MUSICAM formatı, MPEG Ses sıkıştırma formatının temelini oluşturmuş ve örneğin çerçeve yapısı, başlık formatı, örnekleme oranları vb. gibi özellikleri bünyesinde barındırmıştır. ⓘ
MUSICAM teknolojisi ve fikirlerinin çoğu MPEG Ses Katman I ve Katman II'nin tanımına dahil edilirken, MUSICAM'ın tek başına filtre bankası ve 1152 örnek çerçevelemeye dayalı veri yapısı (dosya formatı ve bayt odaklı akış), hesaplama açısından verimsiz hibrit filtre bankasının bir parçası olarak Katman III (MP3) formatında kaldı. Hannover Leibniz Üniversitesi'nden Profesör Musmann'ın başkanlığında, standardın düzenlenmesi Katman I ve Katman II üzerinde çalışan Leon van de Kerkhof (Hollanda), Gerhard Stoll (Almanya) ve Yves-François Dehery'ye (Fransa) devredildi. ASPEC, AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society ve CNET'in ortak önerisiydi. En yüksek kodlama verimliliğini sağlıyordu. ⓘ
Van de Kerkhof, Stoll, Leonardo Chiariglione (CSELT Medya Başkan Yardımcısı), Yves-François Dehery, Karlheinz Brandenburg (Almanya) ve James D. Johnston'dan (Amerika Birleşik Devletleri) oluşan bir çalışma grubu ASPEC'ten fikirler aldı, Katman II'deki filtre bankasını entegre etti, MUSICAM'ın ortak stereo kodlaması gibi bazı kendi fikirlerini ekledi ve 128 kbit/s'de 192 kbit/s'de MP2 ile aynı kaliteyi elde etmek için tasarlanan MP3 formatını yarattı. ⓘ
MPEG-1 Audio Layer I, II ve III algoritmaları 1991 yılında onaylanmış ve MPEG'in ilk standart paketi olan MPEG-1'in bir parçası olarak 1992 yılında son halini almıştır. 1993 yılında yayınlanan uluslararası standart ISO/IEC 11172-3 (MPEG-1 Audio veya MPEG-1 Part 3 olarak da bilinir) ile sonuçlanmıştır. Bu standarda uygun dosyalar veya veri akışları 48k, 44100 ve 32k örnekleme hızlarını işlemelidir ve mevcut MP3 çalarlar ve kod çözücüler tarafından desteklenmeye devam etmektedir. Böylece MP3'ün ilk nesli, MP3 çerçeve veri yapılarının ve boyut düzenlerinin 14 × 3 = 42 yorumunu tanımladı. ⓘ
MPEG ses üzerine daha fazla çalışma 1994 yılında MPEG standartlarının ikinci paketi olan MPEG-2'nin bir parçası olarak tamamlandı, daha resmi olarak uluslararası standart ISO/IEC 13818-3 (diğer adıyla MPEG-2 Bölüm 3 veya geriye dönük uyumlu MPEG-2 Ses veya MPEG-2 Ses BC) olarak bilinir ve ilk olarak 1995 yılında yayınlandı. MPEG-2 Bölüm 3 (ISO/IEC 13818-3) MPEG-1 Ses Katmanı I, II ve III için 42 ek bit hızı ve örnekleme hızı tanımlamıştır. Yeni örnekleme hızları, MPEG-1 Audio'da orijinal olarak tanımlananların tam yarısıdır. Örnekleme hızındaki bu azalma, mevcut frekans doğruluğunu yarıya indirirken aynı zamanda bit hızını da %50 oranında düşürmektedir. MPEG-2 Bölüm 3 ayrıca MPEG-1'in ses özelliğini ikiden fazla kanallı ses programlarının 5.1 çok kanallıya kadar kodlanmasına izin vererek geliştirmiştir. MPEG-2 ile kodlanmış bir MP3, piyano ve şarkı için uygun olan MPEG-1'in bant genişliğinin yarısı kadar ses üretir. ⓘ
Üçüncü nesil "MP3" tarzı veri akışları (dosyaları) MPEG-2 fikirlerini ve uygulamasını genişletti, ancak MPEG-3 zaten farklı bir anlama sahip olduğundan MPEG-2.5 ses olarak adlandırıldı. Bu genişletme, MP3'ün tescilli patent sahipleri olan Fraunhofer IIS'de, MP3 başlığındaki çerçeve senkronizasyon alanını 12 bitten 11 bite düşürerek geliştirilmiştir. MPEG-1'den MPEG-2'ye geçişte olduğu gibi, MPEG-2.5, MPEG-2 kullanılarak kullanılabilenlerin tam yarısı kadar ek örnekleme oranları ekler. Böylece MP3'ün kapsamını insan konuşmasını ve diğer uygulamaları içerecek şekilde genişletir, ancak MPEG-1 örnekleme oranları kullanılarak mümkün olan bant genişliğinin (frekans üretimi) yalnızca %25'ini gerektirir. ISO tarafından tanınan bir standart olmasa da MPEG-2.5, hem ucuz Çin malı hem de marka dijital ses çalarların yanı sıra bilgisayar yazılımı tabanlı MP3 kodlayıcılar (LAME), kod çözücüler (FFmpeg) ve oynatıcılar (MPC) tarafından 3 × 8 = 24 ek MP3 çerçeve türü eklenerek yaygın olarak desteklenmektedir. Böylece her MP3 nesli, toplam 9 çeşit MP3 formatlı dosya için bir önceki neslin tam yarısı kadar 3 örnekleme oranını destekler. MPEG-1, 2 ve 2.5 arasındaki örnekleme hızı karşılaştırma tablosu makalenin ilerleyen bölümlerinde verilmiştir. MPEG-2.5, LAME (2000'den beri), Media Player Classic (MPC), iTunes ve FFmpeg tarafından desteklenmektedir. ⓘ
MPEG-2.5 MPEG tarafından geliştirilmemiştir (yukarıya bakın) ve hiçbir zaman uluslararası bir standart olarak onaylanmamıştır. Dolayısıyla MPEG-2.5, MP3 formatının resmi olmayan ya da tescilli bir uzantısıdır. Yine de her yerde bulunur ve özellikle düşük bit oranlı insan konuşması uygulamaları için avantajlıdır. ⓘ
Versiyon | Uluslararası Standart | İlk baskının halka açık çıkış tarihi | Son sürüm genel yayın tarihi |
---|---|---|---|
MPEG-1 Ses Katmanı III | ISO/IEC 11172-3 (MPEG-1 Bölüm 3) | 1993 | |
MPEG-2 Ses Katmanı III | ISO/IEC 13818-3 (MPEG-2 Bölüm 3) | 1995 | 1998 |
MPEG-2.5 Ses Katmanı III | standart dışı, tescilli | 2000 | 2008 |
- ISO standardı ISO/IEC 11172-3 (diğer adıyla MPEG-1 Audio) üç format tanımlamıştır: MPEG-1 Audio Layer I, Layer II ve Layer III. ISO standardı ISO/IEC 13818-3 (diğer adıyla MPEG-2 Audio) MPEG-1 Audio'nun genişletilmiş versiyonunu tanımlamıştır: MPEG-2 Audio Layer I, Layer II ve Layer III. MPEG-2 Ses (MPEG-2 Bölüm 3) MPEG-2 AAC (MPEG-2 Bölüm 7 - ISO/IEC 13818-7) ile karıştırılmamalıdır. ⓘ
Kodlayıcıların sıkıştırma verimliliği tipik olarak bit oranı ile tanımlanır, çünkü sıkıştırma oranı giriş sinyalinin bit derinliğine ve örnekleme oranına bağlıdır. Bununla birlikte, sıkıĢtırma oranları sıklıkla yayınlanmaktadır. Referans olarak Compact Disc (CD) parametrelerini (44,1 kHz, kanal başına 16 bitte 2 kanal veya 2×16 bit) veya bazen Digital Audio Tape (DAT) SP parametrelerini (48 kHz, 2×16 bit) kullanabilirler. Bu son referansla sıkıştırma oranları daha yüksektir, bu da kayıplı kodlayıcılar için sıkıştırma oranı teriminin kullanılmasındaki sorunu göstermektedir. ⓘ
Karlheinz Brandenburg, MP3 sıkıştırma algoritmasını değerlendirmek ve iyileştirmek için Suzanne Vega'nın "Tom's Diner" adlı şarkısının CD kaydını kullanmıştır. Bu şarkı, neredeyse tek sesli yapısı ve geniş spektral içeriği nedeniyle seçilmiştir, bu da oynatma sırasında sıkıştırma formatındaki kusurları duymayı kolaylaştırır. Bu özel parça, iki kanalın neredeyse aynı olması, ancak tamamen aynı olmaması nedeniyle ilginç bir özelliğe sahiptir, bu da kodlayıcı durumu doğru bir şekilde tanımazsa ve MPEG-2 AAC psikoakustik modelinde ayrıntılı olarak açıklananlara benzer düzeltmeler uygulamazsa, Binaural Maskeleme Seviyesi Depresyonunun gürültü eserlerinin uzamsal olarak maskelenmesine neden olduğu bir duruma yol açar. Bazı daha kritik ses alıntıları (glockenspiel, üçgen, akordeon, vb.) EBU V3/SQAM referans kompakt diskinden alınmış ve profesyonel ses mühendisleri tarafından MPEG Ses formatlarının öznel kalitesini değerlendirmek için kullanılmıştır. LAME en gelişmiş MP3 kodlayıcıdır. LAME, bir bit hızı hedefi yerine bir kalite parametresi kullanan bir VBR değişken bit hızı kodlaması içerir. Daha sonraki sürümler (2008+), yalnızca 5512 Hz bant genişliği çözünürlüğüne ihtiyaç duyan insan konuşması kayıtları için uygun olarak MPEG-2 veya MPEG-2.5 örnekleme hızlarını otomatik olarak seçen bir n.nnn kalite hedefini destekler. ⓘ
Halka açılıyor
C dilinde yazılmış ve daha sonra ISO 11172-5 olarak bilinen bir referans simülasyon yazılımı uygulaması, bit uyumlu MPEG Ses dosyaları (Katman 1, Katman 2, Katman 3) üretmek için ISO MPEG Ses komitesi üyeleri tarafından (1991-1996 yılları arasında) geliştirilmiştir. Mart 1994'te ISO/IEC teknik raporunun bir komite taslağı olarak onaylanmış ve Nisan 1994'te CD 11172-5 belgesi olarak basılmıştır. Kasım 1994'te taslak teknik rapor (DTR/DIS) olarak onaylanmış, 1996'da son halini almış ve 1998'de uluslararası standart ISO/IEC TR 11172-5:1998 olarak yayınlanmıştır. C dilindeki referans yazılım daha sonra serbestçe kullanılabilen bir ISO standardı olarak yayınlanmıştır. Bir dizi işletim sistemi üzerinde gerçek zamanlı olmayan bir şekilde çalışan bu yazılım, sıkıştırılmış sesin ilk gerçek zamanlı donanım kod çözme işlemini (DSP tabanlı) gerçekleştirmiştir. MPEG Audio kodlayıcı ve kod çözücülerinin diğer bazı gerçek zamanlı uygulamaları, tüketici alıcıları ve set üstü kutulara yönelik dijital yayın (radyo DAB, televizyon DVB) amacıyla mevcuttu. ⓘ
7 Temmuz 1994'te Fraunhofer Topluluğu, l3enc adı verilen ilk yazılım MP3 kodlayıcısını piyasaya sürdü. Dosya adı uzantısı .mp3 Fraunhofer ekibi tarafından 14 Temmuz 1995'te seçildi (daha önce dosyalar .bit olarak adlandırılıyordu). İlk gerçek zamanlı yazılım MP3 oynatıcısı WinPlay3 (9 Eylül 1995'te piyasaya sürüldü) ile birçok kişi MP3 dosyalarını bilgisayarlarında kodlayıp oynatabildi. Dönemin nispeten küçük sabit diskleri (≈500-1000 MB) nedeniyle, birden fazla albüm değerindeki müziği ev bilgisayarında tam kayıt olarak saklamak için kayıplı sıkıştırma gerekliydi (MIDI notasyonunun veya notasyonu tek nota çalan enstrümanların kısa kayıtlarıyla birleştiren tracker dosyalarının aksine). ⓘ
Fraunhofer örnek uygulaması
SoloH adlı bir hacker, "dist10" MPEG referans uygulamasının kaynak kodunu, Erlangen Üniversitesi'nin sunucularında yayınlanmasından kısa bir süre sonra keşfetti. Daha yüksek kaliteli bir versiyon geliştirdi ve bunu internette yaydı. Bu kod, yaygın CD kopyalama ve internet üzerinden MP3 olarak dijital müzik dağıtımını başlattı. ⓘ
İnternet dağıtımı
1990'ların ikinci yarısında MP3 dosyaları, genellikle yeraltı korsan şarkı ağları aracılığıyla İnternet'te yayılmaya başladı. İnternet dağıtımında bilinen ilk deney 1990'ların başında daha çok IUMA kısaltmasıyla bilinen Internet Underground Music Archive tarafından organize edildi. Sıkıştırılmamış ses dosyalarını kullanan bazı deneylerden sonra bu arşiv, MP2 (Katman II) formatını kullanan bazı sıkıştırılmış MPEG Ses dosyalarını dünya çapında düşük hızlı İnternet üzerinden dağıtmaya başladı ve daha sonra standart tamamen tamamlandığında MP3 dosyalarını kullandı. MP3'lerin popülaritesi, Nullsoft'un 1997'de piyasaya sürülen ses oynatıcısı Winamp'ın ortaya çıkmasıyla hızla artmaya başladı. 1998 yılında, merkezi Seul, Güney Kore'de bulunan SaeHan Information Systems tarafından geliştirilen ilk taşınabilir katı hal dijital ses çalar MPMan piyasaya sürüldü ve ardından RIAA'nın yasal engelleme çabalarına rağmen 1998 yılında Rio PMP300 satıldı. ⓘ
Kasım 1997'de mp3.com adlı web sitesi bağımsız sanatçılar tarafından oluşturulan binlerce MP3'ü ücretsiz olarak sunuyordu. MP3 dosyalarının küçük boyutu, daha önce neredeyse imkansız olan CD'lerden kopyalanan müziğin yaygın eşler arası dosya paylaşımını mümkün kıldı. İlk büyük eşler arası dosya paylaşım ağı olan Napster 1999 yılında kuruldu. MP3 oluşturma ve paylaşma kolaylığı yaygın telif hakkı ihlallerine yol açtı. Büyük plak şirketleri bu ücretsiz müzik paylaşımının satışları düşürdüğünü savundu ve bunu "müzik korsanlığı" olarak adlandırdı. Bu duruma, sonunda kapatılan ve daha sonra satılan Napster'a ve dosya paylaşımı yapan bireysel kullanıcılara karşı davalar açarak tepki gösterdiler. ⓘ
İzinsiz MP3 dosya paylaşımı yeni nesil eşler arası ağlarda devam etmektedir. Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com, Rhapsody, Napster'ın kayıt endüstrisi onaylı yeniden enkarnasyonu ve Amazon.com gibi bazı yetkili servisler MP3 formatında sınırsız müzik satmaktadır. ⓘ
Tasarım
Dosya yapısı
Bir MP3 dosyası, bir başlık ve bir veri bloğundan oluşan MP3 çerçevelerinden oluşur. Bu çerçeve dizisine temel akış adı verilir. "Bit rezervuarı" nedeniyle, çerçeveler bağımsız öğeler değildir ve genellikle keyfi çerçeve sınırlarında çıkarılamaz. MP3 Veri blokları, frekanslar ve genlikler açısından (sıkıştırılmış) ses bilgilerini içerir. Diyagram, MP3 Başlığının geçerli bir çerçevenin başlangıcını tanımlamak için kullanılan bir senkronizasyon kelimesinden oluştuğunu göstermektedir. Bunu MPEG standardı olduğunu belirten bir bit ve 3. katmanın kullanıldığını belirten iki bit takip eder; dolayısıyla MPEG-1 Audio Layer 3 veya MP3. Bundan sonra değerler MP3 dosyasına bağlı olarak farklılık gösterecektir. ISO/IEC 11172-3, başlığın özellikleri ile birlikte başlığın her bölümü için değer aralığını tanımlar. Günümüzde çoğu MP3 dosyası, şemada belirtildiği gibi MP3 çerçevelerinden önce veya sonra gelen ID3 meta verilerini içerir. Veri akışı isteğe bağlı bir sağlama toplamı içerebilir. ⓘ
Ortak stereo yalnızca kareden kareye bazında yapılır. ⓘ
Kodlama ve kod çözme
MP3 kodlama algoritması genellikle dört bölüme ayrılır. Bölüm 1, ses sinyalini çerçeve adı verilen daha küçük parçalara böler ve ardından çıkış üzerinde değiştirilmiş bir ayrık kosinüs dönüşümü (MDCT) filtresi gerçekleştirilir. Bölüm 2, örneği 1024 noktalı hızlı Fourier dönüşümüne (FFT) geçirir, ardından psikoakustik model uygulanır ve çıkışta başka bir MDCT filtresi gerçekleştirilir. Bölüm 3, bit hızını ve ses maskeleme gereksinimlerini karşılamak için kendini ayarlayan gürültü tahsisi olarak bilinen her örneği ölçer ve kodlar. Bölüm 4, başlık, hata kontrolü, ses verileri ve yardımcı veriler olmak üzere 4 bölümden oluşan ve ses çerçevesi olarak adlandırılan bit akışını biçimlendirir. ⓘ
MPEG-1 standardı bir MP3 kodlayıcı için kesin bir spesifikasyon içermez, ancak orijinal standardın normatif olmayan kısmında örnek psikoakustik modeller, hız döngüsü ve benzerlerini sağlar. MPEG-2 desteklenen örnekleme hızlarının sayısını iki katına çıkarır ve MPEG-2.5 3 tane daha ekler. Bu yazıldığında, önerilen uygulamalar oldukça eskiydi. Standardın uygulayıcılarının, ses girişindeki bilgilerin bir kısmını çıkarmak için uygun olan kendi algoritmalarını geliştirmeleri gerekiyordu. Sonuç olarak, her biri farklı kalitede dosyalar üreten birçok farklı MP3 kodlayıcı ortaya çıktı. Karşılaştırmalar yaygın olarak mevcuttu, bu nedenle bir kodlayıcı kullanacak kişinin en iyi seçimi araştırması kolaydı. Yüksek bit hızlarında (LAME gibi) kodlama konusunda yetkin olan bazı kodlayıcılar düşük bit hızlarında o kadar iyi olmayabiliyordu. Zaman içinde LAME, SourceForge web sitesinde fiili CBR MP3 kodlayıcısı haline gelene kadar gelişti. Daha sonra bir ABR modu eklendi. Çalışmalar 0 ile 10 arasında bir kalite hedefi kullanarak gerçek değişken bit hızı üzerinde ilerledi. Sonunda sayılar (-V 9.600 gibi) MPEG-2.5 uzantılarını kullanarak sadece 41 kbit/s'de mükemmel kalitede düşük bit hızında ses kodlaması üretebildi. ⓘ
Kodlama sırasında 576 zaman alanı örneği alınır ve 576 frekans alanı örneğine dönüştürülür. Geçici bir durum varsa 576 yerine 192 örnek alınır. Bu, geçici duruma eşlik eden niceleme gürültüsünün zamansal yayılımını sınırlamak için yapılır (bkz. psikoakustik). Frekans çözünürlüğü, kodlama verimliliğini azaltan küçük uzun blok pencere boyutu ile sınırlıdır. Zaman çözünürlüğü yüksek geçici sinyaller için çok düşük olabilir ve vurmalı seslerin bulaşmasına neden olabilir. ⓘ
Filtre bankasının ağaç yapısı nedeniyle, iki filtre bankasının birleşik dürtü yanıtı zaman/frekans çözünürlüğünde optimum bir çözüm sağlamadığından ve sağlayamadığından, ön yankı sorunları daha da kötüleşir. Ek olarak, iki filtre bankasının çıkışlarının birleştirilmesi, "örtüşme telafisi" aşaması tarafından kısmen ele alınması gereken örtüşme sorunları yaratır; ancak bu, frekans alanında kodlanacak fazla enerji yaratır ve böylece kodlama verimliliğini azaltır. ⓘ
Öte yandan kod çözme, standartta dikkatlice tanımlanmıştır. Kod çözücülerin çoğu "bitstream uyumludur", yani belirli bir MP3 dosyasından ürettikleri sıkıştırılmış çıktı, ISO/IEC yüksek standart belgesinde (ISO/IEC 11172-3) matematiksel olarak belirtilen çıktı ile belirli bir yuvarlama toleransı derecesi dahilinde aynı olacaktır. Bu nedenle, kod çözücülerin karşılaştırılması genellikle hesaplama açısından ne kadar verimli olduklarına (yani, kod çözme işleminde ne kadar bellek veya CPU zamanı kullandıklarına) dayanmaktadır. Zaman içinde CPU hızları MHz'den GHz'e geçtikçe bu endişe daha az sorun haline gelmiştir. Kodlayıcı/kod çözücü toplam gecikmesi tanımlanmamıştır, bu da boşluksuz oynatma için resmi bir hüküm olmadığı anlamına gelir. Bununla birlikte, LAME gibi bazı kodlayıcılar, bunu işleyebilen oynatıcıların kesintisiz oynatma sunmasına olanak tanıyan ek meta veriler ekleyebilir. ⓘ
Kalite
MP3 veri akışı oluşturmak gibi kayıplı ses kodlaması gerçekleştirirken, üretilen veri miktarı ile sonuçların ses kalitesi arasında bir denge vardır. Bir MP3 oluşturan kişi, saniyede kaç kilobit ses istendiğini belirten bir bit hızı seçer. Bit hızı ne kadar yüksek olursa, MP3 veri akışı o kadar büyük olur ve genellikle orijinal kayda o kadar yakın ses verir. Çok düşük bir bit hızında, sıkıştırma artefaktları (yani, orijinal kayıtta bulunmayan sesler) yeniden üretimde duyulabilir. Bazı seslerin rastgeleliği ve keskin atakları nedeniyle sıkıştırılması zordur. Bu tür sesler sıkıştırıldığında genellikle çınlama veya ön yankı gibi artefaktlar duyulur. Nispeten düşük bit hızına sahip bir alkış örneği veya bir üçgen enstrüman sıkıştırma artefaktlarına iyi örnekler sağlar. Algısal kodeklerin çoğu öznel testinde bu tür ses materyallerini kullanmaktan kaçınma eğilimi vardır, ancak vurmalı sesler tarafından üretilen artefaktlar, formatın dayandığı Katman II'nin 32 alt bant filtre bankasının özel zamansal maskeleme özelliği nedeniyle neredeyse hiç algılanamaz. ⓘ
Kodlanmış bir ses parçasının bit hızının yanı sıra, MP3 kodlu sesin kalitesi de kodlayıcı algoritmasının kalitesine ve kodlanan sinyalin karmaşıklığına bağlıdır. MP3 standardı kodlama algoritmalarında oldukça fazla özgürlük tanıdığından, farklı kodlayıcılar aynı bit hızlarında bile oldukça farklı kaliteye sahiptir. Örnek olarak, yaklaşık 128 kbit/s'ye ayarlanmış iki erken dönem MP3 kodlayıcısının yer aldığı halka açık bir dinleme testinde, biri 1-5 ölçeğinde 3.66 puan alırken, diğeri yalnızca 2.22 puan almıştır. Kalite, kodlayıcı seçimine ve kodlama parametrelerine bağlıdır. ⓘ
Bu gözlem ses kodlamasında bir devrime neden olmuştur. Önceleri bit hızı en önemli ve tek düşünceydi. O zamanlar MP3 dosyaları en basit türdendi: tüm dosya için aynı bit hızını kullanıyorlardı: bu işlem Sabit Bit Hızı (CBR) kodlaması olarak bilinir. Sabit bir bit hızı kullanmak kodlamayı daha basit ve daha az CPU yoğun hale getirir. Bununla birlikte, bit hızının dosya boyunca değiştiği dosyalar oluşturmak da mümkündür. Bunlar Değişken Bit Hızı olarak bilinir. Bit rezervuarı ve VBR kodlaması aslında orijinal MPEG-1 standardının bir parçasıydı. Bunların arkasındaki konsept, herhangi bir ses parçasında, sessizlik veya yalnızca birkaç ton içeren müzik gibi bazı bölümlerin sıkıştırılması daha kolayken, diğerlerinin sıkıştırılmasının daha zor olacağıdır. Bu nedenle, dosyanın genel kalitesi, daha az karmaşık bölümler için daha düşük bir bit hızı ve daha karmaşık bölümler için daha yüksek bir bit hızı kullanılarak artırılabilir. Bazı gelişmiş MP3 kodlayıcılarda, belirli bir kalite belirtmek mümkündür ve kodlayıcı bit hızını buna göre ayarlayacaktır. Kulakları için şeffaf olan belirli bir "kalite ayarı" isteyen kullanıcılar, tüm müziklerini kodlarken bu değeri kullanabilir ve genellikle doğru bit hızını belirlemek için her müzik parçası üzerinde kişisel dinleme testleri yapma konusunda endişelenmeleri gerekmez. ⓘ
Algılanan kalite dinleme ortamından (ortam gürültüsü), dinleyicinin dikkatinden, dinleyici eğitiminden ve çoğu durumda dinleyicinin ses ekipmanından (ses kartları, hoparlörler ve kulaklıklar gibi) etkilenebilir. Ayrıca, dersler ve insan konuşması uygulamaları için daha düşük bir kalite ayarı ile yeterli kalite elde edilebilir ve kodlama süresi ve karmaşıklığı azaltılabilir. Stanford Üniversitesi Müzik Profesörü Jonathan Berger tarafından yeni öğrencilere uygulanan bir test, öğrencilerin MP3 kalitesinde müzik tercihinin her yıl arttığını göstermiştir. Berger, öğrencilerin MP3'lerin müziğe getirdiği 'cızırtılı' sesleri tercih ettiklerini söyledi. ⓘ
MP3 ses kalitesi üzerine derinlemesine bir çalışma yapan ses sanatçısı ve besteci Ryan Maguire'ın "The Ghost in the MP3" adlı projesi, MP3 sıkıştırması sırasında kaybolan sesleri izole ediyor. Maguire 2015 yılında, MP3 standardının oluşturulmasında kullanılan "Tom's Diner" adlı parçanın MP3 sıkıştırması sırasında silinen seslerinden bestelediği "moDernisT" ("Tom's Diner "ın anagramı) adlı parçayı yayınladı. MP3 sıkıştırması sırasında silinen sesleri izole etmek için kullanılan tekniklerin ayrıntılı bir açıklaması ve projenin kavramsal motivasyonu, 2014 Uluslararası Bilgisayar Müziği Konferansı Bildirileri'nde yayınlandı. ⓘ
Bit oranı
MPEG-1 Ses Katmanı III |
MPEG-2 Ses Katmanı III |
MPEG-2.5 Ses Katmanı III |
---|---|---|
– | 8 | 8 |
– | 16 | 16 |
– | 24 | 24 |
32 | 32 | 32 |
40 | 40 | 40 |
48 | 48 | 48 |
56 | 56 | 56 |
64 | 64 | 64 |
80 | 80 | – |
96 | 96 | – |
112 | 112 | – |
128 | 128 | – |
n/a | 144 | – |
160 | 160 | – |
192 | – | – |
224 | – | – |
256 | – | – |
320 | – | – |
MPEG-1 Ses Katmanı III |
MPEG-2 Ses Katmanı III |
MPEG-2.5 Ses Katmanı III |
---|---|---|
– | – | 8000 Hz |
– | – | 11025 Hz |
– | – | 12000 Hz |
– | 16000 Hz | – |
– | 22050 Hz | – |
– | 24000 Hz | – |
32000 Hz | – | – |
44100 Hz | – | – |
48000 Hz | – | – |
Bit hızı, müziği kodlamak için kullanılan örnek hızı ve örnek başına bit sayısının çarpımıdır. CD ses saniyede 44100 örnektir. Örnek başına düşen bit sayısı da ses kanalı sayısına bağlıdır. CD stereodur ve kanal başına 16 bittir. Dolayısıyla, 44100'ü 32 ile çarpmak 1411200'ü verir - sıkıştırılmamış CD dijital sesin bit hızı. MP3 bu 1411 kbit/s'lik veriyi 320 kbit/s ya da daha düşük bir hızda kodlamak üzere tasarlanmıştır. MP3 algoritmaları tarafından daha az karmaşık pasajlar algılandıkça daha düşük bit hızları kullanılabilir. MPEG-1 yerine MPEG-2 kullanıldığında, MP3 yalnızca daha düşük örnekleme hızlarını (saniyede 16000, 22050 veya 24000 örnek) destekler ve 8 kbit/s'ye kadar düşük ancak 160 kbit/s'den daha yüksek olmayan bit hızı seçenekleri sunar. MPEG-2 katman III, örnekleme oranını düşürerek kaynak seste mevcut olabilecek yeni örnekleme oranının yarısının üzerindeki tüm frekansları kaldırır. ⓘ
Bu iki tabloda gösterildiği gibi, MPEG-1 Ses Katmanı III standardında 14 seçilmiş bit hızına izin verilmektedir: 32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 ve 320 kbit/s ve mevcut en yüksek 3 örnekleme frekansı olan 32, 44.1 ve 48 kHz. MPEG-2 Ses Katmanı III ayrıca MPEG-1'in tam yarısı olan 16, 22,05 ve 24 kHz örnekleme frekansları ile 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160 kbit/s'lik 14 farklı (ve çoğunlukla daha düşük) bit hızına izin verir. MPEG-2.5 Audio Layer III çerçeveleri 8, 16, 24, 32, 40, 48, 56 ve 64 kbit/s'lik 8 bit hızıyla ve 8, 11.025 ve 12 kHz'lik 3 daha düşük örnekleme frekansıyla sınırlıdır. Yalnızca MPEG-1 Audio Layer III standardını destekleyen eski sistemlerde, 32 kbit/s'nin altında bit hızına sahip MP3 dosyaları hızlandırılmış ve eğimli olarak çalınabilir. ⓘ
Daha eski sistemlerde MP3 üzerinde hızlı ileri ve geri sarma oynatma kontrolleri de yoktur. ⓘ
MPEG-1 kareleri, izin verilen en yüksek bit hızı ayarı olan 320 kbit/s modunda en fazla ayrıntıyı içerir; sessizlik ve basit tonlar için hala 32 kbit/s gerekir. MPEG-2 çerçeveleri 160 kbit/s'ye kadar ihtiyaç duyulan 12 kHz'ye kadar ses reprodüksiyonlarını yakalayabilir. MPEG-2 ile yapılan MP3 dosyaları Nyquist-Shannon örnekleme teoremi nedeniyle 20 kHz bant genişliğine sahip değildir. Frekans üretimi her zaman örnekleme frekansının yarısından kesinlikle daha azdır ve kusurlu filtreler daha büyük bir hata payı gerektirir (filtrenin keskinliğine karşı gürültü seviyesi), bu nedenle 8 kHz örnekleme hızı maksimum frekansı 4 kHz ile sınırlarken, 48 kHz örnekleme hızı bir MP3'ü maksimum 24 kHz ses üretimi ile sınırlar. MPEG-2, MPEG-1 örnekleme oranlarının yarısını ve MPEG-2.5 ise yalnızca dörtte birini kullanır. ⓘ
İnsan konuşmasının yeniden üretiminin genel alanı için 5512 Hz'lik bir bant genişliği, 11025 örnekleme oranı ve 44100 (standart) WAV dosyasından VBR kodlaması kullanarak mükemmel sonuçlar (ses için) üretmek için yeterlidir. İngilizce konuşanlar -V 9.6 ayarıyla ortalama 41-42 kbit/s'dir ancak bu, kaydedilen sessizlik miktarına veya iletim hızına (wpm) göre değişebilir. 12000'e (6K bant genişliği) yeniden örnekleme -V 9.4 LAME parametresi tarafından seçilir. Aynı şekilde -V 9.2, 16000 örnekleme hızını ve bunun sonucunda 8K alçak geçiren filtrelemeyi seçer. Daha fazla bilgi için Nyquist - Shannon bölümüne bakın. LAME ve FFmpeg'in eski sürümleri değişken bit hızı kalite seçim parametresi için yalnızca tamsayı argümanları destekler. n.nnn kalite parametresi (-V) lame.sourceforge.net adresinde belgelenmiştir, ancak LAME'de yalnızca yeni stil VBR değişken bit hızı kalite seçicisi ile desteklenir-ortalama bit hızı (ABR) değil. ⓘ
Müzik reprodüksiyonu için genellikle 44.1 kHz örnekleme hızı kullanılır, çünkü bu MP3 dosyalarını oluşturmak için kullanılan ana kaynak olan CD ses için de kullanılır. İnternette çok çeşitli bit hızları kullanılmaktadır. Nispeten küçük bir alanda yeterli ses kalitesi sunan 11:1 sıkıştırma oranında 128 kbit/s bit hızı yaygın olarak kullanılır. İnternet bant genişliği kullanılabilirliği ve sabit disk boyutları arttıkça, 320 kbit/s'ye kadar daha yüksek bit hızları yaygınlaşmaktadır. Bir ses CD'sinde saklanan sıkıştırılmamış ses 1.411,2 kbit/s bit hızına sahiptir (16 bit/örnek × 44100 örnek/saniye × 2 kanal / 1000 bit/kilobit), bu nedenle 128, 160 ve 192 kbit/s bit hızları sırasıyla yaklaşık 11:1, 9:1 ve 7:1 sıkıştırma oranlarını temsil eder. ⓘ
LAME kodlayıcı ve freeformat seçeneği ile 640 kbit/s'ye kadar standart olmayan bit hızları elde edilebilir, ancak çok az MP3 çalar bu dosyaları çalabilir. ISO standardına göre, kod çözücülerin yalnızca 320 kbit/s'ye kadar olan akışları çözebilmesi gerekmektedir. İlk MPEG Katman III kodlayıcıları şimdi Sabit Bit Hızı (CBR) olarak adlandırılan yöntemi kullanıyordu. Yazılım, bir MP3 dosyasındaki tüm karelerde yalnızca tek tip bir bit hızı kullanabiliyordu. Daha sonra daha sofistike MP3 kodlayıcıları, kaydın o bölümündeki sesin karmaşıklığına bağlı olarak her kare için kodlama oranını seçerek ortalama bir bit oranını hedeflemek için bit rezervuarını kullanabildiler. ⓘ
Daha sofistike bir MP3 kodlayıcı değişken bit hızında ses üretebilir. MPEG ses, kare bazında bit hızı anahtarlaması kullanabilir, ancak bunu yalnızca katman III kod çözücüler desteklemelidir. VBR, amaç sabit bir kalite seviyesine ulaşmak olduğunda kullanılır. Bir VBR kodlamasının nihai dosya boyutu, sabit bit hızına göre daha az tahmin edilebilirdir. Ortalama bit hızı, ikisi arasında bir uzlaşma olarak uygulanan bir VBR türüdür: daha tutarlı kalite için bit hızının değişmesine izin verilir, ancak öngörülebilir dosya boyutları için kullanıcı tarafından seçilen ortalama bir değere yakın kalacak şekilde kontrol edilir. Bir MP3 kod çözücünün standartlara uygun olması için VBR'yi desteklemesi gerekmesine rağmen, tarihsel olarak bazı kod çözücüler, özellikle VBR kodlayıcılar yaygınlaşmadan önce, VBR kod çözme ile ilgili hatalara sahiptir. En gelişmiş LAME MP3 kodlayıcı VBR, ABR ve hatta eski CBR MP3 formatlarının oluşturulmasını destekler. ⓘ
Katman III ses ayrıca, kısmen dolu bir karenin bir sonraki karenin ses verilerinin bir kısmını tutma yeteneği olan ve sabit bir bit hızı akışında bile etkili bit hızında geçici değişikliklere izin veren bir "bit rezervuarı" kullanabilir. Bit rezervuarının dahili olarak kullanılması kodlama gecikmesini artırır. Yaklaşık 16 kHz'in üzerindeki frekanslar için ölçek faktörü bandı 21 (sfb21) yoktur, bu da kodlayıcıyı bant 21'de daha az doğru temsil veya bant 21'in altındaki tüm bantlarda daha az verimli depolama arasında seçim yapmaya zorlar, ikincisi VBR kodlamasında boşa bit hızına neden olur. ⓘ
Yardımcı veriler
Yardımcı veri alanı kullanıcı tanımlı verileri saklamak için kullanılabilir. Yardımcı veriler isteğe bağlıdır ve mevcut bit sayısı açıkça belirtilmez. Yardımcı veriler Huffman kod bitlerinden sonra yer alır ve bir sonraki çerçevenin main_data_begin'inin işaret ettiği yere kadar uzanır. Kodlayıcı mp3PRO, kendi algoritması ile çözüldüğünde ses kalitesini artırabilecek ekstra bilgileri kodlamak için yardımcı verileri kullanır. ⓘ
Metadata
Bir ses dosyasındaki "etiket", dosyanın başlık, sanatçı, albüm, parça numarası gibi meta verilerini veya dosyanın içeriğiyle ilgili diğer bilgileri içeren bir bölümüdür. MP3 standartları MP3 dosyaları için etiket formatları tanımlamadığı gibi, meta verileri destekleyecek ve etiket ihtiyacını ortadan kaldıracak standart bir konteyner formatı da yoktur. Bununla birlikte, etiket formatları için birkaç fiili standart mevcuttur. 2010 itibariyle en yaygın olanları ID3v1 ve ID3v2 ve daha yakın zamanda tanıtılan APEv2'dir. Bu etiketler normalde MP3 dosyalarının başına veya sonuna, gerçek MP3 çerçeve verilerinden ayrı olarak gömülür. MP3 kod çözücüleri ya etiketlerden bilgi çıkarır ya da bunları göz ardı edilebilir, MP3 olmayan önemsiz veriler olarak değerlendirir. ⓘ
Çalma ve düzenleme yazılımları genellikle etiket düzenleme işlevi içerir, ancak bu amaca adanmış etiket düzenleyici uygulamalar da vardır. Ses içeriğiyle ilgili meta verilerin yanı sıra etiketler DRM için de kullanılabilir. ReplayGain, bir MP3 dosyasının ses yüksekliğini (ses normalizasyonu) meta veri etiketinde ölçmek ve saklamak için bir standarttır ve ReplayGain uyumlu bir oynatıcının her dosya için genel oynatma ses seviyesini otomatik olarak ayarlamasını sağlar. MP3Gain, ReplayGain ölçümlerine dayalı olarak dosyaları geri dönüşümlü olarak değiştirmek için kullanılabilir, böylece ReplayGain özelliği olmayan oynatıcılarda ayarlanmış oynatma elde edilebilir. ⓘ
Lisanslama, sahiplik ve mevzuat
Temel MP3 kod çözme ve kodlama teknolojisi Avrupa Birliği'nde patentsizdir, tüm patentlerin süresi en geç 2012'de dolmuştur. Amerika Birleşik Devletleri'nde ise bu teknoloji 16 Nisan 2017 tarihinde büyük ölçüde patentsiz hale gelmiştir (aşağıya bakınız). ABD'de MP3 patentlerinin süresi 2007 ile 2017 yılları arasında dolmuştur. Geçmişte, birçok kuruluş MP3 kod çözme veya kodlama ile ilgili patentlerin sahibi olduğunu iddia etmiştir. Bu iddialar, çeşitli kaynaklardan gelen bir dizi yasal tehdit ve eyleme yol açtı. Sonuç olarak, yazılım patentlerine izin veren ülkelerde patent ihlali yapmadan MP3 ürünleri oluşturmak için hangi patentlerin lisanslanması gerektiği konusundaki belirsizlik, teknolojinin benimsenmesinin ilk aşamalarının ortak bir özelliğiydi. ⓘ
Tamamlanmaya yakın ilk MPEG-1 standardı (bölüm 1, 2 ve 3) 6 Aralık 1991 tarihinde ISO CD 11172 olarak kamuya sunulmuştur. Çoğu ülkede, önceki teknik kamuya açıklandıktan sonra patent başvurusu yapılamaz ve patentler ilk başvuru tarihinden 20 yıl sonra sona erer; bu süre diğer ülkelerdeki başvurular için 12 aya kadar uzayabilir. Sonuç olarak, MP3'ün uygulanması için gereken patentlerin süresi çoğu ülkede ISO CD 11172'nin yayınlanmasından 21 yıl sonra, Aralık 2012'de dolmuştur. ⓘ
Bunun bir istisnası, yürürlükte olan ancak 8 Haziran 1995'ten önce başvurusu yapılmış patentlerin, veriliş tarihinden itibaren 17 yıl veya rüçhan tarihinden itibaren 20 yıl sonra sona erdiği Amerika Birleşik Devletleri'dir. Uzun bir patent kovuşturma süreci, bir patentin normalde beklenenden çok daha sonra verilmesiyle sonuçlanabilir (bkz. denizaltı patentleri). MP3 ile ilgili çeşitli patentlerin süresi Amerika Birleşik Devletleri'nde 2007 ile 2017 arasında değişen tarihlerde dolmuştur. ISO CD 11172'de açıklanan herhangi bir şey için, yayınlanmasından bir yıl veya daha uzun bir süre sonra açılan patentler şüphelidir. Yalnızca Aralık 1992'ye kadar dosyalanmış bilinen MP3 patentleri dikkate alınırsa, Ekim 1992'de PCT başvurusu yapılan 5,812,672 sayılı ABD Patentinin süresinin dolduğu 22 Eylül 2015'ten bu yana MP3 kod çözme ABD'de patentsizdir. Yukarıda belirtilen referanslarda bahsedilen en uzun süreli patent ölçü olarak alınırsa, MP3 teknolojisi, Technicolor tarafından sahip olunan ve yönetilen 6,009,399 sayılı ABD Patentinin süresinin dolduğu 16 Nisan 2017 tarihinde ABD'de patentsiz hale gelmiştir. Sonuç olarak, Fedora işletim sistemi gibi birçok özgür ve açık kaynaklı yazılım projesi varsayılan olarak MP3 desteği sunmaya karar verdi ve kullanıcılar artık MP3 oynatma veya kodlama için üçüncü taraf yazılım depoları tarafından tutulan resmi olmayan paketleri yüklemeye başvurmak zorunda kalmayacaklar. ⓘ
Technicolor (eski adıyla Thomson Consumer Electronics), ABD, Japonya, Kanada ve AB ülkeleri de dahil olmak üzere birçok ülkede Layer 3 patentlerinin MP3 lisansını kontrol ettiğini iddia ediyordu. Technicolor bu patentleri aktif olarak uygulamaktaydı. Technicolor'un yönetiminden elde edilen MP3 lisans gelirleri 2005 yılında Fraunhofer Topluluğu'na yaklaşık 100 milyon Euro kazandırmıştır. Eylül 1998'de Fraunhofer Enstitüsü birkaç MP3 yazılımı geliştiricisine "kod çözücü ve/veya kodlayıcı dağıtmak ve/veya satmak" için bir lisans gerektiğini belirten bir mektup gönderdi. Mektupta lisanssız ürünlerin "Fraunhofer ve Thomson'un patent haklarını ihlal ettiği" iddia ediliyordu. MPEG Layer-3] standardını ve dolayısıyla patentlerimizi kullanan ürünler üretmek, satmak veya dağıtmak için bizden bu patentler kapsamında bir lisans almanız gerekmektedir." Bu durum LAME MP3 kodlayıcı projesinin kullanıcılarına bilgisayarlarında çalışabilecek resmi ikili dosyalar sunamamasına yol açtı. Projenin pozisyonu, kaynak kodu olarak LAME'in sadece bir MP3 kodlayıcının nasıl uygulanabileceğinin bir açıklaması olduğuydu. Gayri resmi olarak, derlenmiş ikili dosyalar başka kaynaklardan temin edilebiliyordu. ⓘ
Lüksemburg merkezli bir şirket olan Sisvel S.p.A., MPEG Audio'ya uygulanan patentlerin lisanslarını yönetmektedir. Amerika Birleşik Devletleri'ndeki iştiraki Audio MPEG, Inc. ile birlikte daha önce Thomson'a MP3 teknolojisinde patent ihlali nedeniyle dava açmış, ancak bu anlaşmazlıklar Kasım 2005'te Sisvel'in Thomson'a patentleri için bir lisans vermesiyle çözülmüştür. Motorola da kısa bir süre sonra Sisvel ile MP3 ile ilgili patentlerin lisansı için Aralık 2005'te bir anlaşma imzaladı. Üç patent dışında, Sisvel tarafından yönetilen ABD patentlerinin tümü 2015 yılında sona ermiştir. Bu üç istisna şunlardır: ABD Patenti 5,878,080, Şubat 2017'de sona ermiştir; ABD Patenti 5,850,456, Şubat 2017'de sona ermiştir; ve ABD Patenti 5,960,037, 9 Nisan 2017'de sona ermiştir. ⓘ
Eylül 2006'da, bir İtalyan patent firmasının Sisvel adına lisans hakları konusundaki bir anlaşmazlıkta SanDisk'e karşı ihtiyati tedbir kararı almasının ardından Alman yetkililer SanDisk'in Berlin'deki IFA fuarındaki standında bulunan MP3 çalarlara el koydu. İhtiyati tedbir kararı daha sonra Berlin'deki bir yargıç tarafından bozuldu, ancak bu bozma kararı da aynı gün aynı mahkemeden başka bir yargıç tarafından engellendi ve bir yorumcunun ifadesiyle "Patent Vahşi Batı'sını Almanya'ya getirdi". Şubat 2007'de Texas MP3 Technologies, Texas MP3'ün kendisine verildiğini söylediği taşınabilir MP3 çalar patentinin ihlal edildiği iddiasıyla Apple, Samsung Electronics ve Sandisk'e doğu Texas federal mahkemesinde dava açtı. Apple, Samsung ve Sandisk Ocak 2009'da haklarındaki iddiaları çözüme kavuşturdu. ⓘ
Alcatel-Lucent, AT&T-Bell Labs'den devraldığını iddia ettiği birkaç MP3 kodlama ve sıkıştırma patentini kendi açtığı davalarda ileri sürmüştür. Kasım 2006'da, şirketlerin birleşmesinden önce, Alcatel yedi patenti ihlal ettiği iddiasıyla Microsoft'a dava açmıştır. 23 Şubat 2007'de San Diego'daki bir jüri Alcatel-Lucent'i bunlardan ikisini ihlal ettiği gerekçesiyle 1,52 milyar ABD doları tazminat ödemeye mahkum etti. Ancak mahkeme daha sonra, bir patentin ihlal edilmediğini ve diğerinin Alcatel-Lucent'e ait olmadığını; AT&T ve Fraunhofer'in ortak mülkiyetinde olduğunu ve Microsoft'a lisansladığını tespit ederek kararı iptal etti. Bu savunma kararı 2008 yılında temyizde onaylandı. Daha fazla bilgi için Alcatel-Lucent v. Microsoft davasına bakınız. ⓘ
Alternatif teknolojiler
Başka kayıplı formatlar da mevcuttur. Bunlar arasında Advanced Audio Coding (AAC) en yaygın kullanılanıdır ve MP3'ün halefi olarak tasarlanmıştır. Ayrıca mp3PRO ve MP2 gibi başka kayıplı formatlar da mevcuttur. Bunlar MP3 ile aynı teknolojik ailenin üyeleridir ve kabaca benzer psikoakustik modellere ve MDCT algoritmalarına dayanırlar. MP3 kısmen MDCT ve kısmen FFT olan hibrit bir kodlama yaklaşımı kullanırken, AAC tamamen MDCT'dir ve sıkıştırma verimliliğini önemli ölçüde artırır. Bu formatların altında yatan temel patentlerin çoğu Fraunhofer Society, Alcatel-Lucent, Thomson Consumer Electronics, Bell, Dolby, LG Electronics, NEC, NTT Docomo, Panasonic, Sony Corporation, ETRI, JVC Kenwood, Philips, Microsoft ve NTT'ye aittir. ⓘ
Dijital ses çalar pazarı yükselişe geçtiğinde, MP3 yaygın olarak standart olarak kabul edildi, dolayısıyla popüler adı "MP3 çalar" oldu. Sony bir istisnaydı ve MiniDisc formatından alınan ve Sony'nin daha iyi olduğunu iddia ettiği kendi ATRAC codec'ini kullandı. Eleştirilerin ve Walkman satışlarının beklenenden düşük olmasının ardından 2004 yılında Sony ilk kez Walkman oynatıcılarına yerel MP3 desteği getirdi. ⓘ
Opus ve Vorbis gibi ücretsiz ve bilinen herhangi bir patent kısıtlaması olmadan kullanılabilen açık sıkıştırma formatları da vardır. AAC, WMA Pro ve Vorbis gibi yeni ses sıkıştırma formatlarından bazıları, MP3 formatının doğasında bulunan ve herhangi bir MP3 kodlayıcı tarafından üstesinden gelinemeyen bazı sınırlamalardan muaftır. ⓘ
Kayıplı sıkıştırma yöntemlerinin yanı sıra, kayıpsız formatlar MP3'e önemli bir alternatiftir çünkü kayıplı sıkıştırmaya kıyasla daha yüksek bir dosya boyutuna sahip olsalar da değiştirilmemiş ses içeriği sağlarlar. Kayıpsız formatlar FLAC (Free Lossless Audio Codec), Apple Lossless ve diğerlerini içerir. ⓘ