Article

Immersive Audio Past Present and Future

พงศ์ทิพจักร์ เชื้อเจ็ดองค์
November 1, 2019
01:06
Archive

เมื่องานCEDIA EXPO2019ที่ผ่านมา ด้านหน้าของงานจะมีการแจกนิตยสารเกี่ยวกับด้านภาพและเสียงฟรีหลายฉบับ มีบทความหนึ่งที่ผมอ่านเจอเขียนโดยJon HerronลงในนิตยสารWidescreen Reviewเกี่ยวกับเรื่องของImmersive Audioแบบต่างๆและที่มาที่ไปคร่าวๆ เลยคิดว่าเป็นเรื่องที่น่าสนใจ ในฉบับนี้ผมเลยเอาบทความเรื่องนี้มาแปลให้ได้อ่านกันดู

พูดถึงเรื่องImmersive Audioขึ้นมา หลายคนคงนึกถึงว่าเป็นเรื่องใหม่ที่พึ่งเข้ามาในวงการบันเทิง ความจริงเรื่องนี้ได้ถูกวิจัยและพัฒนามาหลายสิบปีแล้ว อย่างที่รู้กันว่าการฟังเพลงแบบ 2channels ทำให้เราสามารถได้รับฟังเพลงได้ในหลายที่ เวลาไหนก็ได้ เช่นอาจจะฟังเพลงที่บันทึกมาจากคอนเสิร์ตออเคสตร้าวงใหญ่ หรือBlue club แต่ความใฝ่ฝันของคนฟังก็อาจจะอยากได้ความรู้สึกเหมือนกับว่าเมื่อปิดตาลงแล้วมีอารมณ์ความรู้สึกเหมือนได้ไปอยู่ตรงนั้นจริงๆ ซึ่งการจำลองเสียงแบบนี้โดยใช้ลำโพงแค่สองตัวอาจจะยังมีข้อจำกัดอยู่ จึงทำให้นักวิจัยหลายท่านพยายามพัฒนาในเรื่องของimmersive audioเพื่อให้จำลองเสียงได้เหมือนจริงมากขึ้น เริ่มจากMichael Gerzonได้เคยตีพิมพ์บทความเรื่อง”Ambisonics”ในปี ค.ศ.1978 โดยในยุคนั้นเขาไม่ได้ใช้ลำโพงแค่ตัวเดียว แชลแนลเดียว แต่ใช้การบันทึกเสียงsoundfield และสร้างมันขึ้นมาโดยอาศัยspeaker arrayของลำโพงที่มีจำนวนมากขึ้นจำลองมันขึ้นมาเพื่อให้ผู้ฟังสามารถแยกแยะและระบุตำแหน่งเสียงแต่ละเสียงที่ได้ยิน ต่อมาUniversity of Delftในประเทศเนเธอร์แลนด์ ได้พัฒนา”Wave Field Synthesis”ในปี ค.ศ.1988 โดยใช้ลำโพงที่มีมุมกระจายเสียงกว้าง ทำให้สามารถสร้างสนามเสียงที่ครอบคลุมตำแหน่งนั่งฟังได้กว้างมากขึ้น โดยคลื่นเสียงที่ได้จะมาจากหลายทิศทาง ในระยะทางต่างๆของระนาบสองมิติ

รูปที่1 Michael Gerzon(ขวา) กำลังทดสอบSound Fieldจากลำโพง4ตัว

ในปี ค.ศ.2001 นักวิจัยจากประเทศฝรั่งเศสนับได้ว่าเป็นกลุ่มแรกที่ได้ประสบความสำเร็จในการสร้างรูปแบบสนามเสียงhigh-spatial resolution audioสามมิติ ที่เริ่มตั้งแต่การบันทึก การจัดเก็บ การเอากลับมาเล่นใหม่ โดยใช้เทคโนโลยีที่เรียกว่า”Ambisonics” และต่อมานักวิจัยกลุ่มนี้ก็ได้กลายมาเป็นบริษัทTrinnov Audio ในปี ค.ศ.2003 ปีต่อมา ค.ศ.2004ระบบ”IOSONO” ที่ได้พัฒนามาตั้งแต่ปี ค.ศ.1988โดยUniversity of Delftได้ถูกนำมาใช้ในงานโรงภาพยนตร์ และงานPAเป็นครั้งแรก และในปีเดียวกันนี้ ค.ศ.2004โปรเจคที่ชื่อว่า “Caruso Project”ในยุโรปได้มีการพัฒนาแนวคิดของObject-based audio โดยอาศัยหลักการในการวิเคราะห์สนามเสียงแล้วทำการเก็บข้อมูลเป็นmetadataในเรื่องของ ตำแหน่งเสียง ขนาดเสียง เป็นเหมือนวัตถุชิ้นหนึ่ง แล้วเวลาเล่นอีกทีก็จะใช้ข้อมูลนี้renderเพื่อให้สามารถเปิดกับลำโพงหลายๆตัว(ต่อมาISONOก็ได้ถูกซื้อไปโดยบริษัทBarcoในปี ค.ศ.2014และก็ได้กลายเป็นส่วนหนึ่งของเทคโนโลยี “AuroMax”)

ในปี ค.ศ.2005 Mr.Wilfried Van Baelenได้เปิดตัวระบบเสียง 3D ขึ้นมาเป็นครั้งแรกที่ชื่อว่าระบบ “Auro” ในworkshopที่มีco-organizedสองคนคือArnaud LaborieจากTrinnov และKimio HamazakiจากNHK ซึ่งในตอนนั้นระบบAuroยังใช้ลำโพงเป็นระบบ 2+2+2 อยู่ ในปี ค.ศ.2010 ก็มีการพัฒนาจนเป็นAuro-3Dที่ใช้ลำโพงเป็น11.1และ13.1 channel-based ในโรงภาพยนตร์ และในปีเดียวกันนั้นเองบริษัทใหม่ในสเปนได้พัฒนาระบบobject-basedที่ชื่อ”IMMSound”เพื่อใช้ในธุรกิจโรงภาพยนตร์โดยติดตั้งลำโพงเป็นlayoutแบบ24channel และได้มีการติดตั้งไปแล้วกว่า30โรง

รูปที่6 รูปแบบของDolby Atmosในโรงภาพยนตร์

ต่อมาในปี ค.ศ.2012ทางIMMSoundก็ได้ถูกซื้อไปโดยบริษัทเล็กๆที่ชื่อDolby Laboratories(ในขณะนั้น) เพื่อนำไปพัฒนาเป็นโปรแกรมที่ชื่อว่าAtmos และระบบAtmosนี้ก็ได้นำมาใช้ในโรงภาพยนตร์ตลาดผู้บริโภคจริงๆในปีถัดมา ซึ่งในปี ค.ศ.2012นี่เองเป็นปีที่ DTSได้บริษัท SRS Labsมาเข้าร่วมเพื่อพัฒนาเทคโนโลยี object based audioที่ชื่อ”MDA”(Multi Dimensional Audio) และได้เป็นพื้นฐานของระบบ DTS Xในปัจจุบันนี้ ที่สุดแล้วบริษัทในระบบเสียงImmersive Sound ทั้งสามบริษัทก็ได้มีเทคโนโลยีเป็นของตัวเองเพื่อแข่งขันกันได้แก่ Auro Technologies, Dolby Laboratories และDTS แล้วจะเป็นยังไงบ้างติดตามต่อครับ

NATOที่ไม่ใช่”North Atlantic Treaty Organization” แต่เป็นกลุ่มที่ชื่อว่า”National Association of Theatre Owners”โดยเป็นกลุ่มที่รวมตัวจากเจ้าของกิจการธุรกิจภาพยนตร์ ที่ตอนนี้มีปัญหาในเรื่องเมื่อมีหนังดังๆเข้ามาฉายในโรงภาพยนตร์Multiplexเจ้าของโรงก็จะพยายามฉายหนังในโรงที่ใหญ่และดี(ราคาสูง)เพื่อที่จะทำรายได้จากตรงนี้ให้ได้มากที่สุด แต่เมื่อหนังเรื่องลดความร้อนแรงลงก็จะถูกลงมาฉายในโรงขนาดกลาง จนมาถึงก่อนหนังจะลาโรงออกมาเป็นแผ่นหรือstreamingก็จะต้องถูกฉายในโรงขนาดเล็ก ซึ่งในแต่ละโรงก็จะมีระบบเสียงในแบบต่างกันไป ปัญหาก็คือเจ้าของโรงภาพยนตร์ไม่ได้สนใจที่จะทำโรงภาพยนตร์ทุกโรงให้รองรับกับระบบเสียงแบบต่างๆ(Auro,Dolby,DTS)ที่มีจำนวนลำโพง จำนวนchannelsแตกต่างกันไป(5.1, 7.1, 30.2, 34.1 หรือแม้กระทั่ง 61.3) เนื่องจากดูไม่สมเหตุสมผล และการทำแบบนี้ต้องเสียค่าใช้จ่ายเพิ่มขึ้นอีกมหาศาล กำไรจากการฉายหนังก็ไม่ได้มากมายเทียบกับค่าอุปกรณ์ที่ราคาแพงทุกตัว ดังนั้นทางNATOจึงรวมตัวกันแล้วแจ้งไปทางสตูดิโอใหญ่ๆว่า จะสร้างหนังImmersive Soundด้วยเครื่องมือแบบไหนที่ชอบหรือแพงขนาดไหนไม่เป็นปัญหาแต่เวลาออกมาก็ควรจะต้องเป็นแบบมาตรฐานสากลที่สามารถrenderเอาหนังเรื่องนี้ไปฉายในโรงภาพยนตร์โรงไหนก็ได้ไม่ว่าโรงเล็ก โรงใหญ่ จะใช้อุปกรณ์อะไรก็สามารถscaleให้เข้ากับโรงหนังแต่ละขนาดแต่ละแบบได้

ยังไงก็ตามต้องยอมรับว่าเราก็กำลังอยู่ในช่วงเริ่มแรกของการคิดจะทำformatแบบobject-oriented audioให้เป็นopen-standard ที่ไม่มีใครเป็นเจ้าของ สามารถเข้ากันได้กับทั้งระบบAuro, Dolby Atmos และ DTS:X Pro(เป็นรุ่นที่ใช้ในโรงภาพยนตร์ของDTS:Xที่สามารถrendersขึ้นไปถึง 30.2channelsได้) ปัญหาก็คือว่าคงไม่ง่ายที่จะให้แต่ละระบบมานั่งประชุมด้วยกันและยอมทำตามในข้อตกลงทุกเรื่อง แต่ก็ยังดีหน่อยที่มีกลุ่มอื่นอีกสนับสนุนแนวคิดนี้ ได้แก่ขาใหญ่อีกกลุ่มคือ DCI(Digital Cinema Initiative) ที่มีสมาชิกประกอบไปด้วยDisney, Fox, Paramount, Sony Pictures, Universal และWarner Brothers เรียกได้ว่า99%ของcontentที่เราดูอยู่ก็มาจากกลุ่มDCIนี้ ก็นับได้ว่าเป็นนิมิตหมายอันดีที่จะทำให้เกิดความเข้ากันได้ของimmersive soundทั้งหมด แต่ก็อย่างที่บอกว่าตอนนี้ยังเป็นช่วงเริ่มต้นอยู่ ก็คงต้องใช้เวลาอีกนานกว่าจะทำให้เกิดขึ้นได้ ช่วงที่เราอยู่ปีปัจจุบันก็คงยังไม่เกิดขึ้นแน่ ดังนั้นเราก็ยังต้องทำการdecodeและrenderรูปแบบเสียงimmersive soundให้เป็นระบบที่ใช้กันอยู่ในปัจจุบันไปก่อน คราวนี้ลองมาดูแบบละเอียดมากขึ้นว่าImmersive Audio formatsแต่ละแบบมีอะไรบ้าง

Auro-3D

Auroเป็นระบบแบบchannel-based ลำโพงแต่ละตัวจะได้รับสัญญาณข้อมูลแยกกันเหมือนกับที่mixedในสตูดิโอเลย มี bed channelsอยู่7channels, Height channelsมีอยู่5channelsและมีtop channelที่อยู่เหนือหัวอีก1เรียกว่าVoice of God โดยอาศัยหลักการเหมือนกับstereoที่ว่า ถ้าต้องการใส่วัตถุอยู่ระหว่างลำโพงที่อยู่ใกล้กันสองตัว ก็จะmixข้อมูลเสียงบางส่วนลงไปยังลำโพงทั้งสองให้เกิดphantom imageระกว่างลำโพงสองตัวนั้น จุดแข็งของระบบAuroก็คือความสอดคล้องกันของลำโพง5bed channelsที่อยู่ด้านหน้าและ height channels 5ตัว ที่ทำให้เสียงเวลามีการเคลื่อนที่ในแนวverticalระหว่างlayerทั้งสองชั้นมีความsmoothไร้รอยต่อ และทำให้sound engineerที่มีความคุ้นเคยกับการmixแบบchannel-based audio ไม่ต้องปรับตัวมากนัก ยกเว้นแค่ว่ามีจำนวนchannelเพิ่มขึ้นมาอีกนิดหน่อย แต่ข้อควรระวังในระบบนี้ก็คือเป็นระบบที่มีความไวต่อตำแหน่งลำโพงมาก ถ้าไม่สามารถติดลำโพงได้ในตำแหน่งที่Auroแนะนำแล้ว ก็อาจจะทำให้เสียงที่ออกมาไม่เป็นไปตามที่ต้องการได้

Dolby Atmos

Atmosเป็นรูปแบบเสียงที่เป็นobject-based โดยsound engineerจะเป็นผู้สร้างเสียงขึ้นมาที่บรรจุข้อมูลเกี่ยวข้อกับเสียงสองอย่างที่สำคัญคือ ตำแหน่งของเสียงในช่วงเวลาที่กำหนด อีกอย่างหนึ่งคือขนาดของเสียงว่ามีfocusที่เล็กแน่น หรือใหญ่แบบกระจัดกระจาย เช่นเสียงของกระสุนปืนแฉลบอาจจะต้องเล็กแหวกอากาศผ่านหูไป ในขณะที่เสียงฟ้าร้องที่อยู่ไกลออกไปก็จะต้องให้เสียงที่ยิ่งใหญ่อยู่รอบตัว ซึ่งก็อาจจะต้องrenderให้เสียงออกลำโพงทุกตัวที่อยู่ในห้องฟัง แต่เสียงฟ้าร้องนั้นก็ยังถือว่าเป็นobjectอย่างเดียวถึงแม้จะทำให้เสียงออกจากลำโพงหลายตัว

Dolbyจะfocusเสียงatmosในแนวระนาบให้ถูกต้องมีรายละเอียดโดยใช้ลำโพงที่รองรับสูงสุดในhome theaterถึง 24channelsเพื่อทำเสียงนี้ ส่วนในแนวหน้าหลังก็จะใช้ลำโพงจำนวน 5คู่ทีอยู่ด้านบนเพื่อสร้างเสียงที่วิ่งบนหัวจากด้านหน้าห้องไปยังด้านหลังของห้อง หรือจากด้านหลังห้องมายังด้านหน้าห้อง และก็ยังสามารถscaleเสียงในระบบขนาดใหญ่24.1.10แบบนี้ กลายไปเป็น 5.1.2 ได้ในห้องขนาดเล็ก ซึ่งจะเห็นได้ว่าคงไม่มีทางไหนที่จะสามารถทำให้เสียงออกมาได้สุดๆแบบนี้ถ้าไม่ใช้วิธีแบบ object-based เพื่อrenderเสียงตามที่ตั้งใจลงไปยังลำโพงที่ใช้อยู่ในห้อง

การใช้การmixแบบให้มีobjectวิ่งไปมาก็อาจจะทำให้audio engineersไม่คุ้นเคยเหมือนกับระบบchannel-base systemsที่เคยทำมา แต่ระบบแบบobject-oriented systemsก็มีข้อได้เปรียบที่สามารถscaleปรับให้ระบบเข้ากับลำโพงlayoutsที่ใช้อยู่ในห้องได้หลายรูปแบบ อย่างเช่นในระบบ 7.1ที่ระบบเสียงแบบเดิมไม่สามารถสร้างobjectแบบพิเศษที่สามารถวิ่งไปมา สามารถกำหนดขนาดของobjectได้ แต่เมื่อเปลี่ยนใช้ระบบของdolby atmosก็จะมีการscaleให้เสียงเข้ากับระบบลำโพงlayoutแบบเดิมที่เป็น7.1เพื่อทำให้เกิดeffectของวัตถุ ทำให้วัตถุสามารถเคลื่อนที่ เปลี่ยนขนาดได้ตามที่sound designerได้สร้างสรรค์ขึ้นมา

รูปที่9 layout ลำโพงในระบบDolby Atmosที่ใช้ภายในบ้านแบบ 24.1.10

DTS:X และ DTS:X Pro

DTS:X ระบบพื้นฐานก็เป็นแบบobject basedเช่นกัน แต่รูปแบบของข้อมูลmetadataจะแตกต่างจากของDolby Atmos อย่างไรก็ตามผลลัพธ์ของเสียงที่ออกมาก็ถือได้ว่ามีความใกล้เคียงกัน โดยถ้าเป็นDolby Atmosจะใช้ระบบการระบุตำแหน่งอ้างอิงตามแกน x/y/z เช่นตำแหน่งวัตถุต่างๆก็จะอ้างอิงจากความยาว ความกว้าง ความสูงของห้อง แต่DTSจะใช้วิธีการระบุตำแหน่งโดยใช้ระบบพิกัดเชิงขั้ว(polar coordinate system) คือมีการใช้มุมของazimuthบอกตำแหน่งเทียบกับทิศ ร่วมกับมุมองศาของการยกขึ้นและระยะทางจากตำแหน่งจุดนั่งฟังหลัก อย่างไรก็ตามข้อมูลพื้นฐานอื่นของmetadataก็ใช้ใกล้เคียงกับatmosคือตำแหน่ง ขนาดของวัตถุในช่วงเวลา ส่วนจุดแตกต่างหลักอีกอย่างระหว่างDTSและAtmosก็คือ DTSใช้layoutลำโพงที่ล้อมรอบตำแหน่งนั่งฟังหลักในระยะห่างเท่าๆกันรอบรอบตัวผู้ฟัง นึกภาพถึงเรานั่งเป็นจุดศูนย์กลางแล้วมีลำโพงวางอยู่รอบตัวแล้วทุกตัวหันหน้าเข้ามาหาจุดนั่งฟังนั้น และเช่นเดียวกับDolby Atmosที่มีversionสามารถใช้ได้ทั้งในโรงภาพยนตร์DCIทั่วไป และใช้ในบ้าน(อาจจะมีข้อจำกัดในเรื่องbandwidthของแผ่นBlu-ray Disc) DTS:X ก็มีversionที่ใช้ทั้งในcinema/pro และversionที่ใช้ภาพในบ้าน สำหรับระบบDTS:X Proที่พึ่งเปิดตัวไป ก็จะเป็นการupgradeจากDTS:Xเดิมที่ถูกจำกัดอยู่แค่ 11.1channel ให้สามารถรองรับchannelsได้มากขึ้นไปถึง 30.2channelsเลย

รูปที่10 DTS X Pro สามารถรองรับchannelsได้มากถึง 32channels

IMAX Enhanced

พูดถึงโรงIMAXทุกคนก็นึกออกว่าคือโรงภาพยนตร์เชิงพาณิชย์คุณภาพสูง ที่มีจอและระบบเสียงขนาดใหญ่ ซึ่งตอนนี้ได้เริ่มกระโดดเข้ามาสู่ระบบimmersive soundภายในบ้านด้วย โดยในฝั่งของระบบเสียงIMAX Enhancedได้ร่วมกับทางDTSพัฒนาเพื่อให้เป็นDTS:Xรูปแบบเฉพาะอีกรูปแบบหนึ่ง นำเอาข้อมูลเสียงmixedเพื่อโรงIMAXที่เป็นระบบลำโพงfull-range 12channelsและไม่มี LFE channelเข้าไปสู่ระบบhome theaterภายในบ้าน แต่การนำไปใช้ภายในบ้านก็ต้องมีการใช้bass managementร่วมด้วยเพราะภายในบ้านคงจะมีไม่กี่บ้านที่มีลำโพงfull-rangeอยู่ล้อมรอบตัวทุกchannelโดยเฉพาะchannelที่อยู่ข้างบนเพดาน ดังนั้นPre-processorที่รองรับระบบIMAX Enhancedก็จะทำการbypassค่าsettingของbass managementที่ตั้งไว้ให้กับระบบเสียงอื่นเป็นbass managementที่ออกแบบมาสำหรับIMAX Enhancedโดยเฉพาะเพื่อคงสภาพเสียงที่ออกมาให้เสียงในห้องhome theaterมีความใกล้เคียงเสียงที่ได้ยินในโรงภาพยนตร์IMAX

หูของมนุษย์เราถูกออกแบบมาให้รับเสียงธรรมชาติล้อมรอบตัวแบบสามมิติ การออกแบบระบบเสียงให้ใกล้เคียงกับเสียงที่มีอยู่ในธรรมชาติจึงเป็นสิ่งที่ท้าทาย เพื่อให้เวลาฟังเสียงในระบบนั้นแล้วมีความรู้สึกเหมือนกับว่าได้เข้าไปอยู่ร่วมในเหตุการณ์นั้นจริง ดังนั้นในปัจจุบันจึงมีระบบเสียงสามมิติที่เรียกว่าImmersive Soundเกิดขึ้นมากมายหลายระบบ แต่ละระบบก็จะมีข้อดีข้อเสียข้อกำหนดต่างๆแตกต่างกันออกไป ซึ่งก็คงต้องมีการพัฒนาต่อไปอีก แต่อย่างที่บอกไว้ว่าตอนนี้ยังเป็นช่วงเริ่มแรกของการพัฒนาเสียงImmersive Soundในระบบต่างๆ เทคโนโลยีในแต่ละระบบก็ยังไม่นิ่ง และในอนาคตต่อไปการที่จะทำให้ระบบต่างๆสามารถใช้ร่วมกันได้ในทุกโรงภาพยนตร์ ในทุกห้องhome theaterจะเป็นไปได้มากน้อยขนาดไหนก็คงต้องรอลุ้นติดตามกันต่อไป ถ้ามีความคืบหน้าหรือความก้าวหน้าของระบบเสียงImmersive Soundใหม่ๆขึ้นมาผมก็จะนำมาเสนอให้ท่านผู้อ่านได้ติดตามกันต่อไปเรื่อยๆเช่นเคยครับผม

รูปที่12 Immersive Soundจะเป็นอย่างไรในอนาคต ต้องคอยติดตามกันต่อไป

ดาวน์โหลดบทความ Immersive Audio Past Present and Future (PDF)

ทพ. พงศ์ทิพจักร์ เชื้อเจ็ดองค์

หมอเอก หมอฟันผู้มีความหลงไหลชื่นชอบในเรื่องHometheater/Homecinema ด้วยความสนใจใคร่รู้ว่าเสียงและภาพในห้อง Hometheater จริง ๆ แล้วควรจะเป็นอย่างไร เลยลงทุนไปเรียนหลายสถาบันทั่วโลกไม่ว่าจะเป็น THX, HAA, ISF, CEDIA, PVA, Meyer Sound Training, Smaart Training นอกจากนี้ก็เคยเข้าไปสัมผัสห้องสตูดิโอ และโรงภาพยนตร์ระดับมาตรฐานของโลกหลายแห่งไม่ว่าจะเป็น Stag theater, Kurasawa Dubbing Stage, Skywalker Sound Studio ของ Lucasfilm/ Pearson Theater,Bear’s Labของ Meyer Sound/ Dolby Cinema™ โดยความรู้และประสบการณ์ที่ได้มานั้นก็ได้นำมาเขียนเป็นบทความลงนิตยสาร และทำสื่อมัลติมีเดียออนไลน์เป็นเวลาหลายปี ตอนนี้ก็ได้นำบทความสื่อต่าง ๆ รวมถึงบทความใหม่ ๆ คลิปวิดีโอใหม่ ๆ ที่จะมีขึ้นในอนาคตมารวบรวมกันไว้ที่ website นี้ เพื่อให้ใครที่สนใจในเรื่องของ Hometheater เอาไว้เสริมความรู้ และเผื่อสามารถนำไปประยุกต์ใช้ในสถานการณ์ที่อาจจะพบเจอในการเล่นเครื่องเสียงของแต่ละท่านได้