Asal Usul Suara Obrolan Video
Element

Asal Usul Suara Obrolan Video

[ad_1]

Suatu malam, tiga teman sekamar saya dan saya tersebar di seluruh area umum kami ketika salah satu teman kami FaceTimed masuk. Saya ingin mendengar bagaimana dia bertahan, dan teman sekamar saya meletakkannya di speakerphone — tetapi, saat suaranya bergetar, kekeruhannya membuatku kesal. Suara yang masuk melalui telepon tidak memiliki bentuk atau elastisitas suaranya yang normal. Saya merasa kehilangan. Kami menerima kegagalan aneh dari teknologi kami; Saya tidak akan pernah mengharapkan video real-time mengatasi ketidaknyamanan yang melekat dalam mengubah tiga dimensi menjadi dua. Tetapi karena suara kami tidak terlihat — hanya udara — sesuatu dalam diri saya berpikir bahwa mereka akan berjalan lebih baik.

Beberapa hari kemudian, tanpa sengaja mendengar salah satu teman sekamar saya berbicara dengan rekan kerjanya di panggilan Google Hangouts, saya bertanya-tanya lagi tentang suara obrolan video — perkiraan yang agak sengau dari diri kami sendiri yang kami dengar setiap kali kami difilter melalui teknologi konferensi video. Begitulah suara lawan bicara Internet kita apakah mereka di seluruh dunia atau, hari ini, di seluruh kota. Ini menjadi suara jarak sosial. Apa yang menjelaskan karakter khususnya?

Untuk mengetahuinya, saya mengatur panggilan FaceTime dengan Chris Kyriakakis, seorang profesor teknik listrik dan komputer di University of Southern California dan kepala ilmuwan audio untuk Syng, sebuah perusahaan pengeras suara. Kyriakakis adalah ahli dalam penciptaan ulang dan persepsi suara; dia telah bekerja pada tim peneliti multi-universitas yang bertujuan untuk mereplikasi akustik gereja-gereja era Bizantium secara digital. Saat membahas subjek video-chat suara yang kurang luhur, dia menjelaskan bahwa, untuk memaksimalkan kejelasan suara yang dikirimkan komputer saya, saya harus memperhatikan dua faktor. Salah satunya adalah jarak antara mulut saya dan mikrofon. Jika kami bertemu secara langsung, katanya, dan saya duduk enam kaki darinya, otaknya akan fokus pada suara saya dan menyaring kebisingan latar belakang. Tapi mikrofon tidak mendengar seperti telinga manusia, dan tidak begitu tajam; mereka hanya menangkap apa yang paling keras, dan ketika pembicara berada jauh, suara lain bersaing dengan suara orang itu. Kuncinya adalah memperpendek jarak. Kyriakakis melakukannya dengan memakai headphone dan mikrofon; sebagai hasilnya, suara yang dipancarkannya sedikit lebih hangat daripada suara saya, karena saya menggunakan mikrofon laptop saya dan — tidak ingin memadati kamera — duduk bersandar di kursi saya.

Faktor kedua adalah gema ruangan, yang ditentukan oleh volume fisik dan daya serap isinya. Suara Anda tidak pernah hanya suara Anda; bahkan selama percakapan langsung, kata-kata seseorang mengambil karakter lingkungannya. “Suara yang masuk ke telinga saya saat Anda berbicara dengan saya juga berasal dari ribuan arah lain saat memantul di sekitar ruangan,” jelas Kyriakakis. “Otak kita terus-menerus menganalisis itu untuk mendapatkan gambaran tentang, Oke, kita berada di kamar anak saya versus lapangan racquetball.” Sebuah ruangan dengan banyak permukaan reflektif, katanya, akan membuat saya bersuara seolah-olah saya sedang mandi. Permadani, tirai, selimut, sweter saya — apa saja yang mewah — akan membantu mengurangi seberapa banyak suara saya berderak, meningkatkan ketepatan transmisi saya. Bahkan manusia, sebagai wadah air, dapat menyerap gema. Ini, kata Kyriakakis, adalah mengapa beberapa orkestra menawarkan tiket murah untuk latihan: dengan memenuhi ruangan, mereka memberi musisi perasaan yang lebih akurat tentang seperti apa suara auditorium pada malam pembukaan. Akustik di aula konser umumnya merancang dengan asumsi bahwa penonton akan hadir, meskipun banyak kursi empuk di aula konser cukup menyerap untuk membuat perbedaan sonik antara rumah yang penuh dan pertunjukan yang kurang dihadiri dapat diabaikan.

Namun, di rumah, tinggal di kamar yang empuk atau berkerumun di sekitar Anda untuk meningkatkan suara kencan Skype mungkin tidak ideal. Sebaliknya, Kyriakakis telah merancang ruang tamunya menjadi lingkungan di mana audio dapat menjadi dirinya yang terbaik dengan menggunakan panel dinding berlubang dan bertingkat yang menyerupai sekelompok gedung pencakar langit dilihat dari atas; mereka secara tepat menyerap dan menyebarkan suara. “Saya memiliki istri yang pengertian, dan saya dapat meletakkan benda-benda di dinding yang artistik tetapi memiliki sifat yang membunuh semua pantulan dan gaung,” katanya. Saya ingin sekali melihat pengaturan ini untuk diri saya sendiri; sayangnya, pada hari kami melakukan FaceTimed, anjing dan mesin pencuci piring Kyriakis telah mengirimnya mencari ketenangan di kamar putranya. Namun, ternyata hal ini membuat percakapan kami terdengar lebih realistis. Kamar putranya kemungkinan besar ukurannya lebih dekat dan bergema ke kamar tidurku, tempat aku menelepon. Menurut Kyriakakis, menciptakan rasa keintiman sonik secara online bukan hanya masalah kejelasan tetapi kesamaan. Untuk memaksimalkan perasaan berada di ruangan yang sama, penelepon harus berbicara dari ruang pantul yang serupa.

Untuk mencapai mikrofon, suara Anda hanya perlu berjalan beberapa kaki (atau, sebaiknya, inci). Perjalanan yang lebih panjang dan transformatif di Internet masih akan datang — sebuah perjalanan melintasi medan yang selalu berubah baik yang diperhalus atau diperparah oleh bandwidth jaringan. Stephen Casner, salah satu pionir awal transmisi audio dan video di jaringan seperti Internet, mengatakan kepada saya bahwa, untuk melakukan perjalanan, suara Anda harus dikecilkan dan dipotong oleh apa yang disebut codec, menjadi paket suara. Setiap paket berisi sekitar dua puluh milidetik audio terkompresi — ooh, ah, suara “s”. Seolah-olah, alih-alih mengirimi seseorang surat tertulis, Anda mengirimi mereka kumpulan kartu pos berurutan dengan suku kata individual. Paket-paket ini kemudian di-zip ke komputer mitra percakapan Anda, di mana codec lain membuat ulang suara tepat sebelum keluar dari speaker.

Terkadang, paket hilang. Jika Anda sedang streaming film, perangkat lunak dapat mempersiapkan kemungkinan ini dengan “penyanggaan”, membuat batas waktu beberapa detik yang memungkinkan transmisi ulang komponen yang hilang. Film mungkin tidak dapat terus diputar hingga setiap tetesan aliran yang diperlukan telah tiba. Tetapi untuk menghindari penundaan yang canggung ke dalam percakapan kita, perangkat lunak audio real-time harus bekerja hanya dengan sedikit jeda untuk memeriksa paket yang tersesat. Jika mereka tidak datang, biarkan saja.

Pertanyaannya, kemudian, apa yang harus dilakukan untuk mengisi celah tersebut. Teknologi konferensi video menggunakan codec suara, yang menurut Timothy Terriberry, seorang insinyur di Mozilla, dirancang khusus untuk meniru saluran suara manusia. (Algoritme yang berpusat pada manusia ini adalah alasan mengapa musik instrumental yang diputar melalui obrolan video bisa terdengar sangat mengerikan, kata Terriberry.) Kami berbicara melalui obrolan hanya suara di Zoom, yang terkadang menggunakan protokol untuk codec audio yang dibantu oleh Terriberry. Jika codec suara menemukan apa yang dianggapnya vokal yang hilang, codec tersebut mungkin membaca apa yang muncul sebelum dan sesudahnya untuk mendapatkan petunjuk. Kemudian meluas atau menyisipkan nada datar, tebakan terbaik tentang bagaimana suara manusia akan mengisi ruang tersebut. Hal ini dapat menyebabkan efek seperti Auto-Tune, mengubah kita menjadi T-Pains sementara. Frikatif — konsonan yang dihembuskan di “fridge” dan “thunk” —sangat menantang untuk codec suara. Mereka lebih pendek dan kurang berulang, dan karena itu lebih mungkin hilang. Mereka juga sangat sulit ditiru oleh komputer, yang merupakan salah satu alasan mengapa suara obrolan video seseorang sering terdengar seperti mendesis atau berkicau sebentar.

Setelah berbicara dengan Terriberry, saya mulai mendengarkan keunikan ini. Ketika saya dan dua saudara laki-laki saya menyusul, dan suara mereka kadang-kadang terpotong atau terdengar seperti robot, saya menghargai apa yang telah dicoba oleh sistem. Alat pendengar yang kurang tepat dari telingaku menangkap suara yang kemudian hilang; untuk mengisi kekosongan, paduan suara teknologi telah bergegas untuk menyulap tiruan saudara-saudaraku. Di satu sisi, mengetahui tentang semua upaya tersembunyi itu membuat ketidaksempurnaan lebih bisa diterima daripada membuat frustrasi; Kesalahan kecil perangkat lunak hampir tampak seperti kesalahan yang, jika saya membuatnya, saudara-saudara saya akan mengejeknya. Suara obrolan video mereka terdengar sedikit lebih manusiawi saat mereka mengalir ke kamar saya, sedikit demi sedikit.

Di Persembahkan Oleh : Keluaran SGP