Jeanyoon Choi

← Back to Main

Audio-Visual Disentanglement

8/13/2024, 1:41:03 PM | Jeanyoon Choi

Audio-Visual Disentanglement
Original Notes (Pre-LLM)

설계된 경험: 유사-디오니소스/키치: 마블, 디즈니, 천만영화, 알고리즘, 디오니소스적 욕구의 알고리즘적/단차원적 해소: 마치 맥도날드의 햄버거와 같은 불량식품들

불편한 경험: Uncanny, 분명히 하하 호호 웃고 있는데, 뭔가 어디가 상당히 이상한듯한?

설계된 경험은 옛 Masterpiece/디오니소스를 모방하여 대량생산하였다.

불편한 경험의 공모 또한 설계된 경험을 모방하는데서 시작됨: 역전의 역전, 모방의 모방

겉으로는 굉장히 시뮬라시옹 적인 기획, 그러나 이 시뮬라시옹의 허점이 대번에 들어나는데에서 uncanny함… 가장 대표적인 Example: Audio-Visual Disentanglement

분명히 하하 호호 웃고 있는데, 소리는 그렇지 않은 비명소리? (잘 디자인된)

비주얼은 밝지만, 오디오는 어두운 케이스.

굉장히 목소리는 (TTS) 상냥하고 친절한데, 비주얼은 그렇지 않은 딱딱한 숫자의 향연들?

오디오는 밝지만, 비주얼은 어두운 케이스

그리고 카이스트 개관전 같은 경우: 제너레이트된 텍스트 자체의 표면적 의미나 제너레이트된 보이스 (TTS)는 친절하고 상냥한데, 비주얼은 매트릭스적인 휘몰아치는 숫자의 향연들. 인공지능이 본질적으로 시뮬라시옹/숫자 기반임을 말해주는데 유리한 기획?

이러한 Audio-Visual Disentanglement는 잘 디자인되어야함… 잘 디자인 되지 않을 경우 기획한 효과 못이룰수도 있음. 그러나 잘 디자인 하면 굉장한 Uncanny 유추할 수 있고, 많은 영화에서 실제로 차용하는 기법. Interactive Art는 여기서 한걸음 더 나아가 Audio-Visual 이 완전히 Entangle 되어있는 상태에서 시작해서… 점차 Uncanny함을 유도하기 위해 Audio-Visual 이 Disentangle 되기 시작했다가, 결국에 완전히 해체되고 분해되는

이러한 Disentangle 에 소프트웨어 아트적으로 또 활용할만한 기법: 플랫폼 (알고리즘적 관계) 를 만들어놓고, 여기에 이상한 변수를 넣어서 해체하기.

오메가의 케이스: 처음에는 회전하는 동영상들이 일렬로 나열되어서 잘 회전하다가… 점차 구조가 분해되자 그 회전의 속도들이 더욱 전체 structure을 어지럽게 만들어버리는 그러한 케이스

어떠한 상관관계/알고리즘적 연결관계가 99% 의 경우 들어맞지만… 1% 의 예외적 블랙스완이나 해체적인 기획 앞에서는… 그 알고리즘적 연결관계로 말미암아 해체와 붕괴, 파괴가 더욱 빨리 진행되는 그런 사례들

이런 알고리즘적 상관관계/연결관계를 디자인 하는 일이 나의 작품에서는 핵심적이다..

Reference: https://www.linkedin.com/pulse/%25EC%259C%25A0%25EC%2582%25AC-%25EB%2594%2594%25EC%2598%25A4%25EB%258B%2588%25EC%2586%258C%25EC%258A%25A4-jeanyoon-choi/?trackingId=BmRg6slEREum40UdnLJa2g%3D%3D

English Version (LLM-Generated)

The concept of "Designed Experience" incorporates the imitation of revered masterpieces, mirroring Dionysus in a mass-produced manner, similar to the production of junk food like McDonald's hamburgers. This "Uncomfortable Experience", on the other hand, conveys an uncanny atmosphere. Despite the laughter and mirth, something feels fundamentally off or wrong, reminding the viewer of the inherent simulation of the designed experience.

The outer layer projects a greatly accurate simulation, yet uncanny undertones creep in when cracks appear in this simulated front. Audio-Visual Disentanglement is a prime example of such a phenomenon. A scene that might elicit laughter could be accompanied by a scream or inappropriately jarring sounds. The visuals could be bright and cheerful, while the audio offers a contrasting dark ambiance.

Similarly, Hashcodes may feature a gentle, friendly voice against a backdrop of cold, numbing digits. While the acoustic aspect is sunny, the visuals supply a darker narrative. A premise similar to the KAIST exhibition, where the generated text and voice gave off a warm vibe, but the Matrix-like visuals of swirling numbers hinted towards the innate, numerical nature of AI.

A crucial detail in audio-visual disentanglement is getting the design right. Mishandling it could undermine the desired result. Skillful execution, however, can suggest uncanniness that many movies leverage. Interactive art goes a step further, from a state of complete entanglement between audio-visual components, gradually disentangling to enhance the uncanniness, and finally, complete disintegration.

This process of disentanglement brings in the software art perspective: designing a platform (algorithmic relationship) and introducing odd variables for disintegration. Omega’s case is a classic example, where initially harmonious sequences of rotating videos get gradually disrupted. The dissolution of the structure exacerbates the chaos produced by the videos' rotation.

Mostly, these algorithmic relationships might hold 99% of the time. Still, the 1% exception - the black swan or the deliberately destructive design - can accelerate this entropy. The art of sculpting such algorithmic relationships forms the crux of my work.

Korean Version (LLM-Generated)

설계된 경험: 마블, 디즈니, 천만 영화, 알고리즘 등이 대량 생산한 유사-디오니조스/키치 경험: 그것은 마치 맥도날드의 햄버거 같은 알고리즘적/단일 차원적인 디오니조스적 욕구 충족 이다.

불편한 경험: Uncanny, 확실히 우리는 웃고 있지만, 어딘가가 상당히 이상한가?

설계된 경험은 대량생산을 위해 과거의 걸작/디오니조스 - 마스터피스를 흉내 내었다.

불편한 경험의 함정 역시 설계된 경험을 흉내 내는 과정에서 시작된다: 반전의 반전, 모방의 모방.

눈에 보이는 것은 확실히 시뮬레이션 같은 계획이지만, 이 시뮬레이션의 누출이 한눈에 드러나는 곳에서 언캐니한 느낌이 든다... 가장 대표적인 예시는 음향-비주얼이 이질화하는 것이다.

확실히 우리는 웃고 있지만, 소리는 그렇지 않은 비명 같은 소리? (잘 디자인된)

비주얼은 화려하지만, 오디오는 어두움.

목소리는 (TTS)가 상냥하고 친절하지만, 비주얼은 딱딱한 숫자가 느껴지는가?

오디오는 화려하지만, 비주얼은 어두움인 경우.

그리고 카이스트 개관전 같은 경우: 생성한 텍스트의 표면적 의미나 생성된 음성 (TTS)는 친절하고 상냥하지만, 비주얼은 매트릭스 같은 숫자의 향연이다. 인공지능이 본질적으로 시뮬레이션/숫자 기반이라는 것을 비추어 보는데 도움이 되는 계획.

이런 오디오-비주얼의 이질화는 잘 디자인되어야 한다... 잘 디자인되지 않으면 기획한 효과를 내지 못할 수도 있다. 그러나 잘 디자인하면 매우 언캐니한 느낌을 주고, 많은 영화가 실제로 이 원리를 이용한다. 인터랙티브 아트는 이 원리를 한 단계 더 나아가 오디오-비주얼이 완전히 연결된 상태에서 시작해 점차 언캐니한 느낌을 주기 위해 이질화가 시작되며, 결국엔 완전히 분해되고 파괴된다.

이런 이질화에 소프트웨어 아트가 추가로 활용할 수 있는 방법은 플랫폼(알고리즘 관계)을 만들어 놓고 여기에 이상한 변수를 넣어 해체하는 것이다.

오메가의 경우 처음에는 동영상이 순서대로 잘 회전하지만, 점차 구조가 분해되면서 회전의 속도가 전체 구조를 더 어지럽게 만드는 것이다.

어떤 상관 관계/알고리즘적 연결 관계가 99%의 경우에는 들어맞지만, 1%의 예외적인 경우나 파괴적인 기획 앞에서는, 그 알고리즘적인 연결 관계 때문에 파괴와 붕괴, 해체가 더 빨리 진행되는 경우가 있다.

나의 작품에서 이런 알고리즘적 상관 관계/연결 관계를 디자인하는 것이 핵심이다.

참조:

Tags

Audio-Visual Disentanglement

Uncanny

디오니소스

키치

마블

디즈니

천만영화

알고리즘

디오니소스적 욕구

알고리즘적/단차원적 해소

맥도날드의 햄버거

불량식품

설계된 경험

Masterpiece

대량생산

불편한 경험

공모

모방

역전

시뮬라시옹

허점

대번

uncanny

예외적

블랙스완

해체

분해

파괴

알고리즘적 연결관계

디자인



Text written by Jeanyoon Choi

Ⓒ Jeanyoon Choi, 2024