Conducting
the Space
言語が意図を運び、センサーがニュアンスを伝える
ライブパフォーマンスとインスタレーション
言語が意図を運び、センサーがニュアンスを伝える
ライブパフォーマンスとインスタレーション
本作品は、パフォーマーが自然言語で「指揮」を行う45分間のライブパフォーマンスとして構想されています。その言語的意図は、身体と空間を捉えるマルチモーダルセンサーデータ — 呼吸、心拍、脳波(EEG)、慣性計測装置(IMU)、カメラベースのセンシング — と統合され、音響・空間音響・映像・照明の統一的な環境をリアルタイムに生成・制御します。
パフォーマンス終了後、同システムは観客がアクセス可能な展示モードに移行し、言語と身体的・生理的シグナルが空間表現にどう変換されるかを、来場者自身がインタラクションを通じて体験できます。
本作品では、自然言語が「意図」— 離散的で記号的な方向性 — を担い、センサーが「連続的なニュアンス」— 強度、揺らぎ、身体状態 — を担います。この両者を同時に用いることで、同じ言語指示であっても、生理的状態や空間のダイナミクスによって異なるアウトプットが生まれます。
指揮は固定されたコマンドとしてではなく、空間との継続的な交渉として可視化されます。
内部的には単一のモノリシックモデルではなく、リアルタイム動作のためにオーケストレーションされた複数の専門エージェントで構成されています:
◦ Conductor — 音声入力を実行可能な指示に構造化
◦ Sensor Fusion — センサー間の正規化と信頼性推定
◦ Domain Agents — ドメインごとの専門的な生成・制御(音響 / 空間音響 / 映像 / 照明)
◦ Safety Governor — ハードリミットと禁止行動、手動介入パスを含む
概要 — パフォーマーの発話はリアルタイムでClaude APIによって解釈され、構造化されたJSON制御オブジェクトに変換されます。そのJSONが、オリジナルモジュラーシンセサイザーおよびソフトウェアシンセ(CV)、32チャンネル空間音響スピーカーアレイ、舞台照明(天井スポットライト32台+フロア/空間用バーLED 32台、DMX512)、リアルタイムジェネラティブグラフィックス、空間トラッキング(PosiStageNet)を同時に制御します。この離散的な意図レイヤーの上に、マルチモーダルセンサーデータ — 特にジェスチャー — が全出力ドメインを継続的に変調し、言語指示だけでは符号化できない生理的ニュアンスを付加します。
パフォーマーの声は低遅延のノイズキャンセリングワイヤレスマイクで収音され、ラウンドトリップ時間を最小化するためにローカルで動作する音声認識エンジンに送られます。書き起こされたテキストは、JSONスキーマ・安全制約・芸術的意図と技術パラメータ間のマッピング語彙を定義した緻密なシステムプロンプトとともにClaude APIへ送信されます。
Claudeは単純なコマンド分類を行うのではなく、作曲的意図を解釈します。例えば「低域をステージ左にドリフトさせつつ、上方倍音を散乱させて」というフレーズは、ドメインごとの指示値・遷移カーブ・タイミングエンベロープを含む構造化JSONオブジェクトに変換されます。システムプロンプトには各出力ドメインの全パラメータ空間が含まれており、APIからのすべてのレスポンスが中間パース不要で直接制御データにマッピングされます。
45分間のパフォーマンス中のリアルタイム応答性を維持するため、Claude APIのストリーミングモードを使用し、完全なレスポンスを待たずに部分的なJSONから出力パラメータの駆動を開始します。ローカルのバリデーションレイヤーが構造的整合性をチェックし、値がハードウェアレイヤーに到達する前にレンジ制約を適用します。
中央のJSONオブジェクトはシステムの神経系として機能し、すべての出力ドメインへの指示を同時に搬送する単一の構造化ドキュメントです。スキーマはバージョン管理され厳密に型付けされており、各ドメインは独自の名前空間を持ちます:
{ "cv": { "osc1_freq": 220, "osc1_shape": 0.7, "filter_cutoff": 3200, "envelope": "slow_rise", ... },
"dmx": { "universe": 1, "spots": { "intensity": 0.6, "color_temp": 3200, ... }, "bars": { "r": 180, "g": 40, "b": 90, ... } },
"video": { "scene": "particles", "palette": "warm_drift", "density": 0.7, "gesture_reactivity": 0.9, ... },
"posinet": { "sources": [{ "id": 1, "x": -2.3, "y": 0.8, "z": 1.5 }], "interpolation": "cubic" },
"spatial_audio": { "engine": "dbs", "objects": [{ "id": 1, "azimuth": -30, "elevation": 15, "spread": 0.4 }] },
"transition": { "duration_ms": 2000, "curve": "ease_in_out" },
"meta": { "scene": "drift", "intensity": 0.65, "timestamp": 1719483920 } }
各APIレスポンスはデルタ(差分)を生成し、変更されたパラメータのみが含まれ、制御サーバー上の実行中状態にマージされます。これによりAPIトークン使用量と意図しないパラメータリセットのリスクを最小化します。"transition"ブロックにより、Claudeは変化がどのように展開するかを指定でき、AIに目標値だけでなく時間的ダイナミクスに対する作曲的制御を与えます。
CV(制御電圧)— オリジナルモジュラーシンセ+ソフトウェア
JSON "cv" 名前空間は、本作品のために設計されたオリジナルのカスタムモジュラーシンセサイザーおよびソフトウェアシンセサイザーのパラメータに、DC結合オーディオインターフェース(例:Expert Sleepers ES-9)とMIDI/OSCを介して直接マッピングされます。モジュラーシステムはオシレータ周波数、波形、フィルターカットオフ/レゾナンス、アンプリチュードエンベロープ、LFOレート、モジュレーションデプスの生のアナログ信号パスを提供します。ソフトウェアシンセはポリフォニックレイヤーおよびサンプルベースレイヤーとして並行動作します。Claudeは音楽的に意味のあるターゲット(「55Hzのダークでレゾナントなドローン」)を指定でき、システムプロンプトがハードウェアとソフトウェア両方のパラメータに同時変換します。
DMX512 — 天井スポットライト32台+バーLED 32台
"dmx" 名前空間は、Art-NetまたはsACN over Ethernetを介して2つのDMXユニバース上の計64台の照明器具をアドレスします。リグは天井グリッドに設置された32台のムービングスポットライト — パフォーマーと空間をトラック、アイソレート、スカルプトする集光的な指向性照明 — と、床面および壁面に配置された32台のバーLEDフィクスチャ — フロア面を洗い、空間ボリュームを色彩で充填するための拡散照明 — で構成されます。Claudeの指示は44Hzリフレッシュレートでチャンネルごとの値に変換され、ハイレベルな記述(「天井スポットを単一の白い点に絞り、フロアバーはディープブルーでゆっくり呼吸」)も器具ごとの精密な制御も可能です。この上下二層設計により、Claudeは照明を単なる照射ではなく、空間的マテリアルとして作曲できます。
PosiStageNet (PSN) — 空間トラッキング
PosiStageNetはショーコントロールネットワーク上でリアルタイム3D位置データを伝送するオープンプロトコルです。本システムでは二重の目的で使用されます:(1) カメラやIMUセンサーからパフォーマーと物理オブジェクトのトラッキング位置を受信、(2) 空間音響エンジンへ仮想音源位置を伝送。JSON "posinet" 名前空間は共有3D座標系(メートル単位、ステージ中心原点)で音源位置を定義し、補間モード(キュービック=スムーズな空間移動、リニア=直接ジャンプ、スプライン=振付けされた軌道)を指定します。
空間音響 — 32スピーカーアレイ(d&b Soundscape / Yamaha AFC)
パフォーマンス空間を囲む32台のスピーカーアレイが、d&b Soundscape(DS100シグナルエンジン、En-Scene/En-Space処理)またはYamaha AFC(Active Field Control / AFC Image)によって駆動されます。JSON "spatial_audio" 名前空間はオブジェクトごとのパラメータ(方位角、仰角、距離、スプレッド、リバーブセンドレベル)を定義します。モジュラーおよびソフトウェアシンセサイザーからの音響オブジェクトは個別に空間化され、エンジンのルームモデルを介して物理スピーカーアレイにマッピングされます。Claudeは空間的振る舞いを自然言語で記述でき(「声が観客の頭の高さで旋回しながらゆっくり上昇」)、これがフレームごとの位置更新を含むオブジェクト軌道に分解されます。32スピーカー構成は、精密なオブジェクトローカリゼーションに十分な角度分解能を持つ全球カバレッジを提供します。
リアルタイムジェネラティブグラフィックス
"video" 名前空間はパフォーマンス空間内に投影・表示されるリアルタイムジェネラティブビジュアルを制御します。グラフィックスはGPUアクセラレーテッドレンダリングエンジン(GLSL / openFrameworks / TouchDesigner)で生成され、Claude APIの指示と生のセンサーデータを同時に受信します。Claudeが作曲的フレームワーク — シーン選択、カラーパレット、パーティクル密度、幾何学構造、モーション挙動 — を設定する一方、パフォーマーのジェスチャー(IMU角速度、骨格トラッキング)と生理状態がビジュアルパラメータをリアルタイムで直接変調します。「散乱する光に溶解、クールトーンで」という発話はClaudeにシーン変更とパレット・密度ターゲットを出力させ、パフォーマーの手の動きがビジュアルフィールドを継続的に変形・散乱・再形成します。この二重入力モデルにより、グラフィックスは純粋にアルゴリズム的でも純粋にジェスチャル的でもなく、他のすべての出力ドメインと同じ交渉された空間に存在します。
Claude APIが作曲的骨格 — 各瞬間の「何を」「どこで」— を提供する一方、センサーレイヤーは「どれだけ」「どの強度で」を提供します。マルチモーダルセンサーデータがClaudeの設定したパラメータを継続的に変調し、離散的な指示を生きた呼吸する表現に変換する生理的次元を付加します。
センサーフュージョンモジュールは5つのストリームからのデータを正規化します:呼吸レートと深度(胸バンドまたはインピーダンスニューモグラフィ)、心拍数とHRV(PPGまたはECG)、EEGパワーバンド(α波・β波・θ波 — ドライ電極ヘッドバンド経由)、9軸IMU(加速度計・ジャイロスコープ・磁力計 — ジェスチャーと姿勢用)、カメラベースの骨格トラッキング(ボディポーズ、表情、運動速度)。
各センサーストリームは特定のモジュレーションターゲットにマッピングされます。例えば:呼吸深度はClaudeが指定したフィルターカットオフ範囲をスケーリング — 深い呼吸はスイープを拡大します。心拍変動はDMXストロボ/パルスタイミングを変調し、パフォーマーの心臓状態に同期するリズミカルな照明を生成します。EEGα波パワー(リラックスした注意に関連)は空間音響スプレッドパラメータをスケーリング — より深い落ち着きがより広く拡散的な音場を生み出します。IMU角速度はCVモジュレーションデプスとビジュアルパーティクル分散の両方にマッピング — 速いジェスチャーがより攻撃的な音色変調とより爆発的なビジュアルダイナミクスを生みます。カメラトラッキングされたボディポーズはグラフィック変形マトリクスを駆動し、パフォーマーのシルエットと動きが投影映像を直接スカルプトします。
重要なのは、センサー値はClaudeの指示を上書きしない点です — Claudeが定義した範囲内で変調します。Claudeがフィルターカットオフ3200Hz、変調範囲±1600Hzと指定した場合、呼吸センサーはその1600〜4800Hzのウィンドウ内でスイープします。これによりAIの作曲的意図が保持されつつ、パフォーマーの身体が連続的で予測不可能なニュアンスを付加します。結果として、同じ言語指示が繰り返されても、出力は毎回異なります — パフォーマーの変化する生理状態によって形作られるからです。
エンドツーエンドのレイテンシーバジェットは、発話から可聴/可視の変化まで300ms以下を目標とします — 音楽的応答性の知覚閾値内です。バジェットの配分:音声認識 約80ms(ローカルWhisper推論、GPU)、Claude APIストリーミング・ファーストトークン 約120ms、JSONバリデーションとディスパッチ 約5ms、プロトコル伝送 約10ms、デバイス応答 約30〜80ms(出力ドメインに依存)。センサーモジュレーションについてはAPI介在がないため、レイテンシーは大幅に低く(合計約15ms)、センサーフュージョンモジュールから出力レイヤーへ直接データが流れます。
中央制御サーバー(Node.js / Python)がオーケストレーションハブとして機能し、Claude APIからJSONを受信、実行中状態にマージ、センサーモジュレーションを適用し、専用ネットワークインターフェース経由で各出力プロトコルに同時ディスパッチします。すべてのプロセス間通信は共有メモリまたはローカルUDPを使用してオーバーヘッドを最小化します。
AI技術が急速に進化する中、本アーキテクチャは意図的にモジュラーに設計されており、定められたパフォーマンスおよび安全基準に基づき、制作過程で最適なツールを組み込むことができます。
ライブの信頼性のために、本番前のバージョンフリーズウィンドウを設け、ネットワーク障害・認識失敗・センサー脱落に対応する堅牢なフォールバック動作(セーフプリセットと手動オーバーライド経路)を実装します。
sonicPlanetは、AIを用いたオーディオおよびライト制御のプラグイン・ソフトウェア開発を専門とする企業です。本プロジェクトのコアとなる技術を開発します。
既にリリースされている SPAT AI — AIを活用した空間音響ソフトウェア — を活用・応用することで、確実かつ安価に、スピーディーな開発を実現します。実績のある基盤技術があることで、リスクを最小化し、クリエイティブな探索により多くの時間を割くことができます。
長年のコラボレーター、Sinan Bokesoy(sonicPlanet / Sonic Lab で共同制作)も本プロジェクトに参加します。
SPAT AI →空間が聴く。
身体が語る。
交渉は、つづく。