Ingestion and black exclusion
ffprobe と blackdetect で `sonar2025-all.mov` を解析し、完全黒画面を除外した可視区間から代表フレームを抽出しました。
sonar2025-all.mov を基準参照素材として、映像+音声の Gemini 埋め込み、retrieval、低レベル特徴解析、評価に接続できる指標群までをまとめた公開用サマリーです。
今回の作業で、参照映像の ingest から Gemini multimodal embedding、retrieval、feature analysis、公開レポートまでをひとつの流れに接続しました。
ffprobe と blackdetect で `sonar2025-all.mov` を解析し、完全黒画面を除外した可視区間から代表フレームを抽出しました。
映像と音声を同一 clip として `gemini-embedding-2-preview` に送り、60 秒窓の multimodal embedding を本番予算内で生成しました。
nearest neighbors、cluster browse、region compare、pgvector seed/schema を生成し、reference 空間を検索可能にしました。
色、明るさ、彩度、edge density、sharpness、entropy、optical flow を clip 単位で要約し、semantic embedding とは別の評価軸を追加しました。
WebGL と tabbed layout を持つ詳細レポートを作成し、公開向けにはさらに成果と今後の方針を整理した要約ページに再構成しました。
いま得られている結果は、reference manifold、similarity surfaces、feature signatures、コスト管理済みの production run です。
最初の clip は `clip_004_002256982` と 0.952334 の similarity で最も近く、taste manifold の近傍説明に使えます。
Mid と Late の temporal centroid similarity は 0.979026 で、高い一貫性を持つ参照空間として扱えます。
brightest は `clip_010_005930899`、highest motion は `clip_005_002901763`、most colorful は `clip_007_004116557` でした。
このスタックは、生成映像を reference 空間に投影し、ranking・reject・steering に使うための評価基盤として使えます。
生成映像を同じ clip pipeline に通すと、reference manifold への近さで候補の優先順位を付けられます。
暗すぎる、動かなすぎる、reference cluster から外れすぎる候補を low-level と embedding の両面から落とせます。
どの reference clip に近いか、どの cluster に入るか、brightness や motion がどれだけズレているかを説明付きで返せます。
cluster を維持しながら motion や brightness を増減するといった形で、次の generation condition に戻す制御信号を組めます。
この解析は、生成映像そのものの絶対評価ではなく、あなたの reference corpus に対する相対評価に使うのが適切です。Aesthetic OS ではここを score kernel として使い、ranking、reject filtering、next steering の三段に落とし込みます。
今回の run から、cluster exemplar と feature extreme を代表フレームとして抜き出しています。
Aesthetic OS の中心ループは ingest → embed → retrieve → compare → steer です。今回の成果は、そのうち ingest から retrieve、そして steer 用の評価指標までをつなぐ基盤レイヤーに当たります。
このページは完成アプリではなく、審美判断を外部化するための下層インフラの公開要約です。positive reference から taste manifold を構成し、生成物をそこへ投影して判定可能にするための基盤として位置付けています。
次段では generated outputs の評価ループと vector database への常設運用を進め、Aesthetic OS の判断系を本番フローへ寄せます。
生成候補を同じ ingest / embed / feature pipeline に通し、reference similarity、cluster fit、low-level band fit で pass-hold-reject を判定します。
pgvector か Qdrant に clip vector と metadata を入れ、検索 API と region compare API を常設化します。
現在の 60 秒窓を shot-aware segmentation に置き換え、より細かい camera language と motion structure を拾えるようにします。
自動評価だけで完結させず、人間の pairwise judgment を記録して positive / negative reference を更新する学習ループへ進めます。
FIL スタイルの詳細レポートには、WebGL 可視化、retrieval browse、low-level feature charts、コスト内訳を収録しています。