REFERENCE VIDEO ANALYSIS / AESTHETIC EVALUATION STACK

Aesthetic OS

sonar2025-all.mov を基準参照素材として、映像+音声の Gemini 埋め込み、retrieval、低レベル特徴解析、評価に接続できる指標群までをまとめた公開用サマリーです。

Open Detailed Report View Key Frames

Source Asset

sonar2025-all.mov

sonar2025-all.mov / 74.8 min / ProRes

Embedding Model

gemini-embedding-2-preview

Gemini multimodal AV embedding

Clips Indexed

12 / 10 new / 2 reused

black sections excluded / visible intervals only

Dataset Cost

JPY 746.496

budget cap = JPY 1,000.000

This Run

JPY 622.080

new embeddings billed in this pass

Retrieval Clusters

4 / 12 clips

nearest neighbors / regions / cluster browse

Low-Level Features

Color / Light / Flow

color / light / texture / optical flow

01 / BUILD

This Work

今回の作業で、参照映像の ingest から Gemini multimodal embedding、retrieval、feature analysis、公開レポートまでをひとつの流れに接続しました。

01 / INGEST

Ingestion and black exclusion

ffprobe と blackdetect で `sonar2025-all.mov` を解析し、完全黒画面を除外した可視区間から代表フレームを抽出しました。

02 / EMBED

Gemini AV embeddings

映像と音声を同一 clip として `gemini-embedding-2-preview` に送り、60 秒窓の multimodal embedding を本番予算内で生成しました。

03 / RETRIEVE

Retrieval layer

nearest neighbors、cluster browse、region compare、pgvector seed/schema を生成し、reference 空間を検索可能にしました。

04 / FEATURE

Low-level feature layer

色、明るさ、彩度、edge density、sharpness、entropy、optical flow を clip 単位で要約し、semantic embedding とは別の評価軸を追加しました。

05 / REPORT

FIL report surface

WebGL と tabbed layout を持つ詳細レポートを作成し、公開向けにはさらに成果と今後の方針を整理した要約ページに再構成しました。

02 / OUTPUTS

Current Outputs

いま得られている結果は、reference manifold、similarity surfaces、feature signatures、コスト管理済みの production run です。

Budget Used 74.6%

Embedded Clips 10 / 12

Mid ↔ Late Similarity 0.979026

Best Neighbor Similarity 0.952334

Nearest neighbor

最初の clip は `clip_004_002256982` と 0.952334 の similarity で最も近く、taste manifold の近傍説明に使えます。

Region compare

Mid と Late の temporal centroid similarity は 0.979026 で、高い一貫性を持つ参照空間として扱えます。

Feature extremes

brightest は `clip_010_005930899`、highest motion は `clip_005_002901763`、most colorful は `clip_007_004116557` でした。

03 / EVALUATE

What It Enables

このスタックは、生成映像を reference 空間に投影し、ranking・reject・steering に使うための評価基盤として使えます。

Generated video ranking

生成映像を同じ clip pipeline に通すと、reference manifold への近さで候補の優先順位を付けられます。

Reject and safety filter

暗すぎる、動かなすぎる、reference cluster から外れすぎる候補を low-level と embedding の両面から落とせます。

Explainable critique

どの reference clip に近いか、どの cluster に入るか、brightness や motion がどれだけズレているかを説明付きで返せます。

Next-step steering

cluster を維持しながら motion や brightness を増減するといった形で、次の generation condition に戻す制御信号を組めます。

EVAL / GENERATED OUTPUTS

Generated-output evaluation

この解析は、生成映像そのものの絶対評価ではなく、あなたの reference corpus に対する相対評価に使うのが適切です。Aesthetic OS ではここを score kernel として使い、ranking、reject filtering、next steering の三段に落とし込みます。

04 / FRAMES

Representative Frames

今回の run から、cluster exemplar と feature extreme を代表フレームとして抜き出しています。

Cluster Exemplar 01

clip_001_000442640

cluster 01 の exemplar

Cluster Exemplar 02

clip_007_004116557

cluster 02 の exemplar

Cluster Exemplar 03

clip_008_004721337

cluster 03 の exemplar

Cluster Exemplar 04

clip_010_005930899

cluster 04 の exemplar

Highest Motion

clip_005_002901763

optical flow mean が最大

Most Colorful

clip_007_004116557

colorfulness が最大

Brightest Frame

clip_010_005930899

brightness が最大

Closest Pair Start

clip_004_002256982

最初の clip の最短距離 neighbor

05 / POSITION

Position In Aesthetic OS

Aesthetic OS の中心ループは ingest → embed → retrieve → compare → steer です。今回の成果は、そのうち ingest から retrieve、そして steer 用の評価指標までをつなぐ基盤レイヤーに当たります。

このページは完成アプリではなく、審美判断を外部化するための下層インフラの公開要約です。positive reference から taste manifold を構成し、生成物をそこへ投影して判定可能にするための基盤として位置付けています。

06 / NEXT

Next Direction

次段では generated outputs の評価ループと vector database への常設運用を進め、Aesthetic OS の判断系を本番フローへ寄せます。

Evaluate generated outputs

生成候補を同じ ingest / embed / feature pipeline に通し、reference similarity、cluster fit、low-level band fit で pass-hold-reject を判定します。

Persistent vector backend

pgvector か Qdrant に clip vector と metadata を入れ、検索 API と region compare API を常設化します。

Shot-aware segmentation

現在の 60 秒窓を shot-aware segmentation に置き換え、より細かい camera language と motion structure を拾えるようにします。

Human pairwise loop

自動評価だけで完結させず、人間の pairwise judgment を記録して positive / negative reference を更新する学習ループへ進めます。

Technical Report

Detailed Report

FIL スタイルの詳細レポートには、WebGL 可視化、retrieval browse、low-level feature charts、コスト内訳を収録しています。

Open Detailed Report