← Projects
Aesthetic OS
PUBLIC SUMMARY / FIL REPORT / 2026
REFERENCE VIDEO ANALYSIS / AESTHETIC EVALUATION STACK

Aesthetic OS

sonar2025-all.mov を基準参照素材として、映像+音声の Gemini 埋め込み、retrieval、低レベル特徴解析、評価に接続できる指標群までをまとめた公開用サマリーです。

01 / BUILD

This Work

今回の作業で、参照映像の ingest から Gemini multimodal embedding、retrieval、feature analysis、公開レポートまでをひとつの流れに接続しました。

01 / INGEST

Ingestion and black exclusion

ffprobe と blackdetect で `sonar2025-all.mov` を解析し、完全黒画面を除外した可視区間から代表フレームを抽出しました。

02 / EMBED

Gemini AV embeddings

映像と音声を同一 clip として `gemini-embedding-2-preview` に送り、60 秒窓の multimodal embedding を本番予算内で生成しました。

03 / RETRIEVE

Retrieval layer

nearest neighbors、cluster browse、region compare、pgvector seed/schema を生成し、reference 空間を検索可能にしました。

04 / FEATURE

Low-level feature layer

色、明るさ、彩度、edge density、sharpness、entropy、optical flow を clip 単位で要約し、semantic embedding とは別の評価軸を追加しました。

05 / REPORT

FIL report surface

WebGL と tabbed layout を持つ詳細レポートを作成し、公開向けにはさらに成果と今後の方針を整理した要約ページに再構成しました。

02 / OUTPUTS

Current Outputs

いま得られている結果は、reference manifold、similarity surfaces、feature signatures、コスト管理済みの production run です。

Budget Used 74.6%
Embedded Clips 10 / 12
Mid ↔ Late Similarity 0.979026
Best Neighbor Similarity 0.952334

Nearest neighbor

最初の clip は `clip_004_002256982` と 0.952334 の similarity で最も近く、taste manifold の近傍説明に使えます。

Region compare

Mid と Late の temporal centroid similarity は 0.979026 で、高い一貫性を持つ参照空間として扱えます。

Feature extremes

brightest は `clip_010_005930899`、highest motion は `clip_005_002901763`、most colorful は `clip_007_004116557` でした。

03 / EVALUATE

What It Enables

このスタックは、生成映像を reference 空間に投影し、ranking・reject・steering に使うための評価基盤として使えます。

Generated video ranking

生成映像を同じ clip pipeline に通すと、reference manifold への近さで候補の優先順位を付けられます。

Reject and safety filter

暗すぎる、動かなすぎる、reference cluster から外れすぎる候補を low-level と embedding の両面から落とせます。

Explainable critique

どの reference clip に近いか、どの cluster に入るか、brightness や motion がどれだけズレているかを説明付きで返せます。

Next-step steering

cluster を維持しながら motion や brightness を増減するといった形で、次の generation condition に戻す制御信号を組めます。

EVAL / GENERATED OUTPUTS

Generated-output evaluation

この解析は、生成映像そのものの絶対評価ではなく、あなたの reference corpus に対する相対評価に使うのが適切です。Aesthetic OS ではここを score kernel として使い、ranking、reject filtering、next steering の三段に落とし込みます。

04 / FRAMES

Representative Frames

今回の run から、cluster exemplar と feature extreme を代表フレームとして抜き出しています。

clip_001_000442640 exemplar
Cluster Exemplar 01
clip_001_000442640
cluster 01 の exemplar
clip_007_004116557 exemplar
Cluster Exemplar 02
clip_007_004116557
cluster 02 の exemplar
clip_008_004721337 exemplar
Cluster Exemplar 03
clip_008_004721337
cluster 03 の exemplar
clip_010_005930899 exemplar
Cluster Exemplar 04
clip_010_005930899
cluster 04 の exemplar
clip_005_002901763 highest motion
Highest Motion
clip_005_002901763
optical flow mean が最大
clip_007_004116557 most colorful
Most Colorful
clip_007_004116557
colorfulness が最大
clip_010_005930899 brightest
Brightest Frame
clip_010_005930899
brightness が最大
clip_004_002256982 nearest neighbor
Closest Pair Start
clip_004_002256982
最初の clip の最短距離 neighbor
05 / POSITION

Position In Aesthetic OS

Aesthetic OS の中心ループは ingest → embed → retrieve → compare → steer です。今回の成果は、そのうち ingest から retrieve、そして steer 用の評価指標までをつなぐ基盤レイヤーに当たります。

このページは完成アプリではなく、審美判断を外部化するための下層インフラの公開要約です。positive reference から taste manifold を構成し、生成物をそこへ投影して判定可能にするための基盤として位置付けています。

06 / NEXT

Next Direction

次段では generated outputs の評価ループと vector database への常設運用を進め、Aesthetic OS の判断系を本番フローへ寄せます。

01

Evaluate generated outputs

生成候補を同じ ingest / embed / feature pipeline に通し、reference similarity、cluster fit、low-level band fit で pass-hold-reject を判定します。

02

Persistent vector backend

pgvector か Qdrant に clip vector と metadata を入れ、検索 API と region compare API を常設化します。

03

Shot-aware segmentation

現在の 60 秒窓を shot-aware segmentation に置き換え、より細かい camera language と motion structure を拾えるようにします。

04

Human pairwise loop

自動評価だけで完結させず、人間の pairwise judgment を記録して positive / negative reference を更新する学習ループへ進めます。

Technical Report

Detailed Report

FIL スタイルの詳細レポートには、WebGL 可視化、retrieval browse、low-level feature charts、コスト内訳を収録しています。

Open Detailed Report