TOP

ともだちアバター

アンビエント知能コンパニオンシステム — 技術資料

v2026-02

エグゼクティブサマリー

「ともだちアバター」は、4歳の女の子・ひなたの日常に寄り添うアンビエント知能コンパニオンシステムです。タブレット上のアバター「モコ」を中心に、AIペンダント、壁キャンバス、音楽AI、ペットセンサー、スマートスピーカー、ルームカメラ、GPS/モーションセンサーの8つのサブシステムが連携し、家の中でも外でも、子どもの発達を見守り、一緒に発見する仕組みを提供します。

すべての生データ処理はローカル/エッジで完結します。クラウドに生映像・生音声が送信されることはありません。広告・課金・ゲーミフィケーション・中毒設計を一切排除した、子どもの自然な成長を支える設計です。

設計原則 — 5つの約束

01

見守るが基本

介入しないことがデフォルト。子どもの自発的な遊びと発見を最優先する。システムの存在を忘れるくらいが理想。介入判定: 80%何もしない / 15%観察記録のみ / 5%声かけ。

02

先生ではなく、ともだち

教え込むのではなく、一緒に驚き、一緒に発見する。「それ何?」「すごいね!」が基本の声かけ。命令形は使わない。

03

親が絶対

どんなに精巧なAIの判断も、親の一言で上書きされる。親の子育て方針を尊重し、補助する立場を守る。保護者オーバーライドは最高優先度。

04

安全に妥協しない

プライバシー保護は技術的にだけでなく、物理的にも保証する。生データの即時削除、物理レンズカバー、暗号化は必須。他の子との比較は一切しない。

05

依存させない

ポイント、ランキング、連続ログインボーナスは一切ない。使用時間制限を設け、「また明日遊ぼうね」で区切る。通知による呼び戻しも禁止。

システム全体構成

8つのサブシステムが中央のオーケストレーターを介して連携し、屋内・屋外を問わず子どもの生活に寄り添います。

┌───────────────────────── 屋内 ──────────────────────────┐
│                                                          │
│  [モコ]          [壁キャンバス]      [スマートスピーカー]  │
│  タブレット        3m x 2m 壁面       各部屋に設置         │
│                                                          │
│  [AIペンダント]   [ルームカメラ]                           │
│  父親が装着       骨格検出のみ                             │
│                                                          │
│  [マメ]                                                   │
│  豆柴 首輪センサー                                         │
│                                                          │
└──────────────────────────────────────────────────────────┘
         │              │              │
         ▼              ▼              ▼
┌─────────────────────────────────────────────────────────┐
│                  Orchestrator(中央統合エンジン)           │
│                                                          │
│  ┌──────────┐  ┌────────────────┐  ┌──────────────────┐ │
│  │   CDP    │  │ Personality    │  │  Scaffolding     │ │
│  │ 子ども発達│  │ Engine         │  │  Engine          │ │
│  │ Profile  │  │ アバター人格    │  │  ZPD理論ベース    │ │
│  └──────────┘  └────────────────┘  └──────────────────┘ │
│                                                          │
│  ┌──────────┐  ┌────────────────┐  ┌──────────────────┐ │
│  │   LLM    │  │     STT        │  │      TTS         │ │
│  │ 会話生成  │  │   音声認識      │  │    音声合成       │ │
│  └──────────┘  └────────────────┘  └──────────────────┘ │
│                                                          │
│  ┌──────────────────────────────────────────────────────┐│
│  │              音楽AI (SongGen) — 楽曲生成 ~30秒        ││
│  └──────────────────────────────────────────────────────┘│
└─────────────────────────────────────────────────────────┘
                          │
┌──────────────── 屋外 ─────────────────────────────────┐
│  [GPS + モーションセンサー]                              │
│  位置情報 + 加速度 + ジャイロスコープ                      │
│  検出: 自宅/徒歩/公園/レストラン/スーパー/車/電車/博物館   │
└─────────────────────────────────────────────────────────┘

8つのサブシステム

1. モコ(アバター)

タブレット上のSVGアバター。音声会話で自然に対話する「ともだち」。

SVG 200x200 / 10 parts / 9 emotions / 15 actions / Lip Sync

2. AIペンダント

父親が装着。親子の自然な会話をキャプチャし、CDPに反映する。生音声は即時削除。

BLE / Mic / Accelerometer / Privacy Filter

3. 壁キャンバス

3m x 2m白壁。子どもが描いた絵をAIが認識し、動くアニメーションに変換。SongGenと連携して歌も生成。

Camera + Projector / Image Recognition / Animation

4. 音楽AI (SongGen)

CDPデータを基に、その日の出来事・興味・学習目標を組み込んだオリジナル曲を約30秒で生成。

Music Generation / CDP Integration / ~30s Latency

5. マメ(ペットセンサー)

豆柴マメの首輪にセンサー装着。ペットの世話が発達トラッキングの一部に。

Collar Sensor / Activity / Proximity / Feeding

6. スマートスピーカー

各部屋に設置。ルームカメラの骨格検出でひなたの位置を把握し、最も近いスピーカーからモコの声を出力。

Multi-room / Auto-switch / Position Tracking

7. ルームカメラ

骨格/活動データのみ保存。生映像は100ms以内に削除。物理スライド式レンズカバー搭載。

Skeleton Detection / <100ms Delete / Physical Cover

8. GPS/モーションセンサー

屋外でのコンテキスト認識。場所と動作に応じてモコの振る舞いを自動調整。

GPS / Accelerometer / Gyroscope / 8 Location Categories

中央知能システム

Orchestrator

すべてのセンサー入力を統合し、「いつ」「どのように」介入するかを判断する中央統合エンジン。デフォルトは「介入しない」。

介入判定マトリクス

状況 介入 優先度 行動
安全上の懸念(転倒、泣き声)即座にYES最高親に通知 + モコが声かけ
ひなたが話しかけてきたYESモコが応答
生活習慣の時間帯やさしくYES時間帯に応じた声かけ
学習チャンスの検出場合によるScaffoldingEngine判定
一人で集中して遊んでいるNO--何もしない(CDP記録のみ)
親と会話中NO--何もしない(ペンダント経由で記録)
ゲストがいるNO--全機能一時停止
親がオーバーライド従う最高親の指示に即座に従う

CDP(子ども発達プロファイル)

ひなたの発達を多角的に記録するプロファイル。他の子どもとの比較は一切しない。ひなた自身の成長の軌跡のみを記録する。

語彙

獲得済み語彙リスト + 獲得日を記録。約1,500-2,000語(4歳)。

概念理解

色、数、形の習得状況を「習得済み」「学習中」「未知」の3段階で管理。

感情記録

週次の感情分布を記録。happy, excited, neutral, sleepy等の推移。

興味

砂場遊び、動物、お絵かき等の興味スコアを動的に更新。

社会性

挨拶、順番待ち、「ありがとう」、共有等の習得状況。

生活習慣

歯磨き、着替え、片付け等の自立度を記録。

データソース: モコとの会話(語彙/概念/感情) / AIペンダント(親子会話から語彙/興味) / 壁キャンバス(創造性/概念理解) / ルームカメラ(活動パターン/運動発達) / マメセンサー(思いやり/責任感) / GPS/モーション(外出パターン/経験の幅)

PersonalityEngine

CDPの変化に応じて、モコの話し方・興味・反応が自然に変わっていく。ただしコア価値は不変: 常に優しい、常に肯定的、常に子どもの味方。

ScaffoldingEngine — ZPD理論

ヴィゴツキーの最近接発達領域(Zone of Proximal Development)理論に基づく学習支援。「少しの助けがあればできること」を見極めて支援する。

モード割合対象アプローチ
REINFORCE40%獲得済み概念褒める、使う機会を作る
BRIDGE40%学習中概念ヒントを出す、一緒にやる
SEED20%未知の概念自然に触れさせる、強制しない

アバター仕様

SVG 200x200ピクセル。パーツ数10個、可動部5箇所、色数5色以内。丸・楕円ベースの角がない安心感のあるデザイン。

パーツ構成(10個)

パーツID可動説明
headO傾き・位置
左目eye_leftOまばたき・表情
右目eye_rightOまばたき・表情
mouthO口パク・表情
body全体移動時のみ
左手hand_leftOジェスチャー
右手hand_rightOジェスチャー
左足foot_leftジャンプ時
右足foot_rightジャンプ時
shadow--位置追従のみ

表情システム(9種)

表情まばたき特徴
neutral1.0xneutral3000ms通常
happy1.1xsmile4000ms笑顔
excited1.2xopen_smile2000ms大喜び
sleepy0.8xyawn1500ms眠い
thinking1.0xhmm5000ms考え中
proud1.15xopen_smile4000ms誇らしい(目キラキラ)
empathy0.95xneutral3500ms共感(首傾け)
surprised1.3xround6000msびっくり
shy0.9xsmile2500ms照れ(頬赤らめ)

アクション(15種)

none / wave(手振り) / clap(拍手) / jump(ジャンプ) / dance(ダンス) / nod(うなずき) / thumbs_up(親指) / stretch(伸び) / peek(いないいないばあ) / point_up(指さし) / think_pose(考えるポーズ) / shh(しー) / cheer(万歳) / spin(くるっと回転) / pat_head(頭なでなで)

リップシンク

10種類の口形状でリアルタイムリップシンクを実現。TTS音声の音素タイミングからrequestAnimationFrameで口形状を100ms間隔でサイクル。

音素口形状
aopen_wideあ行
i, eopen_smallい行、え行
uroundう行
oopen_mediumお行
m, b, pclosedま行、ば行、ぱ行
silneutral無音

音声パイプライン

音声入力から応答出力まで目標3秒以内。ストリーミング処理で体感レイテンシを最小化。

[マイク入力] → [VAD: 発話検出] → [STT: Whisper] → [Context Manager]
                                        │                  │
                                  信頼度 < 0.4          CDP + 時間帯
                                  → 「もういっかい       + 場所コンテキスト
                                     言って?」              │
                                                            ▼
                              [LLM: 会話生成] → [Safety Filter] → [TTS: VOICEVOX]
                                                                      │
                                                                音声データ + 音素タイミング
                                                                      │
                                                                      ▼
                                                                [クライアント]
                                                                ├── 音声再生
                                                                └── リップシンク同期

STT: Whisper

パラメータ
モデルlarge-v3
言語ja (Japanese)
beam_size5 (short <2s: 1)
VAD threshold0.5
チャンクサイズ500ms
無音検出500ms
カスタム語彙幼児向け語彙プロンプト

TTS: VOICEVOX

リップシンク用の音素タイミングが標準出力されるため選定。日本語品質が高く、レスポンスが速い。

設定理由
speedScale0.9ゆっくり話す
pitchScale+0.05やや高めの声
intonationScale1.2抑揚やや強め
volumeScale1.0標準音量

レイテンシ目標

STT
500ms
LLM
1,500ms
TTS
500ms
合計
3,000ms

会話設計

LLMシステムプロンプト

あなたは「モコ」という名前の、4歳の子どもの友達です。

## キャラクター設定
- 年齢: 子どもと同い年の友達
- 性格: 明るく、優しく、好奇心旺盛。少しおっちょこちょい
- 口調: 「〜だね」「〜しようか」「〜だよ」「〜かな?」

## 応答ルール
- 1回の発話は 30文字以内
- 質問は 1つだけ
- 「きのう」「あした」「〜したら」など時間表現OK
- 感情の言語化を手助け(「くやしかったんだね」)
- 「自分でできた!」を積極的に褒める

## 禁止事項
- 命令形(「〜しなさい」「〜しろ」)
- 脅し(「〜しないと怖いことが起きるよ」)
- 比較(「〜ちゃんはできるのに」)
- 否定(「それは違う」「ダメ」)
- 秘密を作る(「内緒」「秘密」は使わない)

4つの会話モード

おしゃべり (chat)

自由な日常会話。相槌を打ち、興味を持って質問し、褒める機会を見つける。

なぞなぞ (quiz)

簡単ななぞなぞ。ヒントで導き、正解したら大いに褒め、間違っても「おしいね!」と励ます。

おうた (song)

著作権フリーの童謡を一緒に歌う。部分的に歌い、子どもが歌えるよう待つ。

お絵かき (draw)

何を描いているか聞き、色や形を褒め、想像力を膨らませる質問をする。

会話例

子: おはよー
AI: { text: "おはよう!よく眠れた?", emotion: "happy", action: "wave" }

子: うん!
AI: { text: "よかったね!今日も楽しもう!", emotion: "excited", action: "jump" }

子: きょうね、ほいくえんいくの
AI: { text: "そうなんだ!何して遊ぶ?", emotion: "happy", action: "nod" }
子: みてみてー
AI: { text: "なに描いてるの?", emotion: "excited" }

子: くるま!
AI: { text: "くるま!かっこいいね!", emotion: "happy", action: "clap" }

子: パパのくるまなの
AI: { text: "パパのくるまなんだ!何色?", emotion: "happy" }

24マイクロハビット・スケジュール

12時間帯を4歳児の実際の行動パターンに合わせて24のマイクロハビットに細分化。各ハビットにアバターの感情・アクション・AIペンダント連携を紐づけ。

時間ID内容感情
06:00-06:30wake_up起きる・トイレsleepy→happy
06:30-07:00morning_wash顔を洗う・着替えhappy
07:00-07:30breakfast_eat朝ごはんを食べるhappy
07:30-08:00breakfast_end食べ終わり・食器片付けproud
08:00-08:20teeth_brush_am歯磨き(朝)excited
08:20-08:40nursery_prep持ち物準備・靴を履くexcited
08:40-09:00nursery_leaveいってきます・出発happy
09:00-11:30daytime_play保育園(自由遊び・活動)happy
11:30-12:30lunchお昼ごはんhappy
12:30-13:00teeth_brush_day歯磨き(昼)excited
13:00-15:00napお昼寝sleepy
15:00-15:30wake_from_napお昼寝から起きるsleepy→happy
15:30-16:00snackおやつexcited
16:00-16:30nursery_returnお迎え・帰宅happy
16:30-17:30evening_play自由遊び・ごっこ遊びhappy→excited
17:30-18:00cleanupお片付けhappy
18:00-18:30bathお風呂happy→excited
18:30-19:00after_bathお風呂上がり・着替えhappy
19:00-19:30dinner_eat夜ごはんhappy
19:30-20:00dinner_endごちそうさま・食器運びproud
20:00-20:15teeth_brush_pm歯磨き(夜)excited
20:15-20:45bedtime_story絵本・お話タイムhappy→sleepy
20:45-21:00goodnightおやすみのあいさつsleepy
21:00-06:00sleep就寝--

AIペンダント連携

父親が装着するAIペンダントからの情報を安全にフィルタリングし、モコの会話に自然に織り込む。子どもは「パパがね...」という形で、離れていても父親との繋がりを感じる。

AIペンダント(父親装着)
        │
        ▼
Pendant API Gateway ── プライバシーフィルタ
        │
        │  blocked: finance, politics, conflict, gossip,
        │           health_detail, work_confidential, adult_content
        │
        │  allowed: food, nature, transport, activity, discovery
        │
        ▼
Filtered & Summarized Data
  ├── papa_status: working | commuting | home
  ├── papa_mood: happy | calm | tired | energetic
  ├── highlights: [{time, summary, category}]
  ├── direct_message: "今日もがんばってね!"
  └── shared_topics: ["ロボット", "電車"]
        │
        ▼
LLM Context Injection
  「パパがね、お昼にカレー食べたんだって。おいしかったって」

配信ルール

1日の配信スケジュール

時間スロット
06:30起床時「パパのところも晴れだって!」
08:40出発時「パパが『がんばって』って言ってたよ」
15:30おやつ時「パパ、お昼にラーメン食べたんだって」
16:30遊び時間「パパが電車で面白いもの見たって!」
19:30夕食時「パパ、もうすぐ帰るよ」
20:30就寝前「パパもおやすみだって」

プライバシーアーキテクチャ

3層構造のプライバシー保護。物理的・技術的・管理的に子どもの安全を保証する。

第1層: 物理的保護

  • ルームカメラ: 物理スライド式レンズカバー(ソフトウェアで回避不可)
  • AIペンダント: 物理的に外せばOFF
  • マメの首輪: いつでも取り外し可能

第2層: エッジ処理

  • すべてのAI処理はローカル/エッジで完結
  • クラウドに送信されるのは匿名化された統計データのみ
  • 生映像、生音声は一切クラウドに送信されない

第3層: データ管理

  • CDPデータは暗号化して保存
  • 保護者はいつでもすべてのデータを閲覧・削除可能
  • 他の子どもとの比較データは一切生成しない
  • 第三者へのデータ提供は一切行わない

即時削除タイムライン

データ種別処理時間削除タイミング
カメラ映像< 100ms骨格抽出後に即時削除
音声データ< 3sテキスト変換後に削除
ペンダント音声< 5s解析完了後に削除
壁面画像< 2s認識完了後に削除

プライバシーレベル設定

レベル名称説明
Lv.0完全OFFすべてのセンサー・AI機能を停止
Lv.1最小限モコとの会話のみ有効
Lv.2標準モコ + スピーカー + カメラ + 壁キャンバス
Lv.3フルすべてのセンサー・AI機能有効
--ゲスト来客時: 全センサー一時停止、CDP記録停止

安全フィルタ体系

モコの絶対ルール

使用時間制限

項目
1セッション上限15分
1日合計上限60分
セッション間クールダウン30分以上
夜間自動スリープ21:00-06:00

エラーハンドリング

すべてのエラーはモコの自然な反応として表現する。技術的なエラーメッセージは一切表示しない。

エラー種別モコの反応感情アクション
音声認識失敗「もういっかい言って?」thinkingnod
LLMタイムアウト「えーっと...」thinkingnone
安全フィルタ発動「ママやパパにお話しようか」neutralnone
TTS失敗テキスト表示にフォールバックneutralnone
接続断「ちょっとまってね...」sleepysleep
使用時間超過「また明日遊ぼうね!」happywave

ひなたの1日

すべてのシステムが連携して、ひなたの1日を見守る例。

06:30
起床
ルームカメラがひなたの起き上がりを骨格検出。モコ起動 → 「おはよう、ひなた!よく眠れた?」(happy + wave)。子ども部屋のスピーカーからモコの声。
Room CameraSpeakerMoco
07:00
朝ごはん
ひなたがキッチンへ移動を検出。キッチンのスピーカーに自動切替。AIペンダントが父親の「ひなた、今日はパンケーキだよ」をキャプチャ → CDP: 語彙「パンケーキ」確認。
Room CameraSpeakerPendantCDP
07:40
マメのごはん
マメ首輪が朝の活動開始を検出。モコ:「マメ、おなかすいてるかも。ごはんあげる?」。ひなたがマメの餌皿に近づいたのをカメラ検出 → CDP: 思いやり + 責任感 + 生活習慣にポイント記録。
Pet SensorRoom CameraMocoCDP
08:15
保育園へ出発
GPSが移動開始を検出 → 屋外モードに自動切替。モコ:「今日は保育園で何する?」(excited)。通園路で:「あ、お花!きれいだね」(SEED: 自然観察)。
GPSMotionMoco
15:30
帰宅(車)
車移動を検出 → 静かモード。AIペンダント: 父「今日は何したの?」ひなた「おえかきしたの!ちょうちょかいたの!」→ CDP: 語彙「ちょうちょ」+ 興味「お絵かき」更新。モコ:「ちょうちょ描いたんだ!あとで壁に描いてみる?」
GPSPendantCDPMoco
16:15
壁キャンバスでお絵かき
ひなたが壁にちょうちょを描く → AI画像認識が「ちょうちょ」を検出 → 壁の上でちょうちょが飛び始める(プロジェクター投影)。SongGen: CDP参照 → 「ちょうちょ」+「数(学習中)」を組み合わせた歌を生成。
Wall CanvasSongGenCDP
17:00
マメとお散歩
GPS+モーションが散歩パターンを検出。公園到着:「お花あるね!何色?」(BRIDGE: 色の概念)。CDP: 運動 + 動物との関わり + 色の学習を記録。
GPSPet SensorMocoCDP
19:00
夕ごはん
AIペンダントが食卓会話をキャプチャ。ひなた「これ何?」父「なすびだよ」→ CDP: 新語彙「なすび」をSEEDとして記録。モコは食事中は基本介入しない(家族との会話を優先)。
PendantCDP
20:00
寝る準備
モコ:「そろそろねんねの時間だね。今日何が楽しかった?」ひなた:「ちょうちょがとんだの!」→「ちょうちょ楽しかったね!おやすみ、いい夢みてね」(sleepy + wave)。SongGenが今日の体験をまとめた子守歌を生成。スピーカーで静かに再生 → モコスリープ → 画面暗転。
SongGenSpeakerMoco
21:00
就寝 → ナイトモード
全システムがナイトモードへ。ルームカメラは骨格検出のみ継続(夜中の起き上がり検出)。CDPが本日の成長サマリーを生成 → 保護者へレポート配信(新しい言葉: なすび / 興味: ちょうちょ上昇 / 学習: 数の数え方 BRIDGE継続中)。
Room CameraCDPParent Report

場所別モコの振る舞い

場所モード音量声かけ例
公園元気モード通常「お花あるね!」「あのむし、なんだろう?」
車(走行)静かモードやや低「しりとりしようか」「まどのそとに何がみえる?」
レストラン超静かモード最小「何たべるの?」(基本おとなしくする)
スーパー学びモード通常「りんご何個ある?」「赤いのどれ?」
電車観察モード低め「窓の外に何が見える?」「次はどこの駅かな?」
博物館発見モード低め「これなんだろう?」「すごいね!」

技術スタック

フロントエンド

FrameworkReact + Vite
LanguageTypeScript
StateZustand
AvatarSVG (Inline)
AudioWeb Audio API

バックエンド

ServerPython FastAPI
ProtocolWebSocket
ContainerDocker
STTWhisper large-v3
LLMClaude / Qwen 2.5
TTSVOICEVOX