背景
Google Meetでオンラインミーティングを実施しました。
録画は残っている。
しかし、会議終了後に議事録を生成しようとしたところ、
議事録機能には事前設定が必要だったことを知ります。
「今さら設定しても遅い。」
そこで考えました。
「MP4さえあれば、ローカルで議事録を自動生成できる仕組みを作れないか?」
こうして、ローカルAI議事録パイプラインの構築が始まりました。
MP4
↓
音声抽出(ffmpeg)
↓
Whisper(文字起こし)
↓
LLM(要約)
↓
議事録生成
90分の動画が、mediumモデルで約10〜14分、largeモデルでも約30分弱で処理できました。
環境は MacBook Pro M4 Pro / 48GBメモリ です。
要件定義
今回のシステム要件は以下の通りです。
- 入力:MP4動画
- 出力:
- 文字起こし(全文)
- 議事録(要約)
- 日本語対応
- ローカル完結(機密保持)
- モデル選択可能(tiny〜large)
- CLI実行可能
- 一時ファイル自動削除
技術構成
1. 音声抽出
Whisperは 16kHz / mono / pcm_s16le 形式が推奨です。\
そのため、ffmpegでWAVに変換します。
2. Whisper(Apple Silicon 最適化)
PyTorchの mps を利用してGPU(Metal)を活用します。
device = "mps" if torch.backends.mps.is_available() else "cpu"
Apple Siliconでは fp16=False が推奨です。
実測結果(90分動画)
モデル 処理時間
medium 約10〜14分
large 約30分弱
この速度であれば、会議直後に議事録の叩き台が完成します。
設計思想
今回意識したのは「仕組み化」です。
- ステップ分離(抽出 / 文字起こし / 要約)
- モデル切替可能
- APIキー未設定時の安全設計
- ローカル完結
AIを使うのではなく、設計する。
それが Miyakawa Codes のスタンスです。
注意点
Whisperは稀に存在しない文言を生成することがあります。
議事録用途では必ず人間による最終確認を推奨します。
技術解説(Qiita版)
実装手順や環境構築の詳細は、Qiitaにまとめています。
👉 https://qiita.com/miyakawa2449@github/items/be7a1e5c2a16ac934f13
GitHub
プロジェクトはこちら
👉 https://github.com/miyakawa2449/meet
このプロジェクトをどう育てていくか
今回のローカルAI議事録パイプラインは、完成形ではありません。
むしろこれは「出発点」です。
単に Whisper を使って議事録を作ることが目的ではなく、AIを“使う”のではなく、“設計する”ことがこのプロジェクトの本質です。
今後は、以下の3つの軸で進化させていきます。
① 話者分離(Diarization)
現在は「文字起こし結果をまとめる」段階ですが、議事録としての価値を高めるには、
- 誰が発言したのか
- どの流れで議論が進んだのか
を構造化する必要があります。
話者分離を導入することで、単なるテキストではなく「会議の構造」を扱えるようにする。
これは、議事録をログからナレッジへ昇華させるための一歩です。
② faster-whisper への差し替え(高速化と最適化)
現在は openai-whisper を使用していますが、将来的には faster-whisper への差し替えを検討しています。
重要なのは「どのライブラリを使うか」ではなく、
- ASR(音声認識)を差し替え可能な構造にすること
- 計算資源を最大限活かせる設計にすること
です。
エンジンは交換できる。
構造は維持する。
この設計思想が、プロジェクトの持続性を生みます。
③ ローカルLLMによる完全オフライン化
現在は要約にAPIを利用していますが、将来的にはローカルLLMによる完全オフライン化を目指します。
- 会議データを外部に出さない
- 手元の計算資源で完結させる
- AIを“サービス”ではなく“ツール”として扱う
これは単なる技術的挑戦ではなく、主体性の問題です。
AIを借りるのではなく、AIを扱う側に立つ。
それがこのプロジェクトの思想的な軸です。
これはツール開発ではない
この取り組みは、「便利な議事録ツールを作ること」ではありません。
失敗をきっかけに、
- 問題を運用で解決するのか
- 仕組みで解決するのか
を問い直した結果です。
議事準備の録画設定を忘れた。
しかしそこで止まらず、仕組みを設計する方向に舵を切った。
このプロジェクトは、その思考の記録でもあります。
今後、このパイプラインは進化していきます。
そしてその過程そのものが、
Miyakawa Codes にとっての実験場であり、設計のログになります。
AIを使う時代から、AIを設計する時代へ。