Skip to content

實作線上會議「分軌轉錄」的工程心得

主要工程目標

  1. 可以即時轉錄會議中的發言
  2. 可以即時協作校對

工程圖

工程圖

心得

剛開始用 Jitsi as a Service (JaaS) 實作線上會議平台的時候,我曾嘗試過它的附加轉錄服務。當時它只支援英文。

經過和客服的詢問,做了許多次的嘗試,仍無法轉錄中文。

在和客服一來一往的等待時間,我想到了自架後端、獨立音訊處理的「分軌轉錄」設計可能。讓轉錄服務及其品質有更多自主性,不依賴JaaS。

最後客服有提供中文轉錄的程式設定寫法。 乍看之下,好像去直接用內建功能,再搭配firebase即時校對就足夠,不必額外開發後端。

但在意外以下實際架設和試用「分軌轉錄」的過程中,我發現了一個很關鍵的差別——「分軌轉錄」讓發言者有了真正的主動權。

1. 主動決定哪些話要被記錄

在分軌轉錄的模式裡,發言者可以在開口前,透過主動選擇是否按下「紫色麥克風鈕」,決定這句話要不要被記錄下來。

這對真實會議非常重要,因為有些話只是閒聊,有些是口誤,有些涉及個人隱私或敏感資訊(例如具體姓名)。全自動轉錄的話,這些內容就會全部進入紀錄,沒有篩選空間。

2. 營造「正式狀態」的氛圍

現在,當有人按下「開始轉錄」按鈕時,自己會有意識——現在是正式記錄的時刻,自然會更專注、更謹慎地表達。

系統也會在其他人的畫面上顯示誰正在轉錄,這讓聽的人更容易集中注意力,並且習於等待和輪流發言。

相比之下,全自動轉錄雖然看似方便,但缺少這種「切換狀態」的儀式感。

3. 分軌轉錄的缺點與限制

主動按鈕以開啟轉錄的功能,很依賴使用者的使用習慣。

分軌轉錄當然也有其缺點,例如與會者容易忘記按下轉錄按鈕,而產生逐字稿的缺漏問題。

尤其在最後上傳後端,由AI彙整大綱的時候,如果有重要的片段沒有被錄進去,那麼大綱就會有所缺漏。

但是在權衡利弊得失,以及考量JaaS全自動轉錄的私密性不足和成本明顯較高,這兩個關鍵的差異,讓我決定持續實驗和改良「分軌轉錄」這種新的設計。

總結

「分軌轉錄」並不是單純的技術取捨,而是一種尊重參與者意願、提升會議專注度的設計選擇。

它的價值,不只是精準的語音辨識,而是讓每一句被記錄下來的話,都有其重要性與意義。

以現今的技術很難做到百分之百完美,在我的權衡之下,我覺得私密性和主動性是比較優先的價值。

很感謝vTaiwan會議的參與者持續的測試以及提供改良的建議。

#vTaiwan #工程心得

相關連結:

  1. vTaiwan視訊會議平台
  2. Jitsi as a Service
  3. 分軌轉錄前端專案
  4. 分軌轉錄後端專案

本篇文章創用授權:

CC_BY_SA