Facebook AAT為視障用戶更易了解圖片內容

Facebook AAT為視障用戶更易了解圖片內容

Table Of Contents
ATT

AAT從所有地理位置的圖像中採樣數據,並使用多種語言的主題標籤翻譯。

眾創時代

社交媒體平台早已與日常生活環環相扣,最常見分享的內容當然是相片,無論上載生活相片及更新近況,直至「相機食先」文化出現,以相片分享日常點滴,已經成為大眾的生活習慣。雖然Facebook或Instagram用戶經常滑動成千上萬的照片,但對於視障人士說,未必能完全了解海量的網上社交平台的相片。

一般將圖片上載至網站,都會在HTML代碼使用Alt替代文字,這並非caption,而是單純指出圖片的內容,例如描述圖片的外觀及功能。此舉不但可在網民用戶無法下載圖片時,網站可以利用Alt替代文字顯示圖片位置,更是必做的SEO技巧,為搜尋引擎提供更好的圖片描述,協助正確地將圖片提供索引。因此,以往當視障用戶透過屏幕閱讀器瀏覽Facebook內容時,遇到圖像就會透過聽到合成話音描述以播報形式讀出「照片」一詞,然後分享圖片的發佈者名字。

ATT

新的AAT為所有照片提供簡潔描述,用戶亦可自行選擇將指定照片,在面板提供更全面的詳細資料。

由於互聯網速度愈走愈快,Alt文字對於普羅大眾而言已不再是必須。再者若文字的描述單靠上傳圖像的人手添加,則未必完全可靠。由於許多上載到社交媒體平台的圖片都沒有附加Alt文字,Facebook在2016年引入一項自動替代文字(Automatic Alternative Text,AAT)新技術,其後在2018年更獲美國盲人基金會頒發Helen Keller Achievement Award成就獎。這項技術經過多番測試,最近更作出重大改變,令照片識別的可認度大大提升,既能識別活動、地標、動物類型等,甚至在照片中加入潛在位置,辨識更多相片當中的內容,將畫面描述變得更具體,令視障用戶有機會讀取圖片內容。

ATT

AAT的最新版本標誌多項技術進步,可靠地檢測和識別照片中的概念的數量擴大了10倍以上。

根據Facebook在其tech@facebook網誌,AAT第一個版本是使用人類標的數據開發,透過數據將數百萬個案例訓練最新版本的AAT模型。完整的AAT模型可識別例如「樹」、「山」等100個常見概念,亦會靠人面辨識技術識別相片中的內容是「人」。其後因為利用標記數據花費太多時間精力,因此後來演變成利用一個以數十億張公開的Instagram圖片及其標籤的形式進行數據訓練的模型,並進行微調,可從所有地理位置的圖像擷取數據,利用多種語言的主題標籤翻譯,並透過文化及人口統計學的蛛絲馬跡了解圖片內容。例如不必僅僅單靠註解為白色婚紗的照片,也可利用傳統服裝識別世界各地的婚禮。

其後由Facebook AI Research開發使用Detectron2訓練一個稱為Faster R-CNN的檢測器作為開源平台,預測圖像中的對像位置和語義標籤,透過採集多標籤及多數據,令其模型變得更為可靠,可識別1200多個概念,比最初發佈的原始版本多達十倍。不過為求精準,Facebook也會在每個描述以「可能會」(Maybe)作為開頭以免有誤差或歧義。現時所有替代文本說明,可用45種不同語言列出。

新版本的AAT自動替代文本技術使相片描述更精準及更容易明白,更進一步幫助視障用戶理解家人和朋友在社交媒體平台發佈的照片內容,同時亦能了解社交媒體網站銷售內容。此舉對於普遍用戶來說,或未必輕易察覺,但這項技術彌合了過往的差距。對於視障用戶來說,可能對於社交媒體有更深層的另一番體會。

數碼轉型|   企業儲存飛入百姓家   純軟件儲存統一管理

數碼轉型| 企業儲存飛入百姓家 純軟件儲存統一管理

Hitachi Vantara香港及澳門區總經理阮紹筠(左)及香港及台灣區技術總監盧嘉騏:以純軟件定義的VSP One將進一步打入中小企市場。 [數碼轉型] 混合雲時代來臨,儲存格局亦改變。企業數據 …

了解更多
QNAP以創新及多元設計   贏取創意工作者信賴

QNAP以創新及多元設計 贏取創意工作者信賴

QNAP香港區產品經理Sean表示,QNAP在系統設計和儲存軟件,一直不少創新,一向獲得廣大用戶支持。 QNAP是專注於儲存、網絡週邊及智能視訊產品的創新,特別提供NAS解決方案。由於近年多媒體內容 …

了解更多
科大創業|   年青創科比賽迸發創意    科技優化民生脫穎而出

科大創業| 年青創科比賽迸發創意 科技優化民生脫穎而出

第12屆「科大-信和百萬獎金創業大賽」匯聚創科專才,將科技創新緊扣本地社會不同需要。 **[科大創業]** 科技累積生活經驗與智慧傳承,今屆「科大-信和百萬獎金創業大賽」吸引175隊團隊參賽。比賽以 …

了解更多