微軟在人工智慧輔助影像字幕方面取得突破

微軟在人工智慧輔助影像字幕方面取得突破

雲端的力量繼續令人印象深刻,因為微軟支援的人工智慧現在可以寫出與真人一樣好甚至更好的圖像說明。

雖然大多數網路使用者認為大多數線上內容所呈現的圖像是理所當然的,但所提供的視覺資訊可以大大增強內容消費體驗,並提高閱讀理解能力。對於那些可能失明或有其他視力障礙的人來說,沒有準確標題或替代文字的圖像可能會妨礙理解或消費。為了讓所有潛在用戶更容易存取內容,微軟 Azure 團隊的成員一直在開發人工智慧系統,能夠準確地自動為圖像添加標題或替代文字。在許多情況下,這些電腦產生的字幕比人們提供的字幕品質更高。

在一個今天在其人工智慧部落格上發布了新帖子,微軟詳細介紹了最近人工智慧的突破,它將改變圖像的字幕方式。其研究團隊一直致力於細化和完善人工智慧對新物件的辨識和動作辨識。將這項研究的結果與人工智慧生成的語言結合是自動圖像字幕的基礎。

針對此類任務訓練人工智慧模型需要將數十萬張圖像輸入資料集中,每張圖像都附有文字標籤而不是完整的標題。這類似於教導小孩子進行單字聯想的方式。蘋果的圖片連同「蘋果」標籤一起輸入到模型中。一旦模型接受了識別單個物體和動作的充分訓練,團隊就開始教它根據新獲得的詞彙創建清晰的句子。

新型號現已作為Azure 認知服務打包並將於今年稍後部署到 Microsoft Word、Outlook、Powerpoint 和其他應用程式中。

克里斯賈拉德 (Chris Jarrard) 喜歡玩遊戲、播放音樂以及在不起眼的線上留言板上尋找打架訊息。他明白早餐食品是唯一真正的食物。不要@他。