你可以使用圖片和語音指令指示 ChatGPT 了

OpenAI對ChatGPT的大多數變更都是關於AI驅動機械人可以做什麼:它能回答的問題,它能訪問的資訊,以及基礎模型的改進。但是今次,它調整了 你使用ChatGPT本身的方式。該公司正在推出新的服務版本,允許 你不僅通過在文本框中鍵入句子來提示AI機械人,還可以通過大聲說話或只上傳圖片來提示。該新功能將在未來兩週內推出給ChatGPT付費用戶,OpenAI表示其他所有人「很快」就能使用。

語音聊天部分非常熟悉: 你點擊一個按鈕並說出 你的問題,ChatGPT將其轉換為文字並將其餵入大型語言模型,獲得回答,再將其轉換回語音,並大聲說出答案。它應該就像跟Alexa或Google Assistant對話一樣,只是 – OpenAI希望 – 由於基礎技術的改進,答案會更好。似乎大多數虛擬助手都在重建以依賴LLM – OpenAI只是領先於這場遊戲。

OpenAI出色的Whisper模型完成了大量語音轉文字的工作,該公司正在推出一種新的文本到語音模型,據稱它可以只從文本和幾秒的示例語音生成「類似人類的音頻」。 你將能夠從五個選項中選擇ChatGPT的聲音,但OpenAI似乎認為該模型的潛力遠遠超出這些。例如,OpenAI正與Spotify合作,以其他語言翻譯播客,而不改變主播本人的聲音。合成語音有許多有趣的用途,OpenAI可能是這一產業的重要組成部分。

但是,僅需要幾秒的音頻就能構建一個能力強大的合成聲音,這也為各種有問題的使用案例打開了大門。 「這些功能也提出了新的風險,例如惡意行為者可能會假冒公眾人物或進行詐騙,」公司在宣佈新功能的博客文章中說。 正因如此,該模型尚未面向廣泛使用,OpenAI表示它將受到更嚴格的控制並限於特定的使用案例和合作夥伴關係。

與此同時,圖像搜索有點像Google Lens。 你拍下感興趣的任何照片,ChatGPT將嘗試解析 你在詢問什麼並相應地回答。 你還可以使用該應用程式的繪圖工具來幫助澄清 你的查詢,或者說出或鍵入與圖像相關的問題。 在這裏,ChatGPT的反覆性質很有幫助:與進行搜索,獲得錯誤答案,然後再進行另一次搜索不同, 你可以提示機械人並在過程中逐步完善答案。 (這與Google的多模態搜索也非常相似。)

顯然,圖像搜索也有其潛在問題。 一個是在 你提示 ChatBot 有關某人時可能發生的情況:OpenAI表示,出於準確性和私隱原因,它已經故意限制了ChatGPT「分析並直接陳述有關人員的能力」。 這意味着AI最科幻的願景之一 – 能夠看着某人說「這是誰?」 – 短期內不會實現。 這可能是一件好事。

在ChatGPT最初發佈近一年後,OpenAI似乎仍在努力確定如何給其機械人添加更多功能和能力,同時不產生新的問題和缺點集合。 通過這些版本,該公司試圖通過故意限制其新模型可以做什麼來實現這個目標。 但這種方法不會永遠有效。 隨着更多人使用語音控制和圖像搜索,以及ChatGPT越來越接近成為一個真正的多模式、多用途的虛擬助手,保持護欄會變得越來越困難。

此文章發佈於 TechRitual 香港 - 日本電話卡
十斗
十斗https://www.techritual.com/author/tenten/
十斗在知名大學取得了計算機科學與工程學位,並在學術研究方面表現出色。她的研究領域包括人工智能、機器學習和數據科學。一斗為十升,一升為十合,一合為十分之一升。謝靈運言天下才學一石,曹植占八斗,以此讚譽。後用以比喻才學極高。