你可以使用圖片和語音指令指示 ChatGPT 了

OpenAI對ChatGPT的大多數變更都是關於AI驅動機械人可以做什麼：它能回答的問題，它能訪問的資訊，以及基礎模型的改進。但是今次，它調整了你使用ChatGPT本身的方式。該公司正在推出新的服務版本，允許你不僅通過在文本框中鍵入句子來提示AI機械人，還可以通過大聲說話或只上傳圖片來提示。該新功能將在未來兩週內推出給ChatGPT付費用戶，OpenAI表示其他所有人「很快」就能使用。

語音聊天部分非常熟悉：你點擊一個按鈕並說出你的問題，ChatGPT將其轉換為文字並將其餵入大型語言模型，獲得回答，再將其轉換回語音，並大聲說出答案。它應該就像跟Alexa或Google Assistant對話一樣，只是 – OpenAI希望 – 由於基礎技術的改進，答案會更好。似乎大多數虛擬助手都在重建以依賴LLM – OpenAI只是領先於這場遊戲。

OpenAI出色的Whisper模型完成了大量語音轉文字的工作，該公司正在推出一種新的文本到語音模型，據稱它可以只從文本和幾秒的示例語音生成「類似人類的音頻」。你將能夠從五個選項中選擇ChatGPT的聲音，但OpenAI似乎認為該模型的潛力遠遠超出這些。例如，OpenAI正與Spotify合作，以其他語言翻譯播客，而不改變主播本人的聲音。合成語音有許多有趣的用途，OpenAI可能是這一產業的重要組成部分。

但是，僅需要幾秒的音頻就能構建一個能力強大的合成聲音，這也為各種有問題的使用案例打開了大門。「這些功能也提出了新的風險，例如惡意行為者可能會假冒公眾人物或進行詐騙，」公司在宣佈新功能的博客文章中說。正因如此，該模型尚未面向廣泛使用，OpenAI表示它將受到更嚴格的控制並限於特定的使用案例和合作夥伴關係。

與此同時，圖像搜索有點像Google Lens。你拍下感興趣的任何照片，ChatGPT將嘗試解析你在詢問什麼並相應地回答。你還可以使用該應用程式的繪圖工具來幫助澄清你的查詢，或者說出或鍵入與圖像相關的問題。在這裏，ChatGPT的反覆性質很有幫助：與進行搜索，獲得錯誤答案，然後再進行另一次搜索不同，你可以提示機械人並在過程中逐步完善答案。 (這與Google的多模態搜索也非常相似。)

顯然，圖像搜索也有其潛在問題。一個是在你提示 ChatBot 有關某人時可能發生的情況：OpenAI表示，出於準確性和私隱原因，它已經故意限制了ChatGPT「分析並直接陳述有關人員的能力」。這意味着AI最科幻的願景之一 – 能夠看着某人說「這是誰?」 – 短期內不會實現。這可能是一件好事。

在ChatGPT最初發佈近一年後，OpenAI似乎仍在努力確定如何給其機械人添加更多功能和能力，同時不產生新的問題和缺點集合。通過這些版本，該公司試圖通過故意限制其新模型可以做什麼來實現這個目標。但這種方法不會永遠有效。隨着更多人使用語音控制和圖像搜索，以及ChatGPT越來越接近成為一個真正的多模式、多用途的虛擬助手，保持護欄會變得越來越困難。

想睇更深入嘅 AI 模型與工程科技報道？

前往 The Base Principle 繁體中文 AI 新聞 →

你可以使用圖片和語音指令指示 ChatGPT 了

十斗

搜尋文章

相關文章

十斗

搜尋文章