从本质上讲,openai正在为其聊天机器人赋予嘴巴和眼睛。
据悉,openai正在更新chatgpt,以允许人工智能工具在与用户的交互中做到“看到、听到和对话”。本次更新推出后,使chatgpt能够响应图像,理解口头提示,并使用聊天机器人的新声音与用户进行来回对话。这些变化使chatgpt功能更加类似于siri或亚马逊的alexa,但是与siri或alexa不同,chatgpt不需要唤醒词来进行“召唤”。
总的来说,本次更新使得chatgpt更具互动性,用户可以拍一张照片并向chatgpt询问相关问题,不过本次更新并不是全部免费,图像和语音功能将在接下来的几周内,为每月20美元订阅chatgpt plus和enterprise版本用户提供。
openai在公告中表示:“语音和图像为您提供了在生活中使用chatgpt的更多方式。”“在旅行时拍一张地标的照片,并实时讨论它的有趣之处。当你回到家时,拍下你的冰箱和食品储藏室的照片,以弄清楚晚餐吃什么(并询问后续问题,以便按照食谱步骤制作)。晚餐后,至可以通过拍照、圈出问题集让它来帮助您的孩子解决数学问题。”
“这不仅仅是因为打字很乏味,”openai的产品负责人joanne jang在接受采访时告诉记者:“你们现在可以进行双向对话。”
显然随着不断迭代,chatgpt的功能在逐渐强大。此前福克斯新闻医疗撰稿人marc siegel博士在“the big money show”中讨论了chatgpt在做出医疗决策方面的准确性,结果显示如果chatgpt扮演医生,成功率达72%,它在前不久甚至帮助一个苦寻良医许久的男孩找到了真实的病因,在全球引起巨大热议。
针对本次的更新,据专业人士称更新后的chatgpt新语音功能,将由文本转语音模型提供支持,该模型能够从文本和几秒钟的样本语音中生成类似人类的音频。openai还聘请专业配音演员来创作声音,允许chatgpt以五种不同的声音说话,并利用openai的开源语音识别系统whisper将口语转录为文本。
不过也有人士指出,新语音技术存在一些风险,例如可能发生欺诈或冒充。openai在声明中表示:“新的语音技术能够从几秒钟的真实语音中生成逼真的合成声音,为许多创造性和可访问性的应用程序打开了大门,然而,这些新功能也带来了新的风险,例如恶意行为者冒充公众人物或实施欺诈的可能性。”针对图像方面,chatgpt的新的基于视觉的模型能够分析和响应图像,但这种模型也带来了新的挑战,并且该公司“已采取技术措施来显着限制chatgpt分析和直接能力,因为这些系统应该尊重个人隐私。”
不过针对本次更新,在业内引起讨论的同时,也有不少用户表示“没什么新意和突破”,随着openai开发者大会的日益临近,不知道急于“独立”并在争取创造大额营收的openai又会做出什么样的举措呢。