ChatGPT重磅升级!新语音和图像输入功能，让ChatGPT能看、能听、能说

2023-09-28 09:15

电子发烧友网

李弯弯

语音输入功能类似于手机上的语音助手，用户只需要轻轻点击一个按钮，说出自己的问题，ChatGPT能将这些口述的问题转换成文本，将其输入至大语言模型中，生成答案，接着将答案转化成语音，播放给用户。

本文来自电子发烧友网，作者/李弯弯。

近日消息，OpenAI在一篇博客中表示，ChatGPT将推出新的语音和图像功能。用户不仅可以在文本框中输入文字提示，还可以通过语音或图像与ChatGPT交流。OpenAI称，新功能在未来两周内向付费用户推出，不久后会推广到其他用户。

ChatGPT是OpenAI推出的一种人工智能技术驱动的自然语言处理工具，它能够基于在预训练阶段所见的模式和统计规律，来生成回答，还能根据聊天的上下文进行互动，能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。自2022年11月30日发布以来，ChatGPT已经进行了多次功能升级。

ChatGPT现在能看、能听、能说了

ChatGPT使用了Transformer神经网络架构，也是GPT-3.5架构，这是一种用于处理序列数据的模型，拥有语言理解和文本生成能力，尤其是它会通过连接大量的语料库来训练模型，这些语料库包含了真实世界中的对话，使得ChatGPT具备上知天文下知地理，还能根据聊天的上下文进行互动的能力，做到与真正人类几乎无异的聊天场景进行交流。

2022年11月30日，ChatGPT刚面世就迅速在社交媒体上走红，短短5天，注册用户数超过100万。2023年一月末，ChatGPT的月活用户突破1亿，成为史上增长最快的消费者应用。

2023年2月2日，OpenAI发布ChatGPT试点订阅计划——ChatGPT Plus。ChatGPT Plus以每月20美元的价格提供，订阅者可获得比免费版本更稳定、更快的服务，及尝试新功能和优化的优先权。同日，微软发布公告称，旗下所有产品将全线整合ChatGPT。

2023年3月15日，OpenAI正式推出GPT-4。GPT-4是多模态大模型，即支持图像和文本输入以及文本输出，拥有强大的识图能力。GPT-4的特点在于：第一，它的训练数量更大；第二，支持多元的输出输入形式；第三，在专业领域的学习能力更强。

2023年5月18日，OpenAI官网宣布推出iOS版ChatGPT应用，该应用可免费使用，并在不同设备间同步用户的历史记录。该应用还集成了OpenAI开源语音识别系统Whisper，支持语音输入。ChatGPT Plus付费订阅用户可以独家使用GPT-4功能。

2023年7月，OpenAI宣布推出定制指令功能，以便客户更好地控制ChatGPT的回应方式。此外，OpenAI还发布公告称，给ChatGPT加了一个名为Custom instructions的新功能。2023年7月25日，OpenAI宣布，安卓版ChatGPT正式上线。

2023年9月25日，OpenAI发布《ChatGPT现在能看、能听、能说了》的公告，宣布ChatGPT增加语音输入和图像输入两项新功能。这可以说是ChatGPT发布以来极其重大的更新。

据介绍，语音输入功能类似于手机上的语音助手，用户只需要轻轻点击一个按钮，说出自己的问题，ChatGPT能将这些口述的问题转换成文本，将其输入至大语言模型中，生成答案，接着将答案转化成语音，播放给用户。

语音转文本的任务由OpenAI的Whisper模型提供支持。同时，该公司正在引入一款全新的文本转语音的模型，据称可以通过几秒钟的语音样本生成与人类相似的音频。

图像输入功能类似于Google Lens，用户可以拍摄自己感兴趣的事物，并上传到ChatGPT中，ChatGPT会尝试识别用户想要询问的内容，并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题，或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片，提问相关的问题。比如，发送一张坏掉的烧烤炉图片，然后询问无法启动原因；拍摄一张冰箱中的食材，询问多种菜品制作方案。

OpenAI还放出了一段视频，是和ChatGPT商量着修自行车，不断问ChatGPT：这里是扳手吗？是调整这里吗？甚至还把说明书拍照发给ChatGPT求解释。

这正是ChatGPT独特的特性所带来的帮助，用户可以与机器人进行互动，逐步完善答案，而无需首先进行搜索并在得到错误答案后再次搜索。

ChatGPT新增语音和图像功能带来的风险

OpenAI在博客中表示，其目标是构建安全有益的通用人工智能（AGI）。新增的语音和图像功能可能会带来一些风险，但是OpenAI正在采取措施缓解这些风险。

新的语音技术能够在短短几秒钟的真实语音片段中生成逼真的合成语音，这一技术存在潜在风险，比如，恶意行为者可能会滥用这项技术，冒充公众人物或实施欺诈。为了避免这些问题的发生，OpenAI决定将这项技术应用于特定的场景中，会受到严格的限制。

新的图像功能也带来一定风险，在进行更广泛的部署之前，OpenAI测试了该模型在极端主义和科学领域等方面潜在的风险，并对一些关键细节进行了调整，来确保负责任地应用这项技术。比如，在处理人物图片时，OpenAI限制了ChatGPT对人物进行分析和直接评价的能力，这意味着上传一个人的照片就能知道那是谁无法实现，这是为了隐私安全。

ChatGPT自发布以来，在受到广大用户追捧的同时，其伴随的风险也让各界人士表示担忧。一是它可能在被使用的过程中造成数据信息的丢失；二是它也可能会被一些不法分子用来实施欺诈行为。在过去这大半年时间里，不少机构也在反对ChatGPT的使用和进一步研究。

2023年2月3日，IT行业的领导们担心，ChatGPT已经被黑客们用于策划网络攻击时使用。黑莓（Black Berry）的一份报告调查了英国500名IT行业决策者对ChatGPT这项革命性技术的看法，发现超过四分之三（76%）的人认为，外国已经在针对其他国家的网络战争中使用ChatGPT。近一半的人认为，2023年，将会出现有人恶意使用ChatGPT成功进行网络攻击。

2023年4月，中国支付清算协会倡议支付行业从业人员谨慎使用ChatGPT。4月13日，西班牙国家数据保护局和法国国家信息自由委员会分别宣布对ChatGPT展开调查。

在各界人士对ChatGPT存在风险的质疑声中，OpenAI也一直在寻找解决办法，如何让其在增加新功能的同时而不会带来新的问题。从这次的功能升级来看，OpenAI试图通过有意限制新模型的功能，来达到更进一步提升功能和同时带来新问题的平衡。OpenAI表示，将不断改进和完善风险缓解措施，未来为大家提供更强大的系统。

总结

ChatGPT自出世以来就引起了广泛关注，过去近一年时间，OpenAI对其底层模型和界面也进行了多次升级。如今，ChatGPT更是进行了一次重磅升级，新增语音输入和图像输入功能，让ChatGPT实现了能看、能听、能说的能力。

与此同时，ChatGPT在使用中存在的风险一直以来也是各界担心的问题，此次增加的新功能更是可能带来新的风险。不过在过去这段时间，OpenAI也一直致力于寻找解决办法，就比如在这次功能升级中，OpenAI通过一些限制来在实现新功能的同时也避免可能带来新风险。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

“软件定义汽车”渐入深水区智能汽车时代如何直面软件开发挑战?

ChatGPT重磅升级!新语音和图像输入功能，让ChatGPT能看、能听、能说

2026 信息化观察网

长按扫描二维码阅读原文