1

首页新闻世界政治法律时政评论地产投资教育移民金融理财商机商讯文化科技大千世界衣食住行美容健康社区新闻
当前位置:首页 > > 文化科技

OpenAI推多模态AI模型GPT-4 可支援图片输入可解释还能生成程式码

时间:2023-3-15
 

以开发出聊天机械人ChatGPT闻名的OpenAI,周二发布名为GPT-4的最新人工智能 (AI) 模型,除了准确度、创造力和协作性更高之外,GPT-4还可支援图片输入功能,并以文字来解释图像内容,甚至回答问题;甚至输入一张手绘设计草图就能自动产生对应的网页程式码。

报道指,现时的ChatGPT属于GPT-3.5版本,其于文字及图片上的表现已相当出色,吸引众多科企将旗下产品加入该技术。而GPT-4是一个多模态的AI模型,除了文字输入以外,还可透过图像输入来生成内容。

 

GPT-4会以文字来解释图片内容,并且符合文字任务的要求。输入的图片可以是照片、图表或萤幕截图。举例来说,如果用家发送雪柜内部的图片,GPT-4不仅能正确识别有甚么,还会调制可以用这些材料制成的东西。

未来,GPT-4还将持续强化解图能力,例如可以输入多组图片范例,或是提供分解动作解释的解图能力。

GPT-4可以用来解释组合图,各图的重点,该图为“VGA转接头接上iPhone手机”。OpenAI
GPT-4可以用来解释组合图,各图的重点,该图为“VGA转接头接上iPhone手机”。OpenAI

 

GPT-4可解读分析图表内容。OpenAI
GPT-4可解读分析图表内容。OpenAI

 

GPT-4可以看图找出问题的答案。OpenAI
GPT-4可以看图找出问题的答案。OpenAI

 

问及图中异常之处,GPT-4也可以找出。
问及图中异常之处,GPT-4也可以找出。

 

迷因图片也难不到GPT-4,而且不失幽默。OpenAI
迷因图片也难不到GPT-4,而且不失幽默。OpenAI

 

GPT-4可以分解解读漫画的重点。OpenAI
GPT-4可以分解解读漫画的重点。OpenAI

 

OpenAI透过网志表示,使用微软的Azure训练GPT-4模型,相较于前一版的GPT-3.5,GPT-4有了巨幅改进,又指新模型将产生更少的错误答案、减少偏离轨道和谈论禁忌话题的频率。

较早前,在与ChatGPT或Bing的的互动中,传出许多用家被呈现谎言、侮辱或其他所谓的“幻觉”。OpenAI表示:“我们花了6个月的时间使GPT-4更安全、更一致。GPT-4回应不允许内容请求降低了82%,产生事实回应的可能性增加了40%”。

在模拟美国法学院毕业生参加律师考试的实测中,GPT-4的分数可达到前10%左右,GPT-3.5却只能落在最底的10%。在SAT数学测验或GRE测验等30多项不同学科的主流检定测验上,GPT-4都大胜3.5版。

OpenAI宣称,GPT-4英文答题的正确率达到80.5%,高于3.5版的70.1%,甚至也高于Google日前的PaLM模型英文答题的69.3%正确率。不过,PaLM答题正确率是OpenAI自行实测的结果,而非Google官方数据。值得注意的是,GPT-4对翻译成中文版的MMLU答题正确率也达到了80.1%,日语和韩语版也都有70至80%的正确率。

OpenAI说,虽然在一般对话中,GPT-3.5和GPT-4两种版本模型的生成内容相当类似,但是当任务的复杂度达到一定门槛时,差异就会浮现,GPT-4更有能力处理更细腻的指令。

根据OpenAI,摩根士丹利正在使用 GPT-4 来整理数据,电子支付商Stripe也在测试是否可利用GPT-4来杜绝诈骗,其他客户还包含线上语言学习 App“Duolingo”、线上学习平台可汗学院 (Khan Academy) 以及冰岛政府。

GPT-4目前先开放了文字输入功能予ChatGPT Plus付费用户,特定合作伙伴可优先排入试用新版。至于图片输入功能目前仍在预览阶段。