菜单
首页财产ai正文 GPT-Image-2 :随便做出可作为「证据」的图片 4月21日OpenAI发布GPT-Image-2,于排行榜领先,焦点参数晋升,文字衬着正确率达99%,激发存眷,其能力界限扩大,人类需严厉应答。 2026-04-22 10:59 ·微信公家号:硅星人猫猫头 AI投资人解读· GPT-Image-2于Image Arena排行榜全榜第一,焦点参数体现优秀,文字衬着正确率达约99%。发布当天社区反映强烈热闹,展示出强盛能力。其架构重写、有Thinking模式、练习数据倾向真实视觉素材。 · 99%正确率是试验室数字,真实场景体现待察可能被用在制造虚伪信息。 总结:GPT-Image-2上风较着,具有投资潜力,但需存眷现实运用体现和潜于危害,建议进一步跟踪评估其贸易价值与社会影响。内容由AI天生,仅供参考
这是4月21日GPT-Image-2于Image Arena Text-to-Image排行榜上*第二名的Elo分差。Arena官方用了一个词:clean sweep——全榜*,没有破例。

OpenAI于此日正式发布了GPT-Image-2。面向所有ChatGPT用户,API估计5月初跟进。焦点参数:最高4096×4096分辩率,天生速率比前代快一倍,文字衬着正确率畴前代的90-95%跳到约99%。订价每一百万token 美金8-美金30,折合单张图片美金0.006-美金0.211。
模子分两种模式。Instant是快出图,所有人可用;Thinking模式集成推理及网页搜刮,单次至多天生8张气势派头一致的图片——但锁于Plus和以上付费层级。
只看参数,这像一次通例迭代。但Arena开创人@ml_angelopoulos 看完Arena榜单后说了一句话:"literally broke the chart——有史以来*的差距。"

差距暗地里是一个积攒了三年的问题终究被正面回应了。AI图象天生*的笑话,一直是文字。
DALL-E 3拼不合错误繁杂单词,Midjourney把招牌写成乱码,Stable Diffusion于海报上输出鬼画符。文字衬着是生图模子的"手指问题"——不是不主要,而是一做就露馅。99%的正确率假如建立,AI天生的海报、菜单、UI截图、品牌物料*次可以跳过人工批改,直接交付。
生图模子的能力界限,正于从"视觉"扩大到"信息"。
一、案例:它到底能做甚么
发布当天,社区反映险些是即时的。
文字衬着是发布当天被验证至多的能力。VentureBeat的Carl Franzen让模子天生阿兹特克、玛雅及印加三年夜帝国邦畿的汗青舆图,附完备图例。舆图正确、图例彻底可读,他用的词是"seemingly flawlessly"。
TechCrunch的Amanda Silberling让模子天生一份墨西哥餐厅菜单——两年前DALL-E 3拼不合错误"enchilada",此次的输出"可以直接放进餐厅利用,客人不会察觉任何异常"。
Thumio开创人@corbin_braun 连发几串thread,做了更直觉的对于比:把Google Pro 3及GPT Image 2的缩略图天生成果并排放出来。他的结论一个词:"insane。"统一天他还有连发数条帖,称这是"YouTube thumbnail endgame"。

文字以外,脚色一致性是另外一个被重复提到的点。OpenAI演示了从一张自拍天生三页漫画的事情流,脚色于多页间连结一致。美妆博主@jameygannon 把这个能力拉进了贸易场景:一条prompt天生一整套品牌kit——logo、配色、排版、多页运用。

值患上留意的是,这些测试全数发生于发布后几小时内,来自差别人、差别场景、差别诉求。没有人于精心遴选*输出。
二、技能拆解:为何此次纷歧样
架构重写。GPT-Image-2再也不基在GPT-4o的图象pipeline。研究卖力人Boyuan Chen将其界说为"GPT for images"——一个重新设计的自力体系。社区测试者于4月初Arena泄露阶段(模子以maskingtape-alpha、gaffertape-alpha、packingtape-alpha三个代号呈现)就留意到变化:从两阶段天生转向单次推理。
用一个类比:已往的模子是"先听懂你说甚么,再动手画",中间有一次信息压缩;GPT-Image-2是"边理解边画",语言理解及图象天生于统一历程中完成。以是文字衬着终究准了——天生每一个像素时,模子仍旧"知道"本身于写甚么字。
Thinking模式。开启后,模子于落笔前先计划构图,天生后查抄输出,发明过错还有会迭代批改。anti gamble开创人@damianplayer 的拆解:"reasoning mid-generation——plans the composition, checks its own output。"推理集成还有让模子可以于天生历程中挪用网页搜刮、将文档转化为视觉图表、于8张图片间维持脚色一致性。

世界常识的奔腾。练习数据较着倾向真实世界的视觉素材:UI截图、店面招牌、界面结构。当你要求天生"平凡工程师的屏幕",它输出的是可托的显示器画面,不是要害词拼贴。@Yuchenj_UW 试用后的判定很直接:"It is really good. OpenAI is finally leading the image gen again。"

架构决议了它能"读懂"文字,Thinking让它能"查抄"文字,世界常识让它知道文字应该"长甚么样"。三层能力叠于一路,文字衬着从短板酿成了长板。
三、人类必需严厉看待如许的以假乱真能力
StartupFortune于发布日给了一个定位:从"creative novelty"到"production infrastructure"。品牌mockup、告白设计、信息图表,已往由于文字不成靠而必需人工参与的场景,最先酿成一条prompt可以交付的事情流。
不外StartupFortune本身也加了一句审慎的提示:"benchmark performance and production performance often diverge。"99%是试验室数字,真实世界的多语言、多字体、多排版场景能不克不及hold住,5月API开放后才会有谜底。
咱们更体贴的是另外一个问题。

Jake Handy于发布日的Substack技能拆解中写了当天最锋利的一段:让GPT-Image-2成为*出产力东西的那组能力——切确的文字衬着、可托的UI结构、真实世界的视觉辞汇——刚好也是制造虚伪信息的*东西集。
假UI截图、假Bloomberg终端、假法庭文件、假Slack对于话,"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for。"("这些中的每个都是于已经知视觉辞汇之上叠加的密集文本,而这恰是 OpenAI 所优化的事情负载。)
这个不雅察之以是耀眼,是由于它不是于说模子有甚么"副作用",它于说模子最被赞赏的阿谁能力——把文字切确地嵌入可托的视觉场景——自己就是双刃的。
已往的生图模子由于文字太烂,反而自然带有一层"防伪标志":一眼就能看出是AI做的。GPT-Image-2把这层自然樊篱拆失了。
OpenAI的应答是C2PA元数据水印及溯源分类器。image-2 lauch的直播中,产物卖力人Adele Li于发布会上本身认可,元数据"is not a silver bullet"——截图、裁剪、平台压缩,任何一步都让水印掉效。

Jake Handy给出的定性咱们认为是正确的:"The model is an excellent problem。"
AI图象天生确凿进入了"文字时代"。但文字可托这件事,于人类的前言史上,从来就不只是一个技能问题。
这或许才是阿谁“强到不该该公然发布”的模子,今天以后,每一个人都有了随便天生曾经经城市被认作事实证据的图片,信息的判定变患上史无前例的难,这个强到离谱的模子会于将来很长一段时间给人们带来发急,咱们会看到是以而孕育发生的各类冲突及会商,人类必需一路严厉应答这类以假乱真的能力了。
【本文由投资界互助伙伴微信公家号:硅星人授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-今年会·(jinnianhui)金字招牌