今年会·(jinnianhui)金字招牌-GPT

2026-05-05 22:19:38

首页财产ai正文 GPT-Image-2 ：随便做出可作为「证据」的图片 4月21日OpenAI发布GPT-Image-2，于排行榜领先，焦点参数晋升，文字衬着正确率达99%，激发存眷，其能力界限扩大，人类需严厉应答。 2026-04-22 10:59 ·微信公家号：硅星人猫猫头 AI投资人解读· GPT-Image-2于Image Arena排行榜全榜第一，焦点参数体现优秀，文字衬着正确率达约99%。发布当天社区反映强烈热闹，展示出强盛能力。其架构重写、有Thinking模式、练习数据倾向真实视觉素材。 · 99%正确率是试验室数字，真实场景体现待察可能被用在制造虚伪信息。总结：GPT-Image-2上风较着，具有投资潜力，但需存眷现实运用体现和潜于危害，建议进一步跟踪评估其贸易价值与社会影响。内容由AI天生，仅供参考

这是4月21日GPT-Image-2于Image Arena Text-to-Image排行榜上*第二名的Elo分差。Arena官方用了一个词：clean sweep——全榜*，没有破例。

OpenAI于此日正式发布了GPT-Image-2。面向所有ChatGPT用户，API估计5月初跟进。焦点参数：最高4096×4096分辩率，天生速率比前代快一倍，文字衬着正确率畴前代的90-95%跳到约99%。订价每一百万token 美金8-美金30，折合单张图片美金0.006-美金0.211。

模子分两种模式。Instant是快出图，所有人可用；Thinking模式集成推理及网页搜刮，单次至多天生8张气势派头一致的图片——但锁于Plus和以上付费层级。

只看参数，这像一次通例迭代。但Arena开创人@ml_angelopoulos 看完Arena榜单后说了一句话："literally broke the chart——有史以来*的差距。"

差距暗地里是一个积攒了三年的问题终究被正面回应了。AI图象天生*的笑话，一直是文字。

DALL-E 3拼不合错误繁杂单词，Midjourney把招牌写成乱码，Stable Diffusion于海报上输出鬼画符。文字衬着是生图模子的"手指问题"——不是不主要，而是一做就露馅。99%的正确率假如建立，AI天生的海报、菜单、UI截图、品牌物料*次可以跳过人工批改，直接交付。

生图模子的能力界限，正于从"视觉"扩大到"信息"。

一、案例：它到底能做甚么

发布当天，社区反映险些是即时的。

文字衬着是发布当天被验证至多的能力。VentureBeat的Carl Franzen让模子天生阿兹特克、玛雅及印加三年夜帝国邦畿的汗青舆图，附完备图例。舆图正确、图例彻底可读，他用的词是"seemingly flawlessly"。

TechCrunch的Amanda Silberling让模子天生一份墨西哥餐厅菜单——两年前DALL-E 3拼不合错误"enchilada"，此次的输出"可以直接放进餐厅利用，客人不会察觉任何异常"。

Thumio开创人@corbin_braun 连发几串thread，做了更直觉的对于比：把Google Pro 3及GPT Image 2的缩略图天生成果并排放出来。他的结论一个词："insane。"统一天他还有连发数条帖，称这是"YouTube thumbnail endgame"。

from clipboard

文字以外，脚色一致性是另外一个被重复提到的点。OpenAI演示了从一张自拍天生三页漫画的事情流，脚色于多页间连结一致。美妆博主@jameygannon 把这个能力拉进了贸易场景：一条prompt天生一整套品牌kit——logo、配色、排版、多页运用。

from clipboard

值患上留意的是，这些测试全数发生于发布后几小时内，来自差别人、差别场景、差别诉求。没有人于精心遴选*输出。

二、技能拆解：为何此次纷歧样

架构重写。GPT-Image-2再也不基在GPT-4o的图象pipeline。研究卖力人Boyuan Chen将其界说为"GPT for images"——一个重新设计的自力体系。社区测试者于4月初Arena泄露阶段（模子以maskingtape-alpha、gaffertape-alpha、packingtape-alpha三个代号呈现）就留意到变化：从两阶段天生转向单次推理。

用一个类比：已往的模子是"先听懂你说甚么，再动手画"，中间有一次信息压缩；GPT-Image-2是"边理解边画"，语言理解及图象天生于统一历程中完成。以是文字衬着终究准了——天生每一个像素时，模子仍旧"知道"本身于写甚么字。

Thinking模式。开启后，模子于落笔前先计划构图，天生后查抄输出，发明过错还有会迭代批改。anti gamble开创人@damianplayer 的拆解："reasoning mid-generation——plans the composition, checks its own output。"推理集成还有让模子可以于天生历程中挪用网页搜刮、将文档转化为视觉图表、于8张图片间维持脚色一致性。

世界常识的奔腾。练习数据较着倾向真实世界的视觉素材：UI截图、店面招牌、界面结构。当你要求天生"平凡工程师的屏幕"，它输出的是可托的显示器画面，不是要害词拼贴。@Yuchenj_UW 试用后的判定很直接："It is really good. OpenAI is finally leading the image gen again。"

架构决议了它能"读懂"文字，Thinking让它能"查抄"文字，世界常识让它知道文字应该"长甚么样"。三层能力叠于一路，文字衬着从短板酿成了长板。

三、人类必需严厉看待如许的以假乱真能力

StartupFortune于发布日给了一个定位：从"creative novelty"到"production infrastructure"。品牌mockup、告白设计、信息图表，已往由于文字不成靠而必需人工参与的场景，最先酿成一条prompt可以交付的事情流。

不外StartupFortune本身也加了一句审慎的提示："benchmark performance and production performance often diverge。"99%是试验室数字，真实世界的多语言、多字体、多排版场景能不克不及hold住，5月API开放后才会有谜底。

咱们更体贴的是另外一个问题。

Jake Handy于发布日的Substack技能拆解中写了当天最锋利的一段：让GPT-Image-2成为*出产力东西的那组能力——切确的文字衬着、可托的UI结构、真实世界的视觉辞汇——刚好也是制造虚伪信息的*东西集。

假UI截图、假Bloomberg终端、假法庭文件、假Slack对于话，"every one of those is dense text laid over a known visual vocabulary, which is the exact workload OpenAI optimized for。"（"这些中的每个都是于已经知视觉辞汇之上叠加的密集文本，而这恰是 OpenAI 所优化的事情负载。）

这个不雅察之以是耀眼，是由于它不是于说模子有甚么"副作用"，它于说模子最被赞赏的阿谁能力——把文字切确地嵌入可托的视觉场景——自己就是双刃的。

已往的生图模子由于文字太烂，反而自然带有一层"防伪标志"：一眼就能看出是AI做的。GPT-Image-2把这层自然樊篱拆失了。

OpenAI的应答是C2PA元数据水印及溯源分类器。image-2 lauch的直播中，产物卖力人Adele Li于发布会上本身认可，元数据"is not a silver bullet"——截图、裁剪、平台压缩，任何一步都让水印掉效。

Jake Handy给出的定性咱们认为是正确的："The model is an excellent problem。"

AI图象天生确凿进入了"文字时代"。但文字可托这件事，于人类的前言史上，从来就不只是一个技能问题。

这或许才是阿谁“强到不该该公然发布”的模子，今天以后，每一个人都有了随便天生曾经经城市被认作事实证据的图片，信息的判定变患上史无前例的难，这个强到离谱的模子会于将来很长一段时间给人们带来发急，咱们会看到是以而孕育发生的各类冲突及会商，人类必需一路严厉应答这类以假乱真的能力了。

【本文由投资界互助伙伴微信公家号：硅星人授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-今年会·(jinnianhui)金字招牌

下一篇：和合共生积极有为——今年会·(jinnianhui)金字招牌诚信至上集团2025年度工作总结会顺利召开