包装OCR识别之痛,新的AI模型能解决吗?

在化妆品行业中,包装上的中文标签(包括成分表、备案号、注意事项、生产批号、净含量、使用方法等)是监管审查、市场准入、线上/线下销售的重要依据。

然而在实际操作中,审查流程依赖人工视觉识别,效率低、易出错,尤其在批量包装样本或线上图片上传场景下更为明显。

因此,引入多模态OCR识别技术,对包装标签中的中文文字进行自动识别结构化提取,并进一步纳入AI审查流程,是提升审核效率与合规质量的重要路径。

多模态OCR/传统OCR有什么区别

多模态OCR “眼观六路 耳听八方”

多模态OCR的技术原理则来自“让模型同时看图、看字、懂语义”的设计思想,它不是把图像当作字符集合,而是把视觉内容当成一种语言输入,与文字提示、上下文语义一起送进同一条大模型推理链路中。

当然,多模态OCR中的技术方案有很多种,这里仅介绍其中一种,而像ChatGPT、#谷歌Gemini、DeepSeek 都具备多模态OCR的能力。

结合包装审核场景,多模态OCR就可以做到不是只看单个文字区域,而是把整张包装图作为一个整体进行理解,再完成文字识别。

因此,这种整体理解方式让它在面对化妆品包装这种背景复杂排版多样的场景时,有更高的稳定性和容错能力。结合它独特的技术架构,实现更高精度的文字识别以及混排文字适应力

传统OCR “切字的艺术”

传统 OCR 模型多数为专用字符识别引擎,先进行文字检测、再进行文字识别。

对于复杂背景、非标准字体、混排文字、非常密集或低对比度文字,往往识别准确率下降,且难以适应新布局或多变场景。

像早期的QQ或微信截图里的文字识别功能便是传统OCR的其中一种,当截图密集的文字或背景复杂的文字时,这时候识别出的文字内容就往往会出现问题,准确率大大降低。

多模态OCR Vs 化妆品包装文字识别

以上内容介绍了两种OCR的技术原理,为了方便大家了解大模型OCR对于化妆品包装审核这种高难度场景的识别情况,我们挑选了几家大模型:Chat GPT5.1、Gemini 3 Pro以及美程思文稿标签比对工具进行实战识别。

对于Chat GPT5.1、Gemini 3 Pro这种大型多模态大语言模型,它们的视觉模块通常包含一个强大的视觉编码器,但它们并没有识别包装的逻辑,因此,我们先要预设一个识别化妆品包装的“提示词”

提示词:
你的任务是从用户提供的化妆品包装设计稿或者中文标签中提取关键信息,并且以"Key-Value"的形式结构化输出。
我会给定以下标准的一些Key(记录在key-list中,用逗号分隔),请从包装中提取:
- 如果提取到相关信息,则记录在对应的Key的Value中;
- 如果提取不到任何信息,则记录将空字符串""记录到对应的Key的Value中;
- 如果遇到包装中的某些文本内容,无法判断应该归类到哪一个Key,则请合并至“其他内容”处。
<key-list>
产品中文名称,注册人/备案人名称,注册人/备案人地址,境内责任人名称,境内责任人地址,生产企业名称, 生产企业地址,生产许可证编号,产品执行的标准编号,成分(又称“0.1%(w/w)以上成分”),其他微量成分,净含量,使用期限,使用方法,安全警示用语,原产国,其他内容
</key-list>
注意事项:不能遗漏包装上的任何文本信息,不能擅自改动任何文字。

此外,我们还预设了国产品包装以及进口品中文标签两个常规案例:

  • 国产化妆品包装
  • 进口中文标签

来看看各家大模型的表现吧!

Gemini 3 Pro Vs Chat GPT 5.1

Gemini 3 Pro被誉为今年最强的模型,在众多基准测试中,Gemini 3 Pro都拿到了很高的成绩,而Chat GPT 5.1也是Open AI最新的版本。

在两种大模型中输入预设的提示词,再上传标签后,我们便能得到最后的识别结果:

  • 国产化妆品包装
  • 进口化妆品中文标签

可以看出,在两种最前沿的大模型中,或多或少均出现了“AI幻觉”、“随意修改文本内容”、“替换数字”等现象,虽然模型足够强大,但在化妆品包装这一文字密集、信息混杂的场景中,不免会出现一定的误差。

尤其是化妆品包装中最重要的成分部分,在国产品的案例中,Gemini 3 Pro与Chat GPT 5.1仅保持了前两个成分名称的一致性,后面均替换为了包装中未出现的成分。

而在进口品中文标签中,虽然Gemini 3 Pro在成分识别中仅有一个成分替换成了包装中未出现的成分,但恰恰是这一个成分的替换才显得尤为致命,人工复核极其困难。

这也是大型多模态大语言模型中无法避免的存在。

美程思文稿标签AI比对工具使用了传统OCR+LLM大模型整合的化妆品包装文稿识别解决方案,既提高了识别的准确程度,又大大减少了“AI幻觉”的产生。如今,在化妆品合规领域能更好地理解用户上传的包装图案文件。

  • 国产化妆品包装
  • 进口化妆品中文标签

在这两个化妆品包装案例中,美程思文稿标签AI比对工具做到了完全正确识别,美程思的高识别率离不开团队法规专家的不断调试与努力。

与此同时,点击右侧文本内容,可以实时跳转至选中对应的包装文字信息,针对文字繁多的化妆品包装,可以做到快速人工复核。

滚动至顶部