1月24日,据报道,HuggingFace发布了两款全新轻量级视觉语言模型(VLM):SmolVLM-256M-Instruct和SmolVLM-500M-Instruct,SmolVLM-256M-Instruct仅有2.56亿参数,可在内存低于1GB的PC上高效运行。

HuggingFace的SmolVLM系列以轻量化和高性能著称。本次推出的SmolVLM-256M-Instruct和SmolVLM-500M-Instruct进一步缩减了模型参数,其中SmolVLM-256M-Instruct:仅有2.56亿参数,是迄今为止最小的视觉语言模型,可在极低算力环境下运行,同时提供卓越的性能输出。SmolVLM-500M-Instruct:拥有5亿参数,针对硬件资源受限的场景设计,适用于大规模数据分析任务。两款模型均采用HuggingFace的先进多模态技术,能够执行图像描述、短视频分析、文档理解等任务,为开发者提供更广泛的应用场景。
在技术上,其拥有多模态能力,使SmolVLM模型能够处理图像、文本和文档等多模态数据,支持图像描述、科学图表分析和PDF问答等复杂任务。优化的视觉编码器的新模型采用了SigLIPbasepatch-16/512视觉编码器,相较于SmolVLM2B使用的SigLIP400MSO,优化了图像标记的处理方式,显著减少了冗余并提升了复杂数据处理能力。
在数据集支持上,TheCauldron:包含50个高质量图像和文本数据集,专注于多模态学习。Docmatix:为文档理解设计的定制数据集,将扫描文档与详细标题配对,提升文档处理能力。高效图像编码,SmolVLM模型以每标记4096像素的速率对图像进行编码,比早期版本的每标记1820像素提升了一倍以上,大幅提高了数据处理效率。
HuggingFace表示,SmolVLM系列模型在构建可搜索数据库时的速度和成本表现优异,可媲美参数规模是其10倍的模型。通过优化算法和架构设计,这些模型为开发者提供了高性价比的AI解决方案,使AI能力触手可及。