3
60人工智能研究院介绍

360人工智能研究院 (research.360.cn) 是360集团在AI领域的核心技术团队,以“研发业界一流技术,创造产业落地价值”为组织使命。

我们聚焦于图像、文本、视频等多模态信息的理解与处理,致力于研发业界领先的计算机视觉、自然语言理解、多模态理解、多模态生成等前沿AI技术,并应用于互联网信息分发、企业数字化、AIoT等 360集团全量业务场景,支持千万级硬件设备,服务亿级用户。

我们追求以前沿的AI技术来持续提供专业生产力,通过专业影响力来引领和支撑新的业务方向;我们营造技术导向的专业文化氛围,持续向行业社区贡献我们的技术实践,促进行业共同进步。

360人工智能研究院研究方向

多模态理解

聚焦图文跨模态模型 + 开放世界目标检测模型 + 多模态大模型,覆盖互联网搜索、推荐,办公文档智能分析,安防视频监控的业务场景,提供独有的细粒度理解能力,高泛化性能和多场景适用能力。代表性工作:

· FG-CLIP:新一代 CLIP 模型,具备强大的细粒度判别能力,在 17 项下游任务中显著优于现有模型,包括细粒度理解、开放词汇目标检测、区域图像分类、长短文本-图像检索以及通用多模态基准测试,ICML 2025。 

· Zero:规模最大(2.5 亿)的中文开源跨模态对齐预训练数据集及高质量测试基准,ACM MM 2023。 

· IAA:具备 “ControlNet” 插件机制的多模态大模型,解决多模态训练过程中的灾难性遗忘问题,AAAI 2025。 

多模态生成

聚焦高效文生图基座模型 + 高可控图像生成能力 + 高可控图像编辑能力,覆盖文生图、图生图、inpaint、outpaint、超分、风格变换等多样能力,提供独有的快速生成能力,布局控制能力和细小文字超分能力。代表性工作:

· BDM:真正的原生中文图像生成模型,既解决了当前主流产品以英文开源模型+翻译的方式存在的英文世界偏见的问题,又保持了与已有SD社区的兼容性,AAAI 2025。 

· Qihoo-T2X:文本到图像/视频/3D生成的高效DiT 架构,减少 50% 以上的推理计算量,ICLR 2025。 

文档智能解析

丰富的文档解析能力 + 多模态embedding能力 + 多策略RAG召回能力,支持对企业私有数据进行文档分析、知识提取、知识库创建和持续管理。

SaaS产品

360人工智能研究院自主研发的新一代图文跨模态模型FG-CLIP开放API和MCP接口,可在研究院官网(https://research.360.cn)调用。这项服务拥有细粒度特征精准对齐的能力,解决AI视觉理解 “近视”与“图文不符”的困扰,同时经过深度优化的推理性能可以满足实际生产高并发低时延的要求。无论是互联网搜广推、智能办公检索,还是复杂场景下的视觉分析,FG-CLIP都将为开发者与企业用户提供当前性能最好的跨模态智能服务。

FG-CLIP模型介绍

FG-CLIP在细粒度视觉理解领域取得了突破性进展。该模型创新性地整合了前沿图文对齐技术,并基于大规模精选数据集和难细粒度负样本学习策略,实现了对图像的多层次语义解析。其独特优势在于能同时把握全局语境和局部细节,精准识别和区分细微特征差异。FG-CLIP模型具备基于语义特征的多模态检索能力,支持文本到图像(Text-to-Image)、图像到文本(Image-to-Text)、文本到文本(Text-to-Text)及图像到图像(Image-to-Image)的跨模态检索任务。

英文场景benchmark结果

1756457272926567.png

中文场景benchmark结果

1756457293167815.png

 

官网:
https://research.360.cn
Github
https://github.com/360CVGroup


Registration

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.