网页
资讯
视频
图片
知道
文库
贴吧
地图
采购
进入贴吧
全吧搜索
吧内搜索
搜贴
搜人
进吧
搜标签
日
一
二
三
四
五
六
签到排名:今日本吧第
个签到,
本吧因你更精彩,明天继续来努力!
本吧签到人数:0
一键签到
可签
7
级以上的吧
50
个
一键签到
本月漏签
0
次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行
补签
。
连续签到:
天 累计签到:
天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
01月06日
漏签
0
天
梯子交流吧
关注:
241,117
贴子:
78,386
看贴
图片
吧主推荐
游戏
2
回复贴,共
1
页
<返回梯子交流吧
>0< 加载中...
CLIP/Flamingo/ Gemini的架构对比是怎样的
只看楼主
收藏
回复
吾闲
铁杆吧友
8
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
当深度学习进入以“感知整合”为核心的新时代,“多模态”一词迅速成为当前人工智能发展的前沿方向。传统的单一输入形式(如文本、图像、音频)已无法满足人机交互、知识建构、推理能力全面发展的要求。在此背景下,CLIP、Flamingo、Gemini 以及 GPT-4V 等多模态模型陆续被提出,它们或借助对比学习强化图文协同,或通过视觉语言桥接泛化能力,亦或以庞大参数量和跨模态对齐机制争夺通用智能的主导位置。
送TA礼物
IP属地:中国香港
来自
iPhone客户端
1楼
2025-11-17 15:44
回复
缘之苍穹orz、、天之伤悲. . . 被楼主禁言,将不能再进行回复
吾闲
铁杆吧友
8
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
这些模型的架构不再单纯追求单一模态的信息处理能力,而是着重处理模态间的信息配对、联合建模、语义统一、任务泛化等复杂问题。然而,这些系统在设计时所采用的结构策略、预训练目标、输入处理方式、下游任务适配机制却有显著分歧。我们应该怎样对这些系统进行结构性比对?其技术选择背后所代表的认知路径、工程实现与推理范式是否彼此兼容?模型的“看图说话”或“图文问答”能力是否已经超越了浅层语义配对?
IP属地:中国香港
来自
iPhone客户端
2楼
2025-11-17 17:42
回复
收起回复
2026-01-06 16:56:54
广告
不感兴趣
开通SVIP免广告
吾闲
铁杆吧友
8
该楼层疑似违规已被系统折叠
隐藏此楼
查看此楼
CLIP(Contrastive Language-Image Pretraining)由 OpenAI 在 2021 年提出,其核心在于同时训练两个 Transformer 编码器:一个处理图像,一个处理文本。训练目标并非传统分类任务,而是最大化图像与文本在语义空间中的相似性,即构建一个图文联合语义空间。CLIP 不做图文交叉注意力融合,图像与文本编码各自独立,之后通过对比损失函数(InfoNCE)进行配对学习。
IP属地:中国香港
来自
iPhone客户端
3楼
2025-11-17 18:03
回复
收起回复
登录百度账号
扫二维码下载贴吧客户端
下载贴吧APP
看高清直播、视频!
贴吧热议榜
1
最惨小三!当十年情妇倒赔700万
2290020
2
砖家评越南新娘:低彩礼但藏刀
1939056
3
啃老研究生零存款贷宝马3系
1767780
4
纯狱风,马杜罗被捕服装卖断货
1509381
5
双标!徐静雨贬凡人狂吹火影
1336712
6
牢真遭盒武器打击后宣布退网
996675
7
怕清算?伊朗领袖携950亿开溜
790224
8
懂王群挑各国,霸权操作太嚣张
606119
9
竞男拉黑老板,整顿职场不惯着
487168
10
卖惨翻车,千万博主哭穷遭群嘲
394464
贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示