祝贺课题组博士生景彦昊论文被多媒体领域旗舰期刊ACM TOMM接收-深度信号处理与人工智能信息安全

新闻动态

新闻动态首页 >> 正文

祝贺课题组博士生景彦昊论文被多媒体领域旗舰期刊ACM TOMM接收

2026年05月10日 03:11 浏览数： 返回列表

祝贺课题组博士生景彦昊论文被多媒体领域旗舰期刊ACM TOMM接收

近日，课题组最新研究成果“HTMA-CL: A Hierarchical Tokenization and Multiscale Attention Framework for Compressive Domain Multimedia Inference”被多媒体领域旗舰期刊ACM Transactions on Multimedia Computing, Communications, and Applications（TOMM）正式录用接收。

压缩感知（Compressed Sensing，CS）提供了一种高效获取压缩信号的机制，并能从较少的压缩样本中高质量重建原始信号。CS理论突破了奈奎斯特采样定理对原始信号采样率的限制，通过高效的压缩大大降低存储空间需求和传输带宽开销，极大的促进了其在成像中的应用。尽管实现高质量的信号重建是压缩感知最关心的问题，但许多应用的重点是直接从测量值中进行高级语义理解，而不是精确的重建。例如，在医学图像分割和军事图像检测中，由于私人或机密信息泄露的重大风险，不建议进行信号重建。在模型训练和推理过程中，直接使用测量值进行推理也可以起到数据加密的作用，因为除非确切知道测量值，否则很难恢复原始信号。因此，直接从测量值实现推理任务具有重要意义。压缩学习（Compressed Learning，CL）集成了压缩感知（CS）和机器学习（Machine Learning，ML），能够从很少的CS测量值直接推理。然而，现有的压缩学习方法要么严重依赖于基于超大规模数据集的预训练模型，要么只能在小规模数据集上执行相对简单的推理任务，这限制了它们在现实多媒体场景中的可扩展性。为了解决这些局限性，我们提出了一种名为HTMA-CL的高效压缩学习框架，用于实际的多媒体采集和边缘智能处理。HTMA-CL采用基于卷积神经网络的可学习采样来实现高分辨率图像的块压缩，显著降低了传输带宽和存储开销。分层标记化模块（HTM）与深窄Transformer模块（DNTM）联合渐进对测量值中的局部和全局依赖关系进行建模，从而直接在压缩域中进行准确推理。最后，构建了多种任务头，用于执行如图像分类、语义分割等多媒体分析任务。实验表明，与其他压缩学习方法相比，本文提出的HTMA-CL获得了最佳性能，并且在压缩率为10%时，其性能与图像域方法几乎相当。进一步地，本文验证了所设计方法在物联网多媒体环境中对外部干扰的强鲁棒性。

本文提出的HTMA-CL总体框架图

Table 3: Performance comparison in image classification on ImageNet-1K. Top-1 Acc represents the Top-1 (%) accuracy.

Method		Data Size	Params/FLOPs	Top-1 Acc (%)
Image domain	ResNet-101 [40]	3×50176	45M/7.8G	77.41
	ResNet-152 [40]	3×50176	60M/11.6G	78.33
	RepViT-M2.3 [44]	3×50176	22.9M/9.1G	82.50
	ViT-B-16 [19]	3×147456	86M/49.3G	81.10
	ViT-B-32 [19]	3×147456	88M/12.3G	78.76
	PVT-Large [41]	3×50176	62M/9.9G	81.71
	DeiT-B [30]	3×147456	86M/49.4G	83.12
	EAPT-S [42]	3×50176	39M/6.5G	82.90
	SwiftFormer-L3 [43]	3×50176	28.5M/8.1G	83.00
	KAT-S [46]	3×50176	22.1M/4.4G	81.20
	Vim-S [45]	3×50176	26M/-	80.30
	Mamba^®-S [47]	3×50176	28M/-	81.40
	VRWKV-S [48]	3×50176	23.8M/4.6G	80.10
Token-based	SeiT [26]	32×784	86M/16.8G	74.00
Token-based	SeiT++ [27]	32×784	103M/11.0G	77.80
Compressive domain	VCL-T-10 [25]	3×14745	589M/50.8G	67.59
	VCL-T-1 [25]	3×1474	136M/49.6G	59.89
	MCL-T-10 [25]	3×14770	87M/49.4G	74.07
	MCL-T-1 [25]	3×1477	86M/49.3G	68.92
	TransCL-16-10 [25]	3×14745	86M/49.3G	78.93
	TransCL-16-5 [25]	3×7372	86M/49.3G	77.52
	TransCL-16-2.5 [25]	3×3686	86M/49.3G	75.21
	TransCL-16-1 [25]	3×1474	86M/49.3G	73.65
	HTMA-CL-14-10	3×14745	21M/27.3G	81.48
	HTMA-CL-14-5	3×7372	21M/27.3G	80.89
	HTMA-CL-14-2.5	3×3686	21M/27.3G	79.79
	HTMA-CL-14-1	3×1474	21M/27.3G	76.32

Table 5: Performance comparison in semantic segmentation on Pascal Context, Cityscapes and ADE20K

Dataset	Method		Data Size	Params/FLOPs	mIoU (%)
Pascal Context	Image domain	PSP [34]	3×223729	73M/246G	47.80
		APC [50]	3×262144	76M/282G	54.70
		GFF [52]	3×262144	141M/811G	54.20
		SETR [29]	3×230400	309M/281G	47.70
		SwiftFormer-L3 [43]	3×230400	28.5M/37G	51.30
		RepViT-M2.3 [44]	3×230400	23M/42G	49.43
	Token-based	SeiT [26]	32×784	86M/16.8G	45.61
	Token-based	SeiT++ [27]	32×784	103M/11.0G	48.43
	Compressive domain	TransCL-16-10 [25]	3×22950	309M/281G	39.29
		TransCL-16-5 [25]	3×11475	309M/281G	35.83
		TransCL-16-2.5 [25]	3×5625	309M/281G	27.08
		TransCL-16-1 [25]	3×2250	309M/281G	12.60
		HTMA-CL-24-10	3×22950	64M/121G	49.81
		HTMA-CL-24-5	3×11475	64M/121G	49.34
		HTMA-CL-24-2.5	3×5625	64M/121G	48.26
		HTMA-CL-24-1	3×2250	64M/121G	45.03
Cityscapes	Image domain	PSP [34]	3×508369	73M/554G	78.50
		CCNet [51]	3×591361	71M/698G	80.20
		GFF [52]	3×746496	141M/2305G	80.40
		SETR [29]	3×589824	309M/818G	75.82
		SwiftFormer-L3 [43]	3×589824	28.5M/95G	75.79
		RepViT-M2.3 [44]	3×589824	23M/107G	75.38
		CSFNet-1 [54]	3×524288	11M/47G	74.73
	Token-based	SeiT [26]	32×784	86M/16.8G	72.33
	Token-based	SeiT++ [27]	32×784	103M/11.0G	75.19
	Compressive domain	TransCL-16-10	3×58752	309M/818G	75.93
		TransCL-16-5	3×29376	309M/818G	75.28
		TransCL-16-2.5	3×14400	309M/818G	72.88
		TransCL-16-1	3×5760	309M/818G	66.75
		HTMA-CL-24-10	3×58752	64M/330G	76.62
		HTMA-CL-24-5	3×29376	64M/329G	75.81
		HTMA-CL-24-2.5	3×14400	64M/329G	74.97
		HTMA-CL-24-1	3×5760	64M/329G	71.46
ADE20K	Image domain	PSP [34]	3×223729	73M/246G	44.94
		GFF [52]	3×262144	141M/811G	45.33
		APC [50]	3×331776	76M/357G	45.38
		SETR [29]	3×262144	309M/316G	41.91
		EAPT-S [42]	3×262144	76M/1123G	47.70
		SwiftFormer-L3 [43]	3×230400	29M/42G	43.90
		RepViT-M1.5 [44]	3×230400	14M/24G	43.60
		PoolFormer-M48 [53]	3×262144	77M/121G	42.70
	Token-based	SeiT [26]	32×784	86M/16.8G	39.00
	Token-based	SeiT++ [27]	32×784	103M/11.0G	43.20
	Compressive domain	TransCL-16-10	3×26112	309M/316G	41.90
		TransCL-16-5	3×13056	309M/316G	40.30
		TransCL-16-2.5	3×6400	309M/316G	38.48
		TransCL-16-1	3×2560	309M/316G	34.77
		HTMA-CL-24-10	3×26112	64M/138G	43.66
		HTMA-CL-24-5	3×13056	64M/138G	43.60
		HTMA-CL-24-2.5	3×6400	64M/138G	42.01
		HTMA-CL-24-1	3×2560	64M/138G	37.98

不同数据集上语义分割的视觉比较

(a) (b)

本文提出的HTMA-CL和其他模型的鲁棒性比较。（a）在原始图像中添加噪声；（b）向测量值中添加噪声；（c）不同丢包率；（d）数据传输顺序错误。

论文第一作者为博士生景彦昊，通讯作者为武相军教授。

ACM Transactions on Multimedia Computing, Communications, and Applications （ACM TOMM）是ACM多媒体特别兴趣小组（SIGMM）的旗舰出版物，多媒体领域国际一流刊物，被中国计算机学会（CCF）认定为B类国际学术期刊。该刊创刊于2005年，出版周期为Quarterly，最新影响因子6.0，在 JCR 分区中位列 Q1 区。该期刊专注于多媒体计算（I/O设备、操作系统、存储系统、流媒体中间件、连续媒体表示、媒体编码、媒体处理等）、多媒体通信（实时-时间协议、端到端流媒体、资源分配、组播协议等）和多媒体应用（数据库、分布式协作、视频会议、3D虚拟环境等）方面的研究。

上一篇：没有了
下一篇：第七版《中国计算机学会推荐国际学术会议和期刊目录》正式发布