移动网络多媒体

小组介绍

该小组主要面向智能e-Learning技术研究领域,旨在提供大规模、高质量、智能化的e-Learning/m-Learning服务。小组注重研用结合,负责研发的SkyClass移动学习系统已得到实际大规模推广应用,与咪咕视讯科技有限公司联合建立西安交大咪咕5G未来媒体与人工智能联合创新实验室,发挥校企优势联合培养核心技术创新人才,搭建探索未来媒体与人工智能创新发展的重要基地。小组曾先后承担与参与多项国家重大课题,包括国家科技支撑计划、国家863重大攻关项目、 核高基国家科技重大专项课题、国家发改委CNGI专项、国家重点研发计划以及多项国家自然科学基金项目。

在科学研究方面,以AI+Networking为研究方向,涉及多媒体网络与通信、云计算/移动计算/边缘计算、视频分析与处理、移动AIAR/VR/MR等相关研究领域。当前研究方向:有:一、通过机器学习优化移动视频传输质量,包括应用强化学习、深度学习等技术实现视频码率自适应( DASH/HTTP3/QUIC)、视频超分辨率、VR360视频视角预测与高清传输、云网融合的大规模直播等;二、云边端结合,支持最新的边缘智能与移动人工智能应用(分布式AR/MR交互、CV等)。如基于可穿戴设备(Hololens 2等)的用户姿态表情识别、动作捕捉、目标检测、3D重建、虚实交互等。在工程系统开发方面,涉及云计算管理平台、移动应用开发、Web视音频传输(WebRTC)等最新技术应用。

小组每年招收约6~8名硕士研究生,1~2名博士研究生,欢迎认真负责、对科研充满热情,编程好、英语好、数学好的“三好”学生报考博士生,硕士生,或以信息新蕾或实习生等方式加入团队,相互促进、共同成长,小组研究生连续获得校级优秀博士、硕士毕业论文,本科ITP信息新蕾多人以第一作者发表高水平学术论文,小组与PSU, VT多位计算机领域国际知名学者保持紧密合作关系,在派遣学生国际交流,合作开展研究等方面急需新同学加入;小组会不定期组织聚餐活动以及出游活动,丰富科研生活;毕业同学就业情况良好,包括就职于发改委、字节跳动、BATEMCIBM、微软、华为、银行金融企业及大型研究所,近年已有4位同学成功创业,其中1位同学入选2016年大学生创业英雄10强。


小组老师

张未展教授,博士生导师,陕西省中青年科技创新领军人才,CCF高级会员,IEEE会员,ACM会员。现任西安交大-咪咕5G未来媒体与人工智能联合创新实验室主任,陕西省大数据知识工程重点实验室副主任、跨媒体知识融合与工程应用研究所副所长。2010年博士毕业于西安交通大学计算机学院系统结构专业,2015-2016年美国宾夕法尼亚州立大学(PSU)访问学者。教育部创新团队"西安交通大学智能e-Learning系统理论与技术创新团队"、陕西省重点科技创新团队-“西安交通大学智能e-Learning技术创新团队核心成员。近年来,主持国家自然科学基金等10余项项目与课题。参与核高基重大专项、国家科技支撑计划、国家重点研发计划、发改委CNGI专项等19项项目与课题。发表论文60余篇,包括IEEE TPDSIEEE TMCIEEE TMMIEEE TVCGACM MM等国际权威期刊与高水平会议,授权发明专利37项。获国家科技进步二等奖、教育部科技进步一等奖、中国电子学会科学技术一等奖、陕西省科学技术一等奖、中国自动化学会科技进步特等奖等荣誉。

王志文,副教授,硕士生导师,CCF高级会员。研究方向:计算机网络安全与管理、可信计算等。先后主持国家自然科学基金、863子项目等科研课题6项,主持西安市科技计划2项。在国内外重要期刊和国际会议上发表学术论文30余篇。2015年获得陕西省科学技术二等奖,2016年获得教育部科技进步二等奖。主讲本科生课程《计算机网络原理》与《Java程序设计》,主编和参编教材5本。多次指导学生获得中国软件设计大赛陕西赛区一等奖。

龚铁梁,博士,副教授,博士生导师。渥太华大学博士后,密歇根大学访问学者。研究方向包括统计学习理论、信息论,机器学习等,并致力于设计具有理论保证的算法应用于临床医学问题。曾获获中国发明协会年度发明创新奖二等奖,华为2022“揭榜挂帅”项目火花奖,西安交通大学医工交叉青年创新奖等。研究成果主要发表于ICML, NeurIPS, ACL, AAAI, IJCAI, IEEE TIT, TSP,TNNLS,TMINature Scientific Data等国际顶级会议及期刊上。目前担任国际期刊IEEE TIT,TSP,TNNLS,TCYB, JBHI以及人工智能顶会ICML,NeurIPS,ICLR,AAAI的审稿人,AAAI, IJCAI高级程序委员,作为负责人主持国家自然科学基金青年基金、科技部2030新一代人工智能重大项目子课题,并作为骨干参与国家自然科学基金重点及面上项目多项。

杜海鹏,高级工程师。20099月起任职西安交通大学继续教育学院,负责远程学历教育、非学历培训信息化平台建设和应用。研究方向::网络多媒体、边缘智能与情境感知、分布式AR/MR。在相关国际期刊、会议上发表论文20余篇,申请、授权发明专利10余项;获得2022年度国家级教学成果二等奖(第十完成人),2018年度陕西省技术发明一等奖(第九完成人)。

闫彩霞,助理教授,硕士生导师美国卡耐基梅隆大学(CMU)访问学者入选西安交通大学青年优秀人才支持计划。研究方向:包括机器视觉理解与分析、高性能智能计算等相关研究领域。近五年发表高水平学术论文十余篇,包括IEEE TPAMIIEEE TIPICLRAAAIACM MM等国际顶级期刊和会议,授权国家发明专利和国防专利多项,研究成果获得徐宗本应用数学论文奖一等奖。主持国家自然科学基金青年基金项目、科技创新2030-“新一代人工智能”重大项目子课题、博士后科学基金面上项目,作为骨干成员参与团队多项国家自然科学基金项目和军口项目。


小组成员

师:张未展、王志文、杜海鹏、闫彩霞、龚铁梁

士:王轩宇、王迎春、刘迅承、袁丹夫、张源鸿、袁慕遥、张凯喆

三:张志浩、张舒瑞、靳逸、陈帅、林彦成

二:王烨、李剑峰、陈梓琦、曹坚翔、焦慕妍、王家浩、梁警

 一:高渊恒、刘川、薛诺寒、孙路、施劲松、石旭贸、徐亮、赵曈、张浩洋、黄颖、张泽扬、黄慧婷


研究成果

研究成果1Tile Classification Based Viewport Prediction with Multi-modal Fusion Transformer

视口预测是基于分片的360度视频流媒体系统的一个关键方面。然而,现有的基于轨迹的方法缺乏稳健性,也过于简化了不同模态输入之间信息构建和融合的过程,导致错误累积问题。成果提出了一种基于分片分类的视口预测方法,采用多模态融合变换器(MFTR)。具体来说,MFTR利用基于变换器的网络来提取每种模态内的长期依赖关系,然后挖掘模态内和模态间关系,以捕获用户历史输入和视频内容对未来视口选择的综合影响。此外,MFTR将未来的分片分为两类:用户感兴趣的和不感兴趣的,并选择包含最多用户感兴趣瓦片的区域作为未来视口。与预测头部轨迹相比,基于分片的二进制分类结果选择未来视口展示了更好的稳健性和可解释性。

在两个广泛使用的PVS-HMXu-Gaze数据集上进行了广泛的实验。MFTR在平均预测准确率和重叠比率方面表现出超越现有最先进方法的优越性能,并且还展示了竞争性的计算效率。相关研究成果发表在国际顶级会议ACM MM上。

研究成果2Towards Performance-Maximizing Neural Network Pruning via Global Channel Attention

成果针对如何将大型神经网络(例如卷积神经网络CNN)转移到资源受限的设备上。传统的剪枝方法主要分为静态剪枝和动态剪枝。静态剪枝通过删除所有样本相同的通道来维持一个较大的、适合所有样本的压缩网络,但这种方法不能最大化地挖掘给定网络中的冗余。相反,动态剪枝能够适应性地为不同的样本移除不同的通道,从而获得更高的压缩比和最先进的性能。然而,由于动态剪枝方法需要保留完整的网络信息以进行特定样本的剪枝,因此这些方法通常不够节省内存。成果提出了一种名为GlobalPru的静态剪枝方法。该方法基于一种新颖的基于通道注意力的学习排序框架,旨在学习通道在网络冗余方面的全局排名。在这种方法中,每个样本的(局部)通道注意力被迫在不同数据之间达成关于全局排名的一致。因此,所有样本在实践中都可以共享相同的通道排名,并以静态方式进行剪枝。

ImageNetSVHNCIFAR-10/100的广泛实验表明提出的GlobalPru在性能上显著超越了当前最先进的静态和动态剪枝方法。

研究成果3Towards Fairer and More Efficient Federated Learning via Multidimensional Personalized Edge Models

为了解决边端的日益增长的异质性,FL在公平性和计算效率方面面临的固有挑战,成果提出了一个定制化的联合学习(CFL)系统,用来消除联合学习中的多维异质性。具体来说,CFL从特别设计的全局模型中为每个客户端量身定制个性化模型,这一过程受到在线训练的模型搜索助手和一种新颖的聚合算法的共同指导。

广泛的实验表明,CFL在联合学习训练和边缘推理方面都具有全方位的优势,并且在模型准确性(在非异质性环境中最高提升7.2%,在异质性环境中最高提升21.8%)、效率和FL公平性方面显著提高了SOTA性能。

研究成果4:基于多种人工智能方法的自适应VR360视频点播方法及系统

成果提出一种基于多种人工智能方法的自适应VR360视频点播方法及系统,利用生成对抗网络对原始视频进行显著性检测,根据检测结果将原始视频动态划分为多个空间分块并储存在服务器中;请求视频并观看视频时,使用长短记忆网络建立网络轨迹特征的提取模型,预测未来时刻带宽信息;将预测的带宽信息和过去视口轨迹信息作为码率决策的状态输入,利用PPO算法训练A3C网络决策对应的最优码率;根据码率决策结果将相应的视频块进行下载并播放;可以保证生成对抗网络可以最大限度划分视频区域;能够充分提取网络状态进行带宽预测,为码率自适应决策提供有效输入;基于视口预测的方法能够最大限度利用网络进行有效传输,减少带宽浪费,有效提升用户观看质量。


 



办公地点:西安交通大学兴庆校区西一楼449

电话:029-82663860

电子邮箱:zhuhaiping@mail.xjtu.edu.cn

.

微信二维码