“智能视觉计算技术与应用_第二期中国人工智能学会创新技术讲习班成功举办

人工智能与计算机视觉技术密切相关,视觉信息处理已成为当前人工智能最重要的技术引擎之一,智能视觉计算技术已广泛应用于各行各业。加快实施创新驱动发展战略,推动智能视觉计算技术在人工智能领域的研究创新和应用突破。2022年12月17日至12月18日,由中国人工智能学会主办,中国人工智能学会会员馆(杭州站)主办,由浙江省杭州市未来科技城市管理委员会联合主办的中国人工智能学会创新技术研讨会第二期“智能视觉计算技术与应用”在线成功举办。

在本次研讨会上,来自北京大学、清华大学、大连理工大学、哈工业大学等8所顶尖大学的10名智能视觉计算技术和应用领域的国内外领导人在线进行了8次讲座交流,与50W以上的在线听众进行了学术对话。聚焦“智能视觉计算技术与应用”领域,旨在为中国人工智能领域的学者和科技人才提供一个重要的交流平台,加快人工智能科技创新和产业应用的高水平、高质量发展。中国人工智能学会会长徐峰致开幕词,彭玉欣教授致开幕词。计算机视觉作为人工智能的一个重要分支,是工程和科学领域极具挑战性的研究方向。随着深度学习的快速发展,该技术已成长为技术发展和数字化转型不可或缺的力量。未来,随着算法的改变、硬件计算能力的升级、数据的爆炸、5G技术的发展带来的高速网络化,计算机视觉技术的应用将有更广阔的发展空间。

老师主持会议)

(彭玉新教授致开幕词)成明教授作了题为“开放环境下的适应性图像理解”的演讲。面对计算机图像视觉感知和理解技术在实际应用中的问题,并从适应的角度解释了如何适应开放环境。通过粒度自适应表示、计算能力自适应的高效视觉感知和一般属性知识的视觉感知三方面技术,减轻现实开放环境中面临的三大挑战。虽然没有教师的情况下不能事先预测类数,但是从评价的观点来看,类数作为1个不变参数,比实际的类数稍大一些。

(郑明明教授讲座)王立军副教授作了“单眼图像深度估计”的演讲。介绍了目前国内外的研究现状、最新研究进展以及单眼图像深度估计在计算机视觉其他任务中的四种应用。研究人员指出,在单一数据集上,模型在训练后泛化能力较弱,并且在不同场景中,主要是室内和室外,深度尺度不兼容。为了解决这个问题,团队进行了“相对深度预测”的探索,实现了多场景数据集的混合训练,虽然提高了泛化能力,但缺点是不是绝对深度。基于网络结构设计的优化是训练数据外的一个探索方向。单眼图像深度估计的误差值因场景而异,误差与评价指标有相关性(注意绝对误差或相对误差),误差计算一般考虑区域的距离和容限,根据任务设计不同的评价标准。为了更好地模拟同一类对象的深度相似性,使用相同的参数集,但相同的对象出现在不同的位置,深度不同。在预测过程中,模型总结了类似的“近、大、远、小”信息,根据语义信息确定类别,根据可能的变化和幅度确定深度,并结合上下文和相对尺度进行预测。端到端映射可以实现从输入图像到真值的预测,但存在误差,需要确定任务对误差的容忍度。单个图像深度无法处理需要精确度的任务,并且需要将多个数据源组合在一起。

(王立军副教授讲座)Yanomine Tanya教授作了“多模遥感图像固有分解”专题讲座,并介绍了近年来遥感图像固有分解的研究进展,将高光谱遥感探测与高光谱固有分解相结合。详细介绍了高光谱遥感的成像原理、多模式检测及其关键问题。系统地阐述了高光谱特征分解中的多模态特征信息提取、理论模型、预信息建模、实验验证、方法流程等。Tani指出,通过卫星的粒子测绘,可以用多角度摄像机计算出地面上相应的高程数据,并根据高程数据进行空间三维建模,描述地面物体的空间三维结构。均匀的照明及其法线方向不需要额外的相机参数,LiDAR可以直接利用点云数据。

(古燕峰教授讲座)郑伟熙教授作了题为“行为协调与互动建模”的演讲。在行为分析的背景下,对现有的行为协调和交互建模方法进行了综述,并对研究进展和未来发展方向进行了探讨。协调技术实际应用的主要障碍是在未知环境下对未知物体进行建模的困难。例如,机器人抓取未识别物体的成功率较低,需要泛化,未来的商业应用将侧重于人机行为协调研究。多尺度几何特征的构建主要是通过多尺度建模、自由度扩展、点云分析和感知范围扩展来实现的。行为分析训练工具是团队需要解决的问题,而基于算法的标准化构建则是团队值得探索的研究方向。

(郑伟希教授讲座)杨小春教授指出,“计算机视觉”是一个比较“病态”的问题,“计算机视觉”是一个“病态”的问题。他详细介绍了他目前的工作,“规则化数值分析”和“引入新假设”来解决“病态”问题的两种方法。研究指出,主流视频分析软件有生成、识别、分类等类型,差异较大,在区域内更新迭代速度快。从学术角度来看,视觉算法攻击强调攻击对手的识别模型。

方玉明教授以“图像质量评价:理论、方法、应用”为主题,介绍了图像质量评价的概念、分类和评价研究的主流方法,阐述了实际摄像机失真的图像质量评价、多曝光图像融合等,并分享了图像质量评价在感知优化中的应用和进展。HDR图像的评估方法主要取决于工作过程。

(方玉明教授讲座)黄慧教授作了题为“智能机器人的智能图形技术”的专题讲座。本文从概念上阐述了当前主流智能机器人及其智能化深度发展中的卡颈问题。在目前的非实验环境下,机器人面临的挑战与技术应用之间还存在很大的空间限制,需要在工业制造、智能仓库等预定环境和场景下运行,但预期的设计控制算法在面对人类的实际物理环境和复杂的动态情况时可能会失败。机器人缺乏识别真实三维动态环境的能力,阻碍了其智能化发展。未来,它有望实现城市信息的准确映射和良好的新陈代谢,形成完善的城市孪生数字生态系统。对于智能图形技术与无人机摄像机渲染的区别,黄教授指出,图像采集的最终目的是三维重构,其机制是基于多视图系统的现实重构,与无人机摄像机渲染有本质的不同。目前,智能图形技术已应用于激光雷达和视觉技术相结合的自动驾驶环境建模,通过进一步的研究,我们正在重建真正的3D地图,这是仅靠激光雷达难以实现的。

马思伟教授以“Video Coding:From Signal Modeling to Feature Learning”为主题,详细介绍了视频编码的历史和主要技术进步。从技术背景和存在的问题,阐述了深度学习和智能视频编码的研究进展和存在的问题。深度学习推动了视频编码技术框架的演进,基于神经网络的智能编码是打破传统视频编码效率瓶颈的重要方向。智能编码在算法模型、计算平台和质量评估方面面临着挑战,但它也推动了深度编码的发展。马教授表示,全景视频只是使用传统的视频编码技术来进行视频拼接,但这个概念已经得到了更广泛的扩展,重点是使用阵列、多摄像机和多视图编码方法。另一方面,“MIV”格式主要通过投影映射进行拼接处理,并保留用于传输多路复用器的视频内容。在未来,我们对收集和传输数据量大、表现丰富的点云三维模型持乐观态度。

研讨会结束时,陆湖川教授总结说,专家学者的专题讲座精彩,亮点频繁出现,交流碰撞,提出了人工智能领域探索的新视角、新见解、新方法,为人工智能的创造性发展提供了许多新途径。

(由陆湖川教授总结)