2023年12月30日,中国工程院院士、机器人视觉感知与控制技术国家工程研究中心主任王耀南在中国图像图形学学会青年科学家会议上指出,大语言模型的蓬勃发展正为人工智能注入新动能,并深刻影响着图形图像学的研究与应用,推动着机器视觉从“视觉计算”迈向“视觉智能”,并朝着“大视觉模型”的方向演进。
王耀南院士在接受采访时强调,人工智能的进步使得机器视觉的智能化水平显著提升,而更高的算力是训练这些“大视觉模型”的基石。然而,要实现更聪明、更强大的大视觉模型,除了算力,更好的模型架构和更有效的学习算法同样至关重要。
本次会议由中国图象图形学学会主办,琶洲实验室、华南理工大学、中山大学、中国图象图形学学会青年工作委员会承办。
行业趋势:从视觉计算到视觉智能的飞跃
王耀南院士回顾了我国机器视觉研究近40年的历程,从最初基于传感器的“将光信息转化为图片信息”的成像阶段,发展到对图像进行增强、使其更清晰的处理阶段。如今,机器视觉的核心任务已升级到理解阶段,例如在无人驾驶领域,机器视觉需要准确识别图片中的目标,区分人与车辆。
他将机器视觉的三大领域归纳为“成像、处理和理解”。他指出,机器视觉已从过去的**“视觉计算”(侧重于图像的量化和处理)发展到今天的“视觉智能”。“视觉智能”将人工智能技术融入其中,极大地提升了机器的认知水平和对复杂环境的理解能力。 去年以来,整个视觉智能化行业取得了飞速发展。
王耀南院士强调,机器视觉智能化发展的关键在于其广泛的应用。从工业检测、智能制造到卫星遥感等领域,技术的进步离不开应用场景的驱动。中国图象图形学学会拥有30个专注于图形图像研究的专委会,其研究成果广泛服务于国民经济的各个领域,包括工业、农业、地理信息系统、遥感、国土资源等。
他将人的视觉能力视为标杆,指出机器视觉的目标是模拟人眼,并最终在某些方面超越人眼,实现“看得更远、看得更清”。
大视觉模型:通往更聪明机器的未来之路
关于大视觉模型,王耀南院士将其与大语言模型进行类比,但指出了其数据的核心区别。
• 大语言模型: 以书本、语言、文字知识为数据,通过神经网络进行训练,能够基于所学知识进行推理和回答,本质上是数据驱动的人工智能。
• 大视觉模型: 则以各种图像,包括人类和自然界产生的视觉数据作为训练样本。例如,医学大视觉模型可以利用器官、病变图像进行训练,未来有望实现如同医生一样看懂CT照片,并在患者就诊后,通过影像快速推理出病情。
尽管如此,王耀南院士也坦诚地指出,当前视觉大模型与人脑的差距仍然巨大。但随着学习数据的增多、模型参数的优化,模型的规模会不断增大,知识储备也会日益丰富,其智能水平自然会越来越高,越来越“聪明”。
要实现这一目标,需要克服算力瓶颈,加快计算速度,以支持更大模型的快速构建;设计更优越的模型架构,尤其要注重可解释性、安全性和可控性;同时,还需要研究更有效的学习算法。
王耀南院士最后强调,视觉大模型的概念并非近期才出现。早在上世纪80年代人工智能发展初期,神经网络研究兴起时,就已经有了相关的探索。只是在最近几年,随着算力和算法能力的飞跃式提升,人们才得以构建更大规模的模型,并孕育出了大语言模型和大视觉模型。过去,受限于算力不足,所构建的模型规模相对较小。