在权威期刊发表论文90余篇,自2020年起连续4年入选爱思唯尔“中国高被引学者”,他是北航人工智能研究院张宝昌教授,坚持原创和长期主义研究,让机器视觉感知穿透迷雾,穷尽千里,像人类视觉般灵敏高效。让我们一起走近张宝昌教授,领略“机器视觉感知”科技前沿。
敢于亮剑 探寻机器视觉感知的新高地
“眼睛是心灵之窗,是沟通人与世界的桥梁。”
人类的大脑皮层约有70%都在处理视觉信息。草木虫鱼、天地万物,我们通过视觉感知世界的形形色色。如何通过电子化的方式来感知和理解影像,让机器可以像人类那样观察视觉,甚至达到超越人类视觉智能的效果,正是人工智能浪潮愈演愈烈情境下机器视觉领域的孜孜以求。
为什么人类视觉感知如此高效精准,该如何进行数学建模?这是计算机视觉领域的基本问题,也是张宝昌一直以来的探索方向。上世纪中叶,诺奖得主Dennis Gabor提出短时傅里叶变换,基于高斯窗构建了Gabor小波使得其实现时频同时达到不确定性最小化。这种基于高斯窗去感知世界的方式是最省能量的,是对视觉感知进行数学建模的最为成功的工作之一,成为了机器视觉领域的里程碑算法。
站在巨人的肩膀上固然可以看得更远,但给已巍然伫立的AI大厦添砖加瓦也绝非易事。在对事物的感知中,不同位置应该具有不同尺度的高斯核,尽管直觉上混合高斯模型更能建模人类视觉感知,但还需要理论去证明不确定有界,即该模型是省能量且符合生物进化规律的。2016年,张宝昌证明了“基于混合高斯波函数目标感知系统的不确定性有界”,创新地提出了尺度区间的证明方法,证明区间越小则不确定就越小,对诺奖理论做了一般性扩展。相关文章单篇引用次数超千次,算法还收录于MATLAB场景识别工具包。
“非常之功,以待非常之人。”
传统David Marr视觉感知框架是一种自底向上的框架,感知和认知结合已经成为当前视觉感知领域的共识之一。张宝昌团队敢于颠覆传统,提出自顶向底的基于人类认知的视觉感知模型。
传统视觉模型普遍以预测视频帧、视频块、图像块、像素等低层次对象为目标,缺乏对客观世界背后逻辑的理解,这使得其推理能力受限。张宝昌创新性地提出了视觉知识词内嵌表征模型,允许模型基于领域知识,进行显式重构目标语义特征,实现训练和推理合理的高层次表征。针对不同的物体构建不同词组,可以有效地解决大模型遗忘难题。
脚踏实地 面向国家重大需求攻坚克难
“既要仰望星空,也当脚踏实地。”
深知个人前途与国家命运息息相关的道理,一直以来,张宝昌坚持面向国家重大需求,将论文书写在祖国大地上。2023年中国科协发布的重大科学问题中,“如何实现低能耗人工智能”被排在首位,而低功耗前端视觉感知研究恰恰是张宝昌的不懈追求。他的团队着眼于设计能够高效利用有限资源的智能感知系统,以期研发出更低功耗的前端智能感知技术,解决机器视觉感知的“卡脖子”问题,而破题的关键正在于单比特神经网络。
张宝昌说,“最大的困难是将神经网络进行极限压缩,即将神经网络权重和激活值限制为二进制值,以最大幅度降低计算复杂度和功耗”。然而传统的神经网络通常是使用浮点数进行计算,而二值化/单比特化会丢失一定的精度,这一想法并不被大众所认可。
“世之奇伟、瑰怪、非常之观,常在于险远,而人之所罕至焉,故非有志者不能至也。”
2018年,张宝昌提出可控视觉表征模型(2018年热点文章,Gabor CNN)和调制卷积神经网络,提升了深度学习模型的端侧可用性和鲁棒性。在不懈的努力下,团队后续改进了可学习Gabor调制核,提出了一系列单比特神经网络构建方法,证明了单比特神经网络的可行性,并成功地在华为Bolt系统嵌入了单比特神经网络功能。
作为一作,张宝昌出版了单比特网络领域首个专著,近三年课题组顶级论文发表约占该领域20%,相关研究还获批了国家自然科学基金、深圳市海思和华为公司长期项目支持(优秀项目结题)。成功是对追梦者和勇敢者的嘉奖,这一切也印证着北航在视觉感知研究领域做出的贡献。
诲人不倦 产学研一体化培育卓越人才
在科研之外,为国育人储才是张宝昌的另一大追求。《机器学习》课程上,“生活化的案例和通俗易懂的语言”是张宝昌给学生们最深刻的印象。“不论是在研究中还是在生活中,都要以严谨的态度探察事物之间的因果逻辑关系,避免被假象误导”,张宝昌将因果解耦的核心思想娓娓道来。
“纸上得来终觉浅,绝知此事要躬行。”
以实际问题为导向是张宝昌培养学生的一大特点。“科研来自于实际问题,也应回到实际问题,要注重解决实际问题综合能力的培养。”针对学生算法基础扎实,但工程能力薄弱的痛点,张宝昌采用硕士与博士合作开展科研项目的方式,在协作和实践中提升学生解决问题的能力。
除此之外,张宝昌还十分注重团队氛围的营造。在带领团队进行科研工作的过程中,张宝昌深知人才培养和团队凝聚力的重要性,努力营造一个开放、合作、创新的科研氛围,鼓励学生勇于探索和创新,让他们在科研工作中不断成长和进步。
(素材来源:人工智能研究院)
(审核:李建伟)
编辑:贾爱平