在AI for Science这个领域,DeepMind要说第二,恐怕没人敢叫板第一。前脚解决了困扰学界50年的蛋白质结构问题,连登数次Nature;后脚又用深度强化学习完美控制了核聚变反应堆,再上Nature。最近,来自国内的团队也在这一前沿方向上做出突破性贡献!3月16日,一篇关于行为理解机理工作登上Nature,成功发现并解析了小鼠群体大脑中形成「社会等级身份」行为机制的神经回路。论文用机器学习行为理解手段揭示了哺乳动物的大脑如何编码社会等级,并利用该信息来塑造自己的行为。作者正是来自上海交通大学电院卢策吾教授的团队。该论文的另一位共同通讯作者是Salk研究院Kay M. Tye教授。论文链接:https://www.nature.com/articles/s41586-022-04507-5团队基于计算机视觉分析大规模小鼠的社交和竞争与脑神经信号关联,发现小鼠群体产生的「社会等级(Social rank)」行为竟然是由大脑中的神经回路所控制的。也就是说,哺乳动物天生就会去判断其他个体与自己在社会群体地位的高低,并依此做出行为决策。比如低等级小鼠会让高等级小鼠优先进食,低等级小鼠会表现出服从行为等等。文章一经发表,吃瓜群众都懵了。万万没想到自己一直以来都深信不疑的认知就这么给「颠覆」了。
好的,既然机器已经可以看懂了这些行为,是不是就说明我的AI就可以派上用场了呢?别急,还是不行!时间退回到59年前,两位科学家在1963年做了一个非常著名的实验。研究人员首先将一对从来没有见过光的小猫连在一个旋转木马上。其中一只虽然被套住但可以站在地上自己走动,而另一只则被固定在吊车上。当那只能够走动的猫开始移动的时候,另一只也会跟着转。让这两只猫经过一波「学习」之后,研究人员发,虽然在这两只猫的眼中周围环境的变化都是一样的,但最后只有那只能走路的小猫发展出了正常的视觉感知。原因在于,那只装在吊车里的猫来只学到了,当有东西接近时,它会看起来「更大」,但并不知道这其实意味的是物理离自己「更近」。甚至在之后的测试中,当物体都快贴脸的时候,这只猫连眼睛都不会眨一下。也就是说,视野中的图案变化对它来说,在空间上是没有任何意义的。那么,为了让AI能够获得具有深度的正常视觉感知,给它「一具身体」从而在物理层面上实现和真实世界的交互是很必要的。将这个结论推广一下,就不难得出,只有当智能体(机器人)能学习人类行为并据此完成了通用的任务时,才能够证明机器理解了行为本质。图13. 「Movement-produced stimulation in the development of visually guided behavior」因此,探索结合第一人称角度理解人类行为本质,也需要从单纯考虑「她/他在做什么」拓展到联合考虑「我在做什么」,这种研究范式也正是 「具身智能」(Embodied AI)的研究思路。探索将该理解能力与学习得到的行为知识迁移到具身智能本体(人形机器人),使机器人初步具有「人类行为能力」,最后驱动机器人完成真实世界的部分任务,为通用服务机器人打下基础。以上科学问题的解决将:
近年来卢策吾团队在具身智能领域联合非夕科技构建通用物体抓取框架GraspNet(https://graspnet.net/anygrasp.html),实现了任意场景下刚体、可变形物体、透明物体等各种类型的未见物体的抓取。GraspNet首次将PPH(picks per hour)指标超越人类水平,为之前性能最优的DexNet算法的三倍,相关论文发表一年内被引用70次。图14. GraspNet