本文对华工网络本科文凭样本进行了一些研究。同时也会详细说明华工的毕业要求!
本文目录清单:
1、CVPR2021年华南理工等基于3的推出D点云数据的功能可供性数据集
一、CVPR2021年华南理工等基于3的推出D点云数据的功能可供性数据集
机器之心专栏
徐迅
在真实场景中促进视觉功能可供性的研究,在这篇CVPR在2021年的论文中,华南理工大学等机构的研究人员提出了基于3的建议D点云数据的功能可供性数据集
3DAffordanceNet。研究人员提供了评估视觉功能可供性理解的三个基准任务。研究人员提供了评估视觉功能可供性理解的三个基准任务。
简介
功能可供性(Affordance)
理解关心人与环境的互动。例如,一个人可以坐在椅子上,抓取一个杯子或者提起一个背包。在动态复杂的环境中,机器人能够从视觉信息中理解物体的功能可供性是非常重要的。物体功能可供性理解应用广泛,如行为预测和物体有效功能预测。在计算机视觉领域,基于视觉信息对物体功能可供性进行了研究,即视觉功能可供性(Visual
Affordance)理解。许多工作都是基于深度神经网络构建算法,因此需要大量的网络训练和性能测试标记数据。现有的物体功能可供性数据集大都从2D
(RGB)或者2.5D(RGB-D)数据采集在传感器中,其中2D数据缺乏几何信息,而2.5D
由于采集的深度信息方差过小,数据往往导致几何信息不足。然而,对物体功能可供性的理解需要足够的几何信息,例如,捕获的功能可供性与物体上的垂直结构高度相关。现有数据对几何信息的缺乏和缺乏使得相关工作仍然无法对物体功能的可供性进行充分和完善的研究。
目前,三维点云研究集中在ShapeNet、PartNet等数据集,其中PartNet该提议也受到功能可供性的启发。然而,PartNet
数据集以语义分割和实例分割作为支撑任务,其标注并未真正考虑人或机器人可以与物体开展的交互。此外,分割任务独立于每个点云类别,即假设物体类别已知,这种实验设置违反了与真实场景中的各种物体同时存在或物体类别模糊的情况。华南理工大学等机构的研究人员提出了基于视觉功能可供性的研究
3D点云数据功能可供性数据集3DAffordanceNet,基于现有大型3的数据集D点云分割数据集PartNet,通过一个3DGUI
标记工具,引导标记者在预定义的功能类别上标记数据,并利用标签传播算法将标记者的标记扩散到整个物体的点云上,以获得点云中每个点具体功能的概率值得分。如图
1所示,在数据标注的过程中,研究者发现人们所感知的物体功能可供性与PartNet数据集中提供的物体部件标签只有部分重叠,证明在PartNet
在数据集的基础上标记物体功能可供性的必要性。
图1:3DAffordanceNet数据集样例
研究人员提出的3DAffordanceNet在数据集的基础上,提出了3
视觉功能可供性理解任务,并采用半监督学习方法对视觉功能可供性进行了理解,并采用未标注的数据样本进行了探索,评估结果表明,研究人员提出的数据集和任务对视觉功能可供性的理解既有价值又具有挑战性。
3DAffordanceNet数据集
为了构建3DAffordanceNet数据集,研究人员首先通过参考相关文献定义功能类别,并从PartNet用于标记的3数据集中采集D
点云数据涵盖了室内场景中常用物体的类别,并开发了问答3DGUI标记工具收集数据,最后使用标签传播算法获得完整点云的功能可供性标记。
具体而言,研究人员参考相关文献,18个合适的选择PartNet数据集中3D物体的功能类别:捕获(Grasp)、提起(Lift)、包含
(Contain)、开启(Open)、躺(Lay)、坐(Sit)、支持(Support)、抱(Wrap-Grasp)、倾倒(Pour)、显示
(Display)、推(Push)、拉(Pull)、听(Listen)、穿(Wear)、按(Press)、切(Cut)、戳(Stab)、移动
(Move)。研究者根据PartNet数据集中物体的属性和与人或机器交互的功能将筛选出18
例如,椅子可以坐而不是躺
的。标记者可以标记每个物体类别支持的功能类别。需要注意的是,标记者可以自由决定预定义功能类别中物体支持的类别,因此一些物体不会标记为所有预定义物体类别的功能类别。标记者可以标记每个物体类别支持的功能类别。需要注意的是,标记者可以自由决定预定义功能类别中物体支持的类别,因此一些物体不会标记为所有预定义物体类别的功能类别。
研究人员开发了基于网页的问答3DGUI标注工具。给定一个3D标记者可以随意旋转、平移和缩放物体模型D
模型可以从任何角度充分观察物体。如图2所示,标记者将首先被问及物体支持的功能是什么(Whataffordancesdoesthis
support?),标记者在选择物体支持的功能后,会根据问题的指导,在物体上标记支持某一功能的关键点。标记者还将决定所选功能是否会扩散到当前关键点所属部件的附近物体部件。如果是,标记者还将选择扩散到附近物体部件。如果没有,标记者将继续在同一部件上标记关键点。指导标记者标记图中关键点的问题
3中给出。
图2:数据标注流程
图3:问题示例
获得每个3D在对象关于不同功能的关键点坐标后,研究人员使用最远点采样算法3D在物体模型上密集采样点,用标签传播算法将标签从关键点传播到3D
在物体的每个点上获得带有完整标记的点云。具体而言,首先基于采样得到的3D点云构建k最近邻图,并计算相邻矩阵A:
v是点xyz坐标,NN_k是点的k最近邻点。接下来通过公式
对称邻接矩阵,使用公式
标准化后的邻接矩阵,其中D是度数矩阵。最后一点的得分S通过闭式解决
得到,其中
是一个one-hot标签向量,1代表标签。α超参数用于控制S的下降速度,实际上设置为0.998。最后将S进行归一化使得其值域位于
在0到1之间表示概率分数。图4中给出了一些标签传播后的数据样例。
图4:部分数据样例
数据集的统计特征
最终3DAffordanceNet数据集为覆盖23个物体类别的物体提供定义良好的视觉功能可供性标记,每个物体类别最多标记5个
功能类别。从功能可供性的角度来看,18个功能类别中有一个物体功能可供性标记。值得一提的是,每一点都可以同时标记为支持多个功能类别。图5和图6
显示数据集的统计特征。
图5:数据集的统计特性,每个物体类别支持的功能类别及其数量
图6:标记在每个功能类别中的对象数量
实验与基准
研究人员将数据集按70%、20%、10%的比例分为训练集、验证集和测试集,提出了三个视觉功能可供理解任务:完整点云
(Full-Shape)功能可供性估计,部分点云(Partial)可供性估计和旋转点云(Rotate)
功能可供性估计,并进一步探索了使用半监督学习方法使用未标记数据进行点云功能可供性估计的可能性。评估提出的任务采用三种基线方法:PointNet 、DGCNN
和U-Net、PointNet 和DGCNN在他们的论文中使用默认参数进行实验U-Net则采用PointContrast
初始化提供的预训练参数。
完整点云功能的可供性估计旨在估计完整点云上各点支持的功能类别及其相应的概率分数。
完整点云功能的可供性估计旨在估计完整点云上各点支持的功能类别及其相应的概率分数。所有网络的分类头都设置为每个功能类别的分类头,每个分类头共享相同的骨干网络。骨干网络提取的每个点特征通过几个线性变换层,最后通过一个
sigmoid函数得分点关于某一功能类别的概率得分。研究人员使用交叉熵损失函数并考虑正负样本DICE损失函数训练三个基线网络:
M是功能类的数量,N是物体的数量,
标记第j点关于第i功能类别的标记得分,
是网络预测的得分。最终损失函数为
。网络性能评价指标采用平均精度(mAP),均方误差(MSE),ROC曲线下面积(AUC)和平均交并比
(aIOU),各功能类别计算所有性能指标后,以各类算术平均值为最终指标。特别的,对aIOU,研究者以0.01的间隔从0到0.99
间取阈值将预测得分二值化,计算所有阈值下预测得分和标记得分IOU,最后aIOU在所有阈值下IOU算术平均值。除了MSE
此外,所有其他指标的计算都将标记分数进行二值化处理。
在一些可见点云上估计一些点云功能的可供性。由于传感器扫描在实际场景中获得的点云数据不一定完整,因此研究人员也考虑了一些点云上的功能可供性估计。具体来说,研究人员是通过
(-1、-1、1)、(1、1、1)、(1、-1、-1)、(-1、1、-1)在固定视角下设置相机获取部分点云数据,并在三个基线网络上以与完整点云功能可供性估计相同的方式进行训练和测试。
旋转点云功能可供性估计在旋转点云上。PartNet中的3D研究人员提出了两种旋转实验设置:z/z旋转和
SO(3)/SO(3)旋转,前者沿重力轴方向随机旋转点云,后者沿三个轴方向旋转点云。对于每个旋转实验,在训练阶段,每个点云随机旋转采样输入网络,在测试阶段,网络提前随机采样
云下测试五个旋转点。与完整点云功能可供性估计相同的训练和测试方法。
如图7所示,随着任务的难度,三个基线网络的性能逐渐下降,其中SO(3)旋转实验性能下降最为明显,三个基线网络mAP均下降了
5~即使在完整点云上,10%的百分点也有很大的提升空间,说明了3DAffordanceNet
和提出的任务对现有的网络是具有挑战性的,适合于视觉功能可供性理解的网络结构和训练方法仍然有待研究。
图7:实验性能评价结果。
图7:实验性能评价结果。P代表PointNet ,D代表DGCNN,U代表U-Net
图8展示了PointNet 部分实验结果可视化图像。从第二行可以看出,PointNet
在完整点云上预测的结果是合理的,符合预期。第三行的部分点云预测结果在某些功能类别中失败,例如包含(Contain)
在类别上,网络忽略了部分观测到的平面。第三行和第四行的预测结果表明,网络在旋转点云上的性能较差,例如打开(Open)类别完全预测错误,包括
(Contain)网络预测分数较低。
图8:PointNet 实验结果可视化
标注功能可供性比较困难
的标注任务,因此会带来较高的人力和时间成本。为了探索利用未标注数据进行视觉功能可供性理解任务的可能性,研究者进行了半监督学习的实验。研究者使用{n}DGCNN作为骨干网络
毕业证样本网创作《华工网络本科文凭样本,华工毕业要求》发布不易,请尊重! 转转请注明出处:https://www.czyyhgd.com/456497.html