实勘智能审核项目——最大空间感知审核

见贤思齐 · 发表于 2024-10-10 14:23:33

实勘智能审核项目——最大空间感知审核实勘智能审核项目——最大空间感知审核刘欣刘天悦壳算子壳算子贝壳找房数据智能中心策略算法部技术公众号 10篇内容 2020年12月03日 21:02 1. 项目背景截至2020年9月30日，贝壳楼盘字典覆盖332个城市、57万个社区、累计2.33亿套住宅，也因此积累了亿级房屋实勘图片，且数量每天在不断增加。然而，这些图片中可能会出现空间呈现不合理、泄露业主隐私等内容不合规及图像质量差等问题，如果不经审核直接在外网呈现，会在一定程度上影响公司品牌形象，同时可能会增加客户投诉风险。纯人工审核效率低、时效性差、成本较高。因此，策略算法-图像团队与摄影师平台、司南、楼盘字典等团队共建的实勘智能审核项目应运而生，项目旨在通过流程改造提升审核效率。新旧版审核流程变化如图-1：图-1 新旧审核流程对比原有流程是摄影师上传直接呈现到外网，后续人工审核驳回不合规的房源进行修改，接入机审后，摄影师上传进入图片自动美化及智能审核，审核通过的房源外网实时呈现，不合格的驳回摄影师修改，部分不确定的提交到人工审核。通过流程改造，旨在利用AI技术和贝壳图像平台能力，采用“人机结合”的审核模式，100%实时机器审核，人效（人审驳回套数/人审总套数）相对（纯人审）提升190%。为了实现机器自动化审核，图像团队深入分析《贝壳找房实勘标准规范》及技术实现，与业务方一起将规范拆分为26个审核点。在审核点的技术方案选型上，有图像分类、目标检测、语义分割等深度学习方法，也有黑暗曝光、倾斜矫正等传统图像算法。由于贝壳实勘图审核的高标准及复杂业务需求，限于篇幅原因，本文仅以实勘图“最大空间呈现”相关的2个审核点来介绍图像团队对深度学习及传统方法的探索与实践。2. 最大空间呈现同一个房间不同拍摄角度，呈现出来的空间感也不一样，为了更好、更真实的展现房屋促进成交，我们希望实勘图片能最大化呈现出室内空间。根据《贝壳找房实勘标准规范》的“最大空间呈现”原则抽象出两条规则：1.卫生间、厨房、储物间、衣帽间、阳台等小功能间至少呈现三面墙（包含夹角的两面墙和地面），客厅、卧室等大空间必须体现四面墙（含）以上；2.每张实勘图必须有地面且地面不能超过整张实勘照片的1/2，不能小于整张实勘照片的1/5。图-2是一些不合格图片示例：图-2驳回图片示例这两条审核规则都是对室内空间的约束，可用一套统一的算法解决。从单目RGB图片感知三维空间可以转化为室内布局估计问题，即给定一张室内图片，预测出地面、墙面、天花板的位置。传统室内布局遵循proposal-rank方案，proposal部分根据曼哈顿假设将边缘集聚成连接在三个消失点上的线，然后通过射线采样产生大量的布局候选，rank部分提取手工设计特征，学习布局候选的排序模型，给出最好的布局建议。近些年，深度学习的发展印证了卷积神经网络提取图像特征的强大能力，通过全卷积网络提取的深度特征替代手工特征实现了显著的性能提升。一些学者将室内布局量化为像素级分割任务，基于全连接网络端到端的学习每个像素点的类别，像素类别分为背景、墙面-地面交界线、墙面-墙面交界线、墙面-房顶交界线（后三者统称为墙角线）。在研读大量前沿的学术论文后，选择将深度学习工作与传统的消失点算法结合，通过卷积神经网络粗略定位墙角线区域和墙角点坐标，然后墙角点和消失点连接得到精准的布局结构。接下来从数据准备、模型训练及后处理等方面进行详细介绍。3. 数据准备我们采用了三种数据，分别是：LSUN公开数据集、VR自动标尺数据、人工标注少量厨卫数据。LSUN数据集于2015年由Zhang等人提出，用于CVPR大规模场景理解挑战赛Large-scale Scene understanding Challenge，该数据集包括8种不同室内场景：卧室、旅店、餐厅、小饭厅、起居室、办公室、会议室和教室。LSUN的标注也遵循曼哈顿假设，布局类型一共11类，且类别间分布非常不平衡。图-3LSUN数据集LSUN数据集中的图片来自国外场景，且拍摄视野较小，与摄影师实勘拍摄照片有很大不同，所以还需要实勘场景的标注数据，如视提供了一个自动标尺工具（给力），可以从VR上根据给定位置角度截取图片，同时根据VR与户型图的对应关系，自动生成墙角线标注数据。加入这部分数据后，客厅卧室等大空间有很好效果，但是由于卫生间、厨房的数据太少，导致效果仍然不够好，所以最后针对一些badcase人工标注了少量数据，最终得到终版训练集。4. 模型优化基于上述大量标注数据，采用深度学习与传统方法相结合的方案，首先训练卷积神经网络初步确定墙角线位置区域和墙角点坐标，然后联合消失点精准确定墙角线方向。整个方法流程结构如图-4：图-4 方案整体框架4.1 基于深度学习的区域定位整个卷积神经网络分为基础特征网络Backbone和分类器Classifier两个部分，基础特征网络根据精度速度的不同要求可以有多种选择，这里我们采用了偏精度的DRN模型。分类模块得到网络的输出，除了有墙角线的分类，考虑到墙角线的汇集处墙角点也是一个很显眼的特征，所以分类器输出为五通道（背景、墙-地、墙-墙、墙-顶、墙角点）。LSUN对墙角点编码标记为有序的0～7号8个点，不仅包含图片内三条墙角线汇聚的点，而且包括墙角线与图片边界的交接点，实际实验中，我们发现墙角线与图片边界的交界点预测难度较大，漏检严重，而且这8个点的顺序难以确定，所以这里仅预测图片内部的三条墙角线汇聚出的墙角点，且不考虑其顺序编号。由于室内环境复杂、家具和装饰品杂乱等原因，室内布局估计时的主要难点在于遮挡，例如下图中的图片墙-地线像素被沙发遮挡超过70%，这种情况下直接端到端的预测像素点类别很难取得很好的效果。参考《Physics Inspired Optimization on Semantic Transfer Features: An Alternative Method for Room Layout Estimation》论文提出的语义迁移的训练策略来应对遮挡问题，同时这对数据分布不平衡也有很好的鲁棒性。具体流程如图-5：图-5 语义迁移训练流程stage1，在数据集SUNRGBD上训练一个语义分割全连接网络。SUNRGBD是一个室内场景理解数据集，在二维和三维中都有密集的注释，包含10335个rgb-d图像，将语义标注对象归纳为37个类别，涵盖通常出现在室内场景中的大部分物品和家具，如橱柜、沙发、椅子、窗户等，这样可以最大程度地描述一个杂乱的室内场景。网络输入为RGB图像X，输出为语义特征Y，整个分割模型可以视为P(Y|X)； stage2，在布局估计数据集上，固定stage1的语义分割网络，将输出语义特征Y输入37*5全连接网络训练得到墙角线和点的分割结果Z，即训练P(Z|Y)模型。P(Z|Y)是房间布局与场景语义之间关系的参数化表示，举例来说，墙面-地面交界线不能穿过窗户，但大概率出现在沙发、橱柜后边； stage3，将stage1和stage2的模型合在一起在布局估计数据集上进行微调训练，stage1作为特征提取器，stage2作为像素级分类器，整体可以表示为P(Z|X)=P(Y|X)P(Z|Y)。这样可以实现在布局估计数据集上端到端的微调，同时也优雅地结合了场景语义与室内布局的关系，使模型训练更为稳定鲁棒。4.2 基于消失点的后处理方法通过单独的深度模型可以得到墙角线的大致区域及推测出布局的类别，但是进一步精准的墙角线定位还需要结合消失点进行后处理得到。消失点，是指平行线的视觉相交点，一组平行线会汇聚到一个消失点，消失点能体现图片几何信息、拍摄角度，是非常重要的图像特征。对于室内图片，一般有三组正交的面，对应三个正交消失点，成像原理及示例见图-6。图-6 消失点原理消失点的计算依赖于平行线，所以我们先用LSD方法检测长直线段，根据线段方向划分为竖直和水平方向线段，然后采用RANSAC投票评分机制，用竖直方向直线组估计得到竖直方向消失点VP1，用水平方向直线组估计得到水平方向消失点VP2，最后根据正交性原理用剩余线段估计投影方向消失点VP3，据此，有序地估计得到相应消失点坐标值。现在我们有了三组平行线消失点的坐标，还有卷积神经网络输出的三类墙角线的概率图、图片内部墙角点的概率图，后处理流程如下：墙角点概率图自适应阈值二值化，取轮廓中心点作为墙角点坐标，理论上墙角点数量最多四个，如果没有墙角点，取墙角线区域中心点作为墙角点；每个墙角点依次与三个消失点连接成直线，根据墙角线概率图在直线上截取概率最大的长线段做为精确的墙角线，其类别为墙角线概率图对应位置类别；一段线可能由于两个端点被预测两次，另外多预测的点也可能导致多余线段，所以需要对距离相近且斜率近似的线段进行合并，最后得到规整的布局结果。图-7后处理流程墙角线分割结果为一个大致区域，这里使用墙角点与消失点的连线作为最终预测的墙角线，一方面是因为地面遮挡严重，很难在墙角线分割结果的区域内检测到准确的墙角线；另一方面，消失点与墙角点的连接可以保留墙角线的平行关系，这样不会由于斜率差距扩大误差，且整体布局保持不变，墙角线的最终预测结果如下。图-8结果示例有了精准的室内布局结构，业务规则主要在于难例分析、特殊场景兼容与和人审规则的对齐等。“最大空间呈现”的两个审核规则：1）地面大小审核点，判断墙-地线最高处是否位于图片下方1/5到1/2之间，且只过室内场景，不考虑车库及阳台室外图片；2）几面墙审核点，室厅图片小于四面墙则驳回，厨卫等其它分间图片小于三面墙则驳回。5. 结语“最大空间呈现”是《贝壳找房实勘标准规范》的原则之一，相对应的地面大小、几面墙两个审核点也只是26个审核点中的两个。除了本文基于单目RGB图像空间感知的室内布局估计模型外，还有其它图像分类、目标检测、语义理解及更多的传统图像处理算法等，后续也将逐步整理并公开。本文的关键工作已撰写专利2篇（其中授权1篇）。未来，图像团队除了优化原有的图像/视频内容审核外，还将探索图像与时序、NLP等结合的多模态算法，持续为“住”这个行业创造更多的价值。参考H. Zhao, M. Lu, A. Yao, Y. Guo, Y. Chen and L. Zhang, "Physics Inspired Optimization on Semantic Transfer Features: An Alternative Method for Room Layout Estimation," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, HI, 2017, 870-878.Hedau, V. et al. “Recovering the spatial layout of cluttered rooms.” 2009 IEEE 12th International Conference on Computer Vision (2009): 1849-1856.Room Layout Estimation 概述 - 知乎 https://zhuanlan.zhihu.com/p/130949219作者介绍：刘欣，2019年校招加入贝壳找房，目前从事图像算法、户型挖掘相关工作。刘天悦，之前在金山AI Lab从事视觉算法相关工作，现就职于贝壳找房业务智能部，担任资深算法工程师，专注图像、户型及视频理解相关工作。预览时标签不可点关闭更多小程序广告搜索「undefined」网络结果

		自动登录	找回密码
密码			会员注册