
北大许辰人教授团队跟美国匹兹堡大学高伟教授合作,搞出了个叫SynCheck的框架,还定义了无线感知领域合成数据的质量评估指标。
更厉害的是,相关论文不仅发在了arXiv上,还拿了移动计算领域顶会MobiSys2025的最佳论文奖。
在无线感知这行,能拿到这种级别的奖,含金量绝对够高。
无线感知的“数据焦虑症”可能有人没听过无线感知,简单说就是用无线信号去识别人或物体的状态,比如智能家居里判断人在不在家,工业场景里监测机器有没有故障。
展开剩余85%但这行有个大麻烦,就是数据太少,还特别难搞。
无线感知领域的高质量数据,跟AI领域比简直是“稀缺品”。
想采点真实数据,得有专门的设备,不是随便拿个手机就能测的。
而且数据还特“娇气”,受时间、空间影响特别大。
比如今天测的机器振动信号,明天机器温度变了,信号可能就不一样了;在车间东边测的数据,挪到西边可能又不适用了。
这种情况下,想覆盖所有真实场景的数据,基本不可能。
后来有人想,既然真实数据难搞,那用生成模型造点合成数据不行吗?像GAN、DiffusionModels这些模型,在图像、文本领域都挺能打的,能造出让人分不清真假的图和文字。
但把它们用到无线感知上,问题就来了。
无线信号不是随便造的,它得符合电磁波的传播规律,比如绕障碍物时会有菲涅尔区效应,移动时会有多普勒频移。
之前没人想过怎么评估这些合成数据的质量,也没法保证它们跟真实信号的物理规律一致。
这就像用做蛋糕的方法做面包中股网,原料不一样,做法也得调整,硬套肯定不行。
SynCheck框架的“解题思路”既然数据难题这么突出,那SynCheck框架是怎么破局的呢?它的核心逻辑其实挺清晰,就是让合成数据在训练过程中“自己证明自己好不好用”。
首先,团队用了半监督学习的思路。
把少量真实数据当“有标签的好学生”,知道这些数据对应的是什么场景;再把大量合成数据当“没标签的学生”,暂时不知道它们对应的场景。
然后把这两类数据一起放进模型里训练。
这样做的好处很明显,既不会浪费真实数据的准确性,又能用上合成数据的数量优势。
相当于给模型“主菜”(真实数据)的同时,还加了“配菜”(合成数据),营养更全面。
光有数据还不够,还得保证合成数据的质量。
团队没像以前那样,先把所有合成数据造出来再筛选,而是让筛选和训练同步进行。
模型在训练过程中,会随时判断哪些合成数据靠谱,哪些不靠谱。
靠谱的就留下继续参与训练,不靠谱的比如标签错了、跟真实数据差太远的,就直接删掉。
这种动态筛选的方式,比一次性筛选灵活多了。
打个比方,这就像煮火锅,不是一开始把所有菜都下进去,而是边煮边看,煮老了的、不好吃的就捞出来,保证锅里的都是新鲜的。
SynCheck框架还有几个挺亮眼的创新点,最关键的是它提出了“亲和性”和“多样性”两个指标。
亲和性就是看合成数据跟同类真实数据像不像,比如都是“人体跌倒”的信号,合成数据得跟真实数据的特征差不多才行;
多样性就是看合成数据能不能覆盖更多真实数据的情况,不能只集中在某一种场景。
这两个指标不用人去定复杂的规则,而是让模型根据最终任务的效果来判断,数据好不好用,任务结果说了算。
这种方式既省了人工成本,又能精准命中需求,确实比以前的方法聪明。
另外,这个框架还特别“百搭”。
不管是做智能家居的人体感知,还是工业的设备监测,它都能用;不管是用GAN还是其他生成模型造的合成数据,它也能兼容。
不用针对不同场景、不同模型重新改框架,企业用起来成本就低多了。
这一点对行业落地特别重要,毕竟不是每个企业都有能力去定制框架。
为了验证这个框架的效果,团队还做了实验对比。
以前用传统方法用合成数据,模型性能还会下降;但用了SynCheck框架,模型性能反而能提升。
这说明框架确实解决了合成数据的可靠性问题,不是花架子。
现在SynCheck框架已经拿了顶会最佳论文,未来团队还有两个方向要深耕。
一个是把质量评估指标反过来指导生成模型,让生成模型直接造出更高质量的合成数据,不用再花功夫筛选;
另一个是整合物理仿真器,根据电磁传播原理造个“虚拟的信号生成器”,这样就不用依赖那么多真实标注数据了。
这两个方向要是能做好,无线感知领域的数据难题就能从根本上缓解,以后更多场景比如智慧交通、医疗监测,都能用上无线感知技术。
总的来说,SynCheck框架算是给无线感知领域的“数据焦虑症”开了个“特效药”。
它不仅解决了当下合成数据质量难评估、难使用的问题,还为未来技术落地铺了路。
能拿到MobiSys这样的顶会最佳论文,也证明了行业对它的认可。
接下来就看它怎么从实验室走向实际应用中股网,给咱们的生活、工作带来更多便利了。
发布于:河南省启远网提示:文章来自网络,不代表本站观点。