这项由香港科技大学尹梓鑫等研究人员与StepFun公司合作完成的突破性研究发表于2025年9月,论文题为《LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence》。感兴趣的读者可以通过arXiv:2509.12203v1访问完整论文。
当你拿着一张照片,想要把狗狗的嘴巴张开,或者让人物的手放到口袋里时,传统的图片编辑软件往往让人头疼不已。你需要掌握复杂的操作技巧,还要花费大量时间调整各种参数。更让人沮丧的是,即使费尽心思,最终效果也常常不尽如人意——要么编辑痕迹明显,要么整张照片看起来不自然。
港科大的研究团队注意到了这个困扰无数用户的难题。他们发现,现有的图片拖拽编辑方法就像是一个视力不好的画家,在修改画作时总是找不准对应的位置。这些方法依赖所谓的"隐式匹配",简单来说就是让计算机自己猜测哪些部分应该对应哪些部分,结果常常猜错,导致编辑失败或产生奇怪的效果。
为了解决这个根本问题,研究团队开发了Lazy