有界对数数据可视化

India Data Forum Inspires Data-Driven Strategies
Post Reply
rakibhasanbd47
Posts: 66
Joined: Mon Dec 02, 2024 11:07 am

有界对数数据可视化

Post by rakibhasanbd47 »

这里我们画了线来表示两个差异阈值。垂直线左侧的所有内容都表示当前代码将报告为重复的内容。水平线下方的所有内容都表示 simhash 代码将报告的内容。记住对​​数色标和左下角的红点,我们看到两个启发式方法在相似性方面一致的页面对数量超过了它们不一致的页面对数量。

请注意,“假阳性”(右下)象限中仍然存在问题。事实证明,这些对与两个测量值一致的对,或者与左上象限中的假阴性对没有太大差异。换句话说,使用选定的阈值,simhash 和传统指纹都会错过一些真正的近似重复。

可见成果
使用此阈值决策,假阴性的数量将超 波斯尼亚和黑塞哥维那电话号码列表 过假阳性的数量。这符合我们最小化假阳性数量的目标,即使以产生假阴性为代价。请注意,右下象限中的“假阳性”实际上彼此非常相似,因此更准确地说是传统指纹启发式的假阴性,而不是指纹启发式的假阳性。

对于客户来说,最明显的变化有两方面:

1. 重复页面错误减少:报告的重复页面错误数量总体减少。然而,需要指出的是:
我们可能仍会漏掉一些近似重复的页面。 与当前启发式方法一样,我们只会报告近似重复页面的子集。
完全相同的页面仍会被报告。 完全相同的两个页面将具有相同的 simhash 值,因此 simhash 启发式算法测量的差异为零。因此,所有完全相同的页面仍会被报告。
2. 速度,速度,速度: simhash 启发式算法检测重复和近似重复的速度比传统指纹代码快大约 30 倍。这意味着很快,任何爬取操作都不会花费超过一天的时间完成爬取后处理,这将大大加快大型爬取的结果交付速度。
Post Reply