数据科学项目
“评估统计算法在银行伪造钞票检测中的价值”
by 吴同学
目的
这个数据科学项目的目的是提出一种可靠的算法,以便通过光学扫描仪或类似工具,银行可以区分“真钞”和“伪造”钞票。一般来说,光学扫描仪会检测每张钞票的某些特征,并将它们发送到一个算法,该算法将建议将钞票分类为“真钞”或“伪造钞票”。然后,“伪造”的钞票将退出流通。
我们的建议是使用一种称为“k-means聚类”的技术的统计算法。
数据说明
为了评估这是否是分离钞票的好方法,我们对 1372 张钞票样本进行了测试,这些样本取自 OpenML 网站,由于其尺寸很大,这对我们来说似乎是一个很好的样本。该样本包含从每张钞票(V1 和 V2)中获取的 2 个特征,这些特征实际上是从真伪和伪造的类似钞票的样本中提取的图像中提取的。
图1 – 原始数据
如示例数据描述中所述,对于数字化,使用了通常用于印刷检查的工业相机。最终图像具有 400x 400 像素。由于物镜和与被研究物的距离,获得了分辨率约为660 dpi的灰度图像。使用一种特殊的工具(称为“小波变换”)从图像中提取特征。
方法:如何分析数据
首先通过描述性统计(例如平均值、标准差、最大值、最小值)分析数据,以了解样本特征。然后,我们绘制了结果。
图2 – 原始数据散点图
之后,我们还使用了一种称为“最小–最大标准化”的技术,以便为分析适当缩放数据。
最后,我们对数据运行了 2 均值算法,以分析它是否能够区分真钞和伪造钞票的 2 簇。我们运行了几次以评估其整体稳定性。
图3 – 数据2均值聚类
这种方法的强度和局限性
我们分析的主要优点是所使用的算法非常容易实现,并且快速高效。我们分析的局限性在于,我们假设样本数据代表了流通中的纸币(包括真钞和伪造钞票)的总体数量。此外,据我们所知,该样本是在 2012 年收集的。过去 11 年的技术进步可能会改变样品的可靠性。
在建模方面,我们使用了 k – means聚类技术,因为它看起来适合这种分析,尽管可能已经实现了其他有用的技术,例如 DBSCAN 聚类。进一步的分析可能会尝试比较这两种方法,以评估哪一种似乎更好。
结果摘要
最后,我们将模型预测与观察数据中的实际钞票分类进行了比较。该模型最终的预测成功率为 87%,这绝对比随机猜测要好。
因此,我们建议使用此算法来自动检测伪造钞票
1.本站内容仅供参考,不作为任何法律依据。用户在使用本站内容时,应自行判断其真实性、准确性和完整性,并承担相应风险。
2.本站部分内容来源于互联网,仅用于交流学习研究知识,若侵犯了您的合法权益,请及时邮件或站内私信与本站联系,我们将尽快予以处理。
3.本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
5.本站是非经营性个人站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途
暂无评论内容