在文本文档中查找个人身份信息(PII)可能很有用,原因有几个,但我多次遇到的一个用例是帮助匿名文本,以便:
与第三方共享数据
遵守GDPR等法规要求
将PII替换为模拟数据,用作机器学习和其他探索性分析的训练数据
我将尝试自动化查找PII的过程,在本系列文章中,我们将探索一些流行的开源工具和技术,以便在我们自己的数据中识别不同类型的PII。
在第一部分中,我们找到了一种在文本中查找人名的方法,让我们看看我们还可以找到其他类型的PII。
介绍DucklingDuckling是一个Haskell库,由Facebook开源,用于将文本解析为结构化数据。Duckling可以帮助我们在文本中找到不同类型的信息,包括信用卡号码、电子邮件地址和电话号码。
现在别担心,如果你不是了解Haskell的三个人之一,我们可以将Duckling与任何编程语言一起使用。
Python示例让我们看看我们将如何用一种不需要关于副作用的害处的演讲的语言来使用Duckling。
先决条件:安装Git、Docker和Docker-
转载请注明:http://www.0431gb208.com/sjszlff/8495.html