学习风格项目

我想对我分配的一个有趣的问题进行一些输入。 其任务是分析数百个,最终数以千计的隐私策略并确定其核心特征。 例如,他们是否接受用户的位置?他们是否与第三方共享/出售?等等。

我已经跟几个人聊过,读了很多关于隐私政策的内容,并且自己想到了这个。 这是我目前的攻击计划:

首先,阅读大量的隐私,并找到主要的“线索”或指标,以确定某个特征是否符合要求。 例如,如果数以百计的隐私政策具有相同的行:“我们将采取您的位置。”,该行可能是一个提示,100%的信心,该隐私政策包括采取用户的位置。 其他线索对某个特征的信任程度要小得多。例如,单词“位置”的存在可能会增加用户位置存储25%的可能性。

我们的想法是继续发展这些线索,并设置适当的置信区间,以便我可以高度自信地对所有隐私政策进行分类。 这里可以比喻一下使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕获系统。

我想问你们是否认为这是解决这个问题的好办法。 你会如何处理这样的问题? 此外,有没有推荐使用的特定工具或框架。 任何输入是受欢迎的。 这是我第一次做一个涉及人工智能的项目,特别是机器学习和NLP。


我们的想法是继续发展这些线索,并设置适当的置信区间,以便我可以高度自信地对所有隐私政策进行分类。 这里可以比喻一下使用贝叶斯过滤器来识别哪些邮件可能是商业和未经请求的电子邮件垃圾邮件捕获系统。

这是文本分类。 鉴于每个文档都有多个输出类别,它实际上是多标签分类。 标准的方法是用你想要预测的类/标签手动标记一组文档,然后根据文档的特征对分类器进行训练; 通常是字或n-gram发生或计数,可能由tf-idf加权。

流行的文档分类学习算法包括朴素贝叶斯和线性支持向量机,但其他分类器学习者也可以使用。 任何分类器都可以通过一对一休止(OvR)构造扩展为多标签。


确实非常有趣的问题!

在更高的层面上,你想要的是总结 - 一个文件必须被缩减为几个关键短语。 这远远没有解决问题。 一个简单的方法是搜索关键字,而不是关键短语。 您可以尝试使用LDA等主题建模来查找每个文档的内容。 然后,您可以搜索所有文档中存在的主题 - 我怀疑将出现的内容与许可证,位置,版权等有关.MALLET具有易于使用的LDA实现。


我会将此视为机器学习问题,您尝试以多种方式对事物进行分类 - 即需要位置,希望ssn等。

您需要枚举要使用的特征(location,ssn),然后为每个文档说明该文档是否使用该信息。 选择你的功能,训练你的数据,然后分类和测试。

我认为简单的功能如单词和n-gram可能会让你的相当远,而与ssn或location等相关的单词词典将很好地完成它。

使用您选择的机器学习算法 - 朴素贝叶斯非常易于实施和使用,并且可以很好地作为第一个刺探问题的工具。

链接地址: http://www.djcxy.com/p/62503.html

上一篇: learning style project

下一篇: Using Pip behind a proxy with PAC script