掌握可视化/分析大型数据集的基本技能

我正在寻找一种学习适应大型数据集的方法。 我是一名大学生,所以我所做的一切都是“好”的大小和复杂性。 在这个学期和一位教授一起研究一个研究项目,我不得不想像一个有点大(以我的经验)数据集之间的关系。 这是一个15 MB的CSV文件。

我用Python编写了大部分数据,使用GNUPlot可视化。

有没有关于此主题的无障碍书籍或网站? 使用Python的奖励点数,比依赖gnuplot更多的“基本”可视化系统奖励点数。 开罗什么的,我想。

寻找让我从数据挖掘,处理到可视化的东西。

编辑:我更多地寻找能教会我“大创意”的东西。 我可以自己编写代码,但是寻找人们用来处理大型数据集的技术。 我的意思是,我的15 MB足够小,可以将我需要的所有内容存入内存,然后开始嘎吱嘎吱。 人们做什么来可视化5 GB数据集?


我认为最基本的技能是数学和统计学的良好基础 。 这可以帮助您评估和选择各种过滤数据的技术,并在保持其完整性的同时降低其体积和维度。 你最不想做的事情是制作一些漂亮的东西,以显示那些并不存在的模式或关系。

专业数学

要解决某些类型的问题,您需要学习一些数学知识来理解特定算法的工作原理以及它们对数据的影响。 有多种聚类数据,降维,自然语言处理等算法。根据您希望分析的数据类型,您可能永远不会使用其中的许多算法,但互联网(和堆栈交换站点)上存在丰富的资源,你应该需要帮助吗?

对于数据挖掘技术的介绍性概述,Witten的数据挖掘是很好的。 我有第一版,它用简单的语言解释了一些数学概念。我推荐它,因为它提供了一个很好的概述,并且它不是太昂贵 - 当你更多地阅读这个领域时,你会注意到许多这些书很贵。 唯一的缺点是许多页面专门用于使用WEKA(一种Java数据挖掘软件包),因为您使用Python可能不太有用(但是它是开源的,因此您可以从源代码中收集一些想法。我还发现机器学习入门提供了一个很好的概述,价格合理,数学有点多。

工具

为了在单台机器上创建自己的发明可视化,我认为基础知识应该让你开始:Python,Numpy,Scipy,Matplotlib,以及一个很好的图形库,例如PIL或Pycairo。 有了这些,你可以通过自定义绘图程序来查看数字,将它们绘制在图表上,并且可以绘制漂亮的东西。

当您想要创建移动的交互式可视化效果时,像基于Java的Processing库这样的工具就可以轻松实现。 甚至可以通过Jython用Python编写处理草图,以防您不想编写Java。

如果你需要它们,比如OpenCV(计算机视觉,机器学习),Orange(数据挖掘,分析,即viz)和NLTK(自然语言,文本分析),那里还有更多的工具。

演示原则和技巧

像Edward Tufte这样的领域人员和像Information Graphics这样的参考书籍可以帮助您很好地了解创建可视化并有效呈现它们的方式。

查找Viz示例的资源

像Flowing Data,Infosthetics,Visual Complexity和Information这样的网站很漂亮,展示了来自整个网络的最新,有趣的可视化。 您还可以浏览互联网上的许多可视化网站列表。 从这些作为种子开始,并开始导航,我相信你会发现很多有用的网站和鼓舞人心的例子。

(这本来是一个评论,但是变得太长了)


结帐信息很美 。 这不是一本技术书籍,但它可能会给你一些可视化数据的想法。

也许看看数据挖掘原理的前三章,它讲述了在数据挖掘环境中对数据进行可视化的一些概念,在大学期间我发现它的某些部分很有用。

希望这可以帮助


如果您正在寻找可视化而不是数据挖掘和分析,Edward Tufte的量化信息视觉显示被认为是该领域最好的书籍之一。

链接地址: http://www.djcxy.com/p/24925.html

上一篇: Acquiring basic skills working with visualizing/analyzing large data sets

下一篇: What statistics should a programmer (or computer scientist) know?