【数据人网】我们都是数据人,您意识到了吗?

【数据人网】我们都是数据人,您意识到了吗?
我们都是数据人,您意识到了吗? 文/陆勤 我们都是数据人,既是数据的生产者、又是数据的消费者。 数据生产者的场景,比比皆是。 电商平台,购买喜欢的物品,生产了与购买相关的数据;社交圈子,分享各自的见解,生产了与分享相关的数据;搜索引擎,寻找所需的信息,生产了与搜索相关的数据。 数据消费者的画面,随处可见。 各种评论数据, ... →阅读全文
标签:, , ,

【好文翻译】R做你的第一个机器学习项目教程

【好文翻译】R做你的第一个机器学习项目教程
你是否想要用R做机器学习,但又苦恼于怎么开始做? 在这篇文章里你将会用R完成你的第一个机器学习项目。 在这个逐步教程里,你需要做: 1 下载和安装R并且获取用做机器学习非常有用的R包。 2 导入一个数据集并且用统计分析和数据可视化来理解它的结构。 3 创建5个机器学习模型,选择最好和建立精度是可靠的置信。   如果你是一个机器学 ... →阅读全文
标签:,

【好文翻译】R用reshape2包进行数据操作

【好文翻译】R用reshape2包进行数据操作
在这篇文章中,我会向大家展示如何使用reshape2包把从范围较广的数据转化成长格式,反之亦然。这篇文章由Hardely Wickham编写。   长格式与宽格式 在宽格式数据中,每一列都代表一个变量。例如,在mtcars数据集中,我们可以看到与它相关的数据: # Wide format                    mpg cyl disp  hp drat   wt  qsec vs am gear carb M ... →阅读全文
标签:,

【好文翻译】R用tidyr包进行数据操作

【好文翻译】R用tidyr包进行数据操作
大家好!在这篇文章中,我会向你们展示如何用 tidyr包进行数据操作。Tidyr包是由Hadely Wickham先生创建的,这个包提高了整理原始数据的效率,而且通常在连接词之间使用。我们常说当把每个列都看作是一个变量,而每行都当作是它的函数的 时候,这时我们就说这些数据需要进行整理。 下面我会列举tidyr包的4个常用的函数及其用途: gather-把 ... →阅读全文
标签:,

【R学习路线】怎样学习R

【R学习路线】怎样学习R
这里有无数的资源可以帮助你从不同的方面学R,然而对于初学者的你来说可能会觉得这样让你感到吃不消。而且R又是一门动态语言,它时刻都在变化,所以我们需要时常更新我们的工具以及技术到最新的版本。 这就是为什么R-bloggers和DataCamp合作要写一篇文章来给你怎样开始学习R提供可靠的建议。这篇文章中,每个部分都会介绍不同的并与这个部分 ... →阅读全文
标签:, , , , ,

【R案例】利用K均值检测奇异值

【R案例】利用K均值检测奇异值
 陆勤(专注于机器学习研究和应用) 导读: 奇异值,又称异常值、或者个例、或者特例。即这样的实例与多数实例特性不相同,有差异的一种现状。奇异值检测,具有重要价值,又有广泛应用,例如,银行欺诈交易识别、网络入侵检测等。 问题描述:如何检测奇异值? 解决方案:利用K均值检测奇异值。K均值算法,如下表所示: 现以iris数据 ... →阅读全文
标签:, ,

【数据分析】R语言获取Excel数据

【数据分析】R语言获取Excel数据
(陆勤 专注于数据分析研究和应用) 导读: 朋友问我,“你做什么的?”,我说,“我做数据分析的”;朋友又问我,“数据分析是做什么的”,我想了又想,这样回答,“数据分析是一个系统工程,以商业目的为驱动,包括数据获取、数据整理、数据分析、数据展示、数据产品等一系列科学的环节,彼此之间相互关联、支撑,又能够不断地迭代、优化和完 ... →阅读全文
标签:,

【好文翻译】什么是数据挖掘和知识发现

【好文翻译】什么是数据挖掘和知识发现
我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过程也可以帮你在后面长时间的过程中解决这些问题。它可以指引你如何变得更有技能,同时对相关知识有深层次的了解。至少,我曾经就是用这样的方式完成了很多的工作。 我 ... →阅读全文
标签:

【好文翻译】R分析快速手册:R中数据可视化

【好文翻译】R分析快速手册:R中数据可视化
简介 数据可视化已经成为数据科学工作流程中一个不可或缺的部分。因此,你的主要工具需要有很强的能力来处理这两方面的操作—数据分析和数据可视化。在过去的时间当中,你可以在你的生活中使用这样的一套工具,但只有其中一个是比较好的。 随着这些景象的变化,R之所以能变成当今的主流语言就是因为它有很强大的数据可视化处理能力。只需要几 ... →阅读全文
标签:,

【R每日一贴】数据集划分训练集和测试集

【R每日一贴】数据集划分训练集和测试集
问题描述 分类问题也好,回归问题也罢,面对一个原始数据集,为了能够有效地评估模型,通常是把数据集划分为训练集和测试集,如何处理呢?   怎么做 按着以下步骤处理 第一步:R导入数据集,采用C50包自带的电信客户流失数据集churn library(C50) data(churn) str(churnTrain) 说明:数据集可以是R中自带的数据集,也可以是从不同数据源导入 ... →阅读全文
标签: