您的位置 : 首页 >> 电子书推荐分享

大数据掘金:挖掘商业世界中的数据价值

下载方式

本书作者:[美]杜尔森·德伦(Dursun Delen) (作者), 丁晓松 (译者), 宋冰玉 (译者)

本书读后感及个人笔记分享· · · · · ·

作为科普类书籍。 数据挖掘的简单分类,包含预测,关联和聚类。 人口数据(如收入,教育,家庭人口,年龄),社会经济数据(如爱好,是否为俱乐部成员,娱乐)和交易数据(如销售记录,信用卡支出,支票)等。 知识本身包含着行动的能力。两个人在同一环境下获得相同的信息,却不一定具有相同的能力来利用信息达成相同的效果。 数据挖掘中的数据,第一类,结构化数据,又分分类数据和数值数据;第二类,非结构化数据,包含文本,多媒体(图像,声频和视频)和网页。 数据训练包含,数据预处理(数据整理和转化)、模型建立、模型部署、预测模型。


小编建议:点赞、分享、投币,素质三连哦

文本挖掘工具

随着越来越多的企业认识到文本挖掘的价值,各种付费的和免费的软件工具如雨后春笋般地不断出现。在这个部分中,我们将按照商用软件和免费(开源)软件来分类介绍一些流行的文本挖掘工具。

商用软件工具

以下是几种最流行的文本挖掘工具,很多软件公司都会在他们的官网上放上产品的演示版本。

  • ClearForest提供文本分析和可视化工具。
  • IBM提供SPSS Modeler和Text Analytics Toolkit。
  • Megaputer Text Analyst为自由形式文本、摘要、群集、导览和自然语言检索提供搜索能力的重新聚焦和语义分析。
  • SAS Text Miner提供全套文本处理和分析工具。
  • KXEN Text Coder是一款文本分析解决方案软件。它可以自动准备、转化非结构化文本变量,使之变成适合KXEN Analytic Framework处理的结构化呈现。
  • The Statistica Text Mining引擎提供操作简便、兼有独一无二的可视化能力的文本挖掘工具。
  • VantagePoint提供种类繁多的交互式图形化视图和分析工具,从文本数据库中发现知识的功能比较强大。
  • Provalis Research的The WordStat分析模型主要分析文本信息,比如对开放问题的回答和面试记录。
  • Clarabridge文本挖掘软件为消费者体验专家们提供的“终端到终端”解决方案,使他们能将消费者反馈转换成市场、服务、产品方面的提升基础。

免费软件工具

在一些非营利性机构那里,你可以得到免费的文本挖掘软件,有些是开源的。

  • RapidMiner的用户界面极具图形美,是最流行的一款开放源数据挖掘和文本挖掘软件。
  • Open Calais是一款开放源的工具包,可以将语义功能纳入你的博客、内容管理系统、网页或者应用里。
  • GATE是文本挖掘领域较为领先的开放源工具包。它包含一个免费的开放源框架和图形开放环境。
  • LingPipe是一款进行人类语言语言学分析的Java程序库。
  • S-EM(Spy-EM)是基于学习正向的和未经标记的案例而进行文本分类的系统。
  • Vivisimo/Clusty是一个网页搜索和文本聚类引擎。

综合使用集中文本挖掘软件也许能够研发出新的应用。

数据科学家

大数据掘金:挖掘商业世界中的数据价值数据科学家与大数据和数据科学相关,在很短的时间内便跃升为市场上最抢手的职业。2012年10月发行的《哈佛商业评论》中,托马斯·达文波特(Thomas. H. Davenport)和帕提尔(D. J. Patil)撰文称数据科学家是“21世纪最性感的职业”。他们在文章中将数据科学家最基本、最通用的技能定义为“写程序”(用最新的大数据语言和平台写)。虽然在不久的将来,越来越多的人会在名片上写上“数据科学家”,会“写程序”这一点将不足为奇,但目前来说,这是数据科学家应具备的最基本技能。今后,数据科学家们则需要一种让所有利益相关者都能够理解的语言来讲述数据的故事——无论是通过口头表达还是视觉呈现,当然两者兼备就更好了。

数据科学家综合使用商业技巧和科学技术“调查”大数据,找出改善目前商业分析实践(从描述性到预见性和规范性)方法的蛛丝马迹,并由此为把握商业新机遇,做出更好的决策。数据科学家和商业智能用户——比如商业分析师——之间存在着本质差别:数据科学家调查、寻找新机遇,而商业智能使用者分析现存的商业情况和运营状况。

强烈的好奇心是一名数据科学家不可或缺的特质。他渴望向问题表面以下探索,找出问题的心脏所在,筛选出可验证的一系列思路清晰的假设。这样求根溯源的精神背后是联想发散的思维方式。在任何领域中,最具创造精神的科学家们都具备这种思维方式,例如,一名数据科学家在研究欺诈问题的时候,发现这可以类比某种DNA测序问题。将这两个迥然不同的世界连接在一起后,这位数据科学家和他的团队就成功地找出了一种能够大大降低欺骗损失的方法。

数据科学家从哪儿来

尽管对于该不该用“科学”二字来称呼“数据科学”意见尚未统一,但对此的争议正在慢慢减轻。真正的科学家会利用其他科学家创造的工具,如果没有可用的工具,为了进行知识探索,他们也会自己做。数据科学家恰恰就是这么做的。实验物理学家需要自行设计实验需要的设备,收集数据,实施多种实验,发现新知识,再交流各自的结论。虽然数据科学家不像实验物理学家一样穿着白色实验服,在无菌的实验室里做实验,但他们也同样使用创造性工具和技术将数据转化成为可供操作的信息,使他人能够利用这些信息做出更好的决策。

对于数据科学家应该有什么样的教育背景还没有一个统一的标准。一般来说,数据科学家需要有计算机科学的硕士或者博士学位,管理信息系统、工业工程学或是最近的分析学方面的学业背景,但仅仅有这些也不足以称之为“数据科学家”。人们最需要数据科学家的地方在于他们在商业和科技应用方面的专业知识。这样说来,数据科学家有点儿像专业工程师或者专业项目经理,对这些角色来说,经验和专业技能、教育背景一样(有时更重要)重要。如果在未来的几年内,出现专门的数据科学家证也不足为奇。

数据科学领域仍在界定之中,许多数据科学家的实践也还是实验性的,远远没有标准化,因此企业在看待数据科学家这个职业的时候,对个人的经验非常敏感。在这个职业成熟以后,各项实践标准化以后,一名数据科学家有经验与否将不再那么关键。如今,企业寻找的是在处理复杂数据问题方面有丰富经验的人,并在有物理和社会科学教育背景和工作背景的人中挖掘了不少人才。一些最好的、最聪明的数据科学家是一些深谙科学领域的博士,比如,生态学和系统生物学。数据科学家该从哪个领域中来还没有达成共识,但对于他们应该有哪些技能和品质还是有一个普遍的理解。图7-4就描述了数据科学家应该具备哪些技能。

 

图7-4 一名数据科学家需要具备的技能

数据科学家要有诸如创造力、好奇心、沟通技巧(人际交往能力)、专业知识、问题界定和管理技能,这样的软实力(如图7-4中左侧的部分)。同时,他们应该有过硬的技术实力,比如数据操控、编程、黑客技能、脚本编写和互联网、社交媒体、社交网络技术(图7-4中右侧部分)。

大数据和流分析法

在本章前面部分,我们提到了数据的体量和种类,大数据的另一个关键特征就是速率。速率代表了数据产生、流向分析环境的速度。各家机构都在努力寻找处理流水般数据的新方法,试图尽可能快、尽可能准确地对出现的数据进行分析,对问题和机遇作出快速反应,使顾客满意,获得竞争优势。当数据迅速连贯地涌入,与之前积累的数据(也就是已经被捕捉到的数据)协同工作的传统分析方法就会出错:要么使用了过多与文本无关的数据,导致错误结论;要么得出了正确的结论,但为时已晚,对客户毫无价值。因此对各种商业情境来说,能够在数据产生或者进入分析系统的瞬间就可以开始分析是至关重要的。

在大部分现代化的商业中,人们普遍相信应该记录每一条数据,如果它们现在没用,那么在不久的将来一定会派上用场。然而,数据的来源呈现爆炸式增长,这种“存储一切”的方法越来越难以实施,在某些情况下甚至变得不可行。实际上,虽然科技在不断发展,但目前总的存储容量还是大大滞后于世界上新产生的数字信息。另外,在风云莫测的商业环境中,为了更好地适应新环境,对数据中有意义的变化进行实时检测,在给定的短时间窗口内找出复杂模式的变体都是意义重大的。以上事实直接引导了“流分析”范式的诞生。流分析诞生之初是为了解决一些特殊的挑战,比如,及时高效地永久存储无限的数据流以供后期分析,或者检测复杂模式的变体并迅速作出反应。

流分析(也称数据动态分析,或数据实时分析)这个术语主要用于从连续不断如流水般的数据中提取可行信息的分析流程。“流”在这里可被看作接连不断的数据要素。流中的数据要素被称作“元组”。在相关性数据库中,元组就像一行数据(即一组记录、一个物体或者一个实例)。然而在半结构化或非结构化数据情境下,元组抽象地代表了一包包含一组给定物体属性的数据。如果元组自身包含的信息不够满足分析的要求,我们就需要其他元组间的相关性或者集体的相关性,这时我们就会用到一个包含一组元组的数据窗口。数据窗口是一组或者一串个数有限元组,有新数据进入时会及时更新。窗口的大小由被分析的系统大小决定。流分析越来越流行的原因有二:第一,反应时间过长导致贬值;第二,我们已经掌握在数据产生伊始就进行捕获、处理的技术。

流分析的一些最强有力的应用出现在能源工业,特别是智能电网系统。智能电网不仅可以实时产生、处理多数据流,优化能源分配方案以满足顾客的需求,而且可以精确地预测短期电力能源的使用情况,满足意料之外的需求,应对可再生能源的生产高峰。

图7-5解释了流分析应用于能源工业的一个普通示例(一个典型的智能电网应用)。应用旨在分析来自智能咪表、生产系统传感器和气象学模型的流水数据,实时精确地预测电力需求和生产。这种预测短期电力消耗和生产趋势,实时侦测异常现象的能力可以优化供应策略(比如确定生产量、利用哪种能源生产以及如何优化生产量),调整智能咪表管理电量消耗,制定较为合理的能源价格。

· · · · · ·正版书购买 · · · · · ·

书籍购买

注:本站不存储任何书籍,PDF电子版收集于网络,仅供学习交流使用,请于24小时后自觉删除。

本文版权归原作者所有,请支持正版。此处仅提供个人读书笔记 https://yigefanyi.com/dashujujuejinwajueshangyeshijiezhongdeshujujiazhi/
返回顶部