网学之家(5588net.com) - 执着关注互联网技术!

网学之家|5588net.com

  • [大数据教程] K Nearest Neighbor 算法 日期:2014-05-05 21:56:08 点击:155 好评:0

    K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法,总体来说KNN算法是相对比较容易理解的算法。其中的K表示最接近自己的K个数据样本。KNN算法和K-Means算法...

  • [大数据教程] 布隆过滤器应用 日期:2014-05-05 21:55:48 点击:166 好评:0

    背景 在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的...

  • [大数据教程] Hadoop在业界的使用情况 日期:2014-05-05 21:08:16 点击:120 好评:0

    淘宝 总容量9.3PB, 利用率77.09% • 总共1100台机器 • Master:8CPU(HT),48G内存,SAS Raid • Slave节点异构 – 8CPU/8CPU(HT) – 16G/24G内存 – 1T x 12 / 2T x 6 / 1T x 6 SATA JBOD – 12/20 slots • 约18000道作业...

  • [大数据教程] 淘宝数据魔方技术架构解析 日期:2014-05-05 21:08:13 点击:88 好评:0

    淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价...

  • [大数据教程] Facebook的实时Hadoop系统 日期:2014-05-05 21:08:11 点击:119 好评:0

    Facebook 在今年六月 SIGMOD 2011 上发表了一篇名为“ Apache Hadoop Goes Realtime at Facebook ”的会议论文 ( pdf ),介绍了 Facebook 为了打造一个实时的 HBase 系统使用到的独门秘技。由于该论文提到的...

  • [大数据教程] Apache Hadoop Goes Realtime at Facebook(译) 日期:2014-05-05 21:08:09 点击:78 好评:0

    摘要 Facebook最近部署了Facebook Messages,这是它的首个构建于Apache Hadoop平台上的user-facing应用。使用构建于Hadoop之上的类数据库层Apach HBase来对每天数十亿的消息信息进行处理支持。这篇论...

  • [大数据教程] 那些年Google公开的大数据领域论文 日期:2014-05-05 21:08:08 点击:130 好评:0

    Google于2004年公布了MapReduce论文,为数据领域工作者开启了大数据算法之门。然而Google的大数据脚步显然不止于此,其后公布了Percolator、Pregel、Dremel、Spanner等多篇论文。没有止步的不仅...

  • [大数据教程] 网站统计中的数据收集原理及实现 日期:2014-05-05 21:08:05 点击:105 好评:0

    网站数据统计分析工具是网站站长和运营人员经常使用的一种工具,比较常用的有谷歌分析、百度统计和腾讯分析等等。所有这些统计分析工具的第一步都是网站访问数据的收集。目前...

  • [大数据教程] 大数据量,海量数据 处理方法总结 日期:2014-05-05 21:08:04 点击:101 好评:0

    摘要:Google于2004年公布了MapReduce论文,为数据领域工作者开启了大数据算法之门。然而Google大数据量的问题是很多面试笔试中经常出现的问题,比如baidu google 腾讯 这样的一些涉及到海...

  • [大数据教程] 五个免费开源的数据挖掘软件 日期:2014-05-05 21:08:02 点击:118 好评:0

    在网上看到一篇文章介绍五个免费开源的数据挖掘软件,转过来。 Orange Orange是一个基于组件的数据挖掘和机器学习软件套装,它的功能即友好,又很强大,快速而又多功能的可视化编...

栏目列表
推荐内容