守护之鲨

Sharkdtu's blog site


  • 首页

  • 归档

  • 标签

  • 关于

  • 搜索
close

机器学习套路--逻辑回归

发表于 2017-06-14   |   分类于 机器学习

逻辑回归常用于解决二分类问题,它将具有 $n$ 维特征的样本 $X$,经过线性加权后,通过 $sigmoid$ 函数转换得到一个概率值 $y$,预测时根据一个门限 $threshold$ (例如0.5)来划分类别,$y < threshold$ 为负类,$y \geq threshold$ 为正类。

阅读全文 »

机器学习套路--线性回归

发表于 2017-06-03   |   分类于 机器学习

线性回归可以说是机器学习中最简单,最基础的机器学习算法,它是一种监督学习方法,可以被用来解决回归问题。它用一条直线(或者高维空间中的平面)来拟合训练数据,进而对未知数据进行预测。

阅读全文 »

Spark SQL 之 Join 实现

发表于 2017-05-29   |   分类于 spark

Join作为SQL中一个重要语法特性,几乎所有稍微复杂一点的数据分析场景都离不开Join,如今Spark SQL(Dataset/DataFrame)已经成为Spark应用程序开发的主流,作为开发者,我们有必要了解Join在Spark中是如何组织运行的。

阅读全文 »

从PageRank Example谈Spark应用程序调优

发表于 2017-05-11   |   分类于 spark

最近在做BigData-Benchmark中PageRank测试,在测试时,发现有很多有趣的调优点,想到这些调优点可能是普遍有效的,现把它整理出来一一分析,以供大家参考。BigData-Benchmark中的Spark PageRank采用的是Spark开源代码examples包里的PageRank的代码,原理及代码实现都比较简单,下面我简单地介绍下。

阅读全文 »

Spark Cache性能测试

发表于 2017-03-22   |   分类于 spark

采用Spark自带的Kmeans算法作为测试基准(Spark版本为2.1),该算法Shuffle数据量较小,对于这类迭代型任务,又需要多次加载训练数据,此测试的目的在于评判各种Cache IO的性能,并总结其Spark内部原理作分析,作为Spark用户的参考。

阅读全文 »

1234…7
sharkdtu

sharkdtu

No pains, no gain.

33 日志
11 分类
50 标签
RSS
weibo github
© 2016 - 2025 sharkdtu
由 Hexo 强力驱动
主题 - NexT.Mist