运用TensorFlow处理简单的NLP问题

发表于 2016-05-31 | 分类于深度学习

当前“人工智能”是继“大数据”后又一个即将被毁的词，每家公司都宣称要发力人工智能，就跟4-5年前大数据一样，业界叫的都非常响亮，不禁想到之前一个老外说过的话：

Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims.

现在看来，上面的”Big Data”可以换成”AI”了，在大家还没搞明白大数据的时候，人工智能就开始引领下一个潮流了。本着跟风的态度，我也尝试去窥探个究竟。

阅读全文 »

临时更换hadoop-ugi

发表于 2016-05-12 | 分类于问题总结

在用spark读写hdfs数据时，有时候当前用户对要读写的hdfs路径没有权限，需要临时改变用户去读写hdfs，操作完后回到原来的用户。我们的hdfs是没有权限认证的，一开始通过下面代码的方式来实现。

阅读全文 »

初识Scala反射

发表于 2016-04-23 | 分类于程序语言

我们知道，scala编译器会将scala代码编译成JVM字节码，编译过程中会擦除scala特有的一些类型信息，在scala-2.10以前，只能在scala中利用java的反射机制，但是通过java反射机制得到的是只是擦除后的类型信息，并不包括scala的一些特定类型信息。从scala-2.10起，scala实现了自己的反射机制，我们可以通过scala的反射机制得到scala的类型信息。scala反射包括运行时反射和编译时反射，本文主要阐述运行时反射的一些用法，方便scala开发人员参考，具体原理细节请查看官方文档。

阅读全文 »

博客重生

发表于 2016-04-23 | 分类于随笔

之前用wordpress搭建博客，买vps以及域名，自己管理维护主机，写了一段时间博客后，发现主机经常受到一些诸如垃圾邮件的攻击，然后被vps厂商强制关机，要求其开机要经过一系列的邮件申诉，后面机器恢复后，因为内存不够用(也可以说是银子不够)的原因，mysql经常挂，总是要去重启，管理起来特别费心。中途由于一段时间的懒惰，没码字了，vps空间到期忘了续费，机器被停了，数据也被清理了，所有的文章都没来得及备份，想想都特别惋惜，所幸通过外链引用找回部分文章，在这篇文章之前的所有文章都是以前wordpress站点搬过来的。

阅读全文 »

MLlib决策树与集成树

发表于 2016-01-12 | 分类于机器学习

模型简介

决策树是一种常见的分类与回归机器学习算法，由于其模型表达性好，便于理解，并能取得较好的效果，而受到广泛的应用。下图是一个简单的决策树，决策树每个非叶子节点包含一个条件，对于具有连续值的特征，该条件为一个上界，如果实例对应的特征值小于该上界则被划分到左子节点，否则被划分到右子节点，对于具有离散值的特征，该条件为一个子集，如果实例对应的特征值属于该子集则被划分到左子节点，否则被划分到右子节点。如此下去，一个实例从根节点开始，不断地被划分，直到叶子节点。对于分类问题，叶子节点输出其类别，对于回归问题，叶子节点输出其分值或概率。

阅读全文 »

sharkdtu

No pains, no gain.

RSS

weibo github