使用libsvm进行分类预测

2013-08-29 13:09:44 Yanjun

使用libsvm，首先需要将实际待分类的内容或数据（训练数据，或预测数据）进行量化，然后通过libsvm提供的功能实现分类和预测。下面介绍使用libsvm的基本步骤。准备训练数据数据格式： <label1> <index1>:<value11> <index2>:<value12>... <label2> <index1>:<value21> <index2>:<value22>... <label3> <index1>:<value31> <index2>:<value32>... ... 每一行，表示以已定义的类别标签，以及属于该标签的各个属性值，每个属性值以“属性索引编号:属性值”的格式。一行内容表示一个类别属性以及与该类别相关的各个属性的值。属性的值，一般可以表示为“该属性隶属于该类别的程度”，越大，表示该属性更能决定属性该类别。上面的数据必须使用数字类型，例如类别，可以通过不同的整数来表示不同的类别。准备的原始训练样本数据存放在文件raw_data.txt中，内容如下所示： 1 1:0.4599 2:0.8718 3:0.1987 2 1:0.9765 2:0.2398 3:0.3999 3 1:0.0988 2:0.2432 3:0

人工智能 libsvm, SVM 评论(5) 阅读(25,863)

MIna框架I/O Filter Chain层设计

2013-08-28 20:04:29 Yanjun

I/O Filter Chain层是介于I/O Service层与I/O Handler层之间的一层，从它的命名上可以看出，这个层可以根据实际应用的需要，设置一组IoFilter来对I/O Service层与I/O Handler层之间传输数据进行过滤，任何需要在这两层之间进行处理的逻辑都可以放到IoFilter中。我们看一下IoFilter的抽象层次设计，如图所示：通过上述类图可见，要实现一个自定义的IoFilter，一般是直接实现IoFilterAdapter类。同时，Mina也给出了几类常用的开发IoFilter的实现类，如下所示： LoggingFilter记录所有事件和请求 ProtocolCodecFilter将到来的ByteBuffer转换成消息对象（POJO） CompressionFilter压缩数据 SSLFilter增加SSL – TLS – StartTLS支持想要实现一个自定义的IoFilter实现类，只需要基于上述给出的几个实现类即可。如果想要实现自己的IoFilter，可以参考如下例子： public class MyFilter extends IoFilterAdapter { @Override public void sessionOpened(NextFilter nextFilter, IoSession session) throws Exception { // Some logic here...

Mina, 开源技术 Mina 评论(1) 阅读(11,529)

MIna框架I/O Service层设计

2013-08-28 19:46:31 Yanjun

Mina从2.0版本以后，它的设计让人感觉到非常的优雅。它对网络应用通信框架的3个层进行了更好的抽象，以及在功能逻辑上的划分，同时又保证了作为一个网络应用通信框架的统一。划分的3个层分别为： I/O Service层 I/O Filter Chain层 I/O Handler层这里，我们重点关注I/O Service层。作为一个基于网络通信的应用，无论是服务器还是客户端角色，都要和网络I/O打交道，比如，服务器端需要创建服务器端Socket，监听指定端口并等待请求的带来，而客户端需要连接到服务器端指定的监听端口，使用网络服务。一般来说，这些I/O操作都比较复杂，而且很难在编码中进行很好地控制，Mina的I/O Service层就是处理这些与实际的网络I/O相关的操作（事件）。我们先看一下，对于服务器端和客户端，I/O Service层是如何设计的。类设计上的关系，作为这一层的最顶层抽象就是IoService接口类，如图所示：通过上图，我们可以看到，IoService抽象的服务（功能）有如下几个：管理IoSession：创建和删除IoSession，探测会话Idle状态 Filter Chain管理：处理过滤器链，允许用户修改过

Mina, 开源技术 Mina 评论(0) 阅读(23,810)

Apache Mina通信框架架构与应用

2013-08-27 20:41:44 Yanjun

Apache Mina Server 是一个网络通信应用框架，也就是说，它主要是对基于 TCP/IP、UDP/IP协议栈的通信框架（当然，也可以提供 JAVA 对象的序列化服务、虚拟机管道通信服务等），Mina 可以帮助我们快速开发高性能、高扩展性的网络通信应用，Mina 提供了事件驱动、异步（Mina 的异步 IO 默认使用的是 JAVA NIO 作为底层支持）操作的编程模型。从官网文档“MINA based Application Architecture”中可以看到Mina作为一个通信层框架，在实际应用所处的位置，如图所示： Mina位于用户应用程序和底层Java网络API（和in-VM通信）之间，我们开发基于Mina的网络应用程序，就无需关心复杂的通信细节。应用整体架构再看一下，Mina提供的基本组件，如图所示：也就是说，无论是客户端还是服务端，使用Mina框架实现通信的逻辑分层在概念上统一的，即包含如下三层： I/O Service – Performs actual I/O I/O Filter Chain – Filters/Transforms bytes into desired Data Structures and vice-versa I/O Handler – Here resides the actual business logic

Mina, 开源技术 Mina 评论(0) 阅读(17,858)

Maven构建应用程序常用配置

2013-08-27 16:11:02 Yanjun

使用Maven来构建应用程序，可以非常方便地管理应用相关的资源。众所周知，应用程序中涉及到的一些依赖关系，如Java应用程序依赖jar文件，如果只是手动找到相应的资源，可能需要花费一些时间。而且，即使已经积累了库文件，在未来应用程序升级以后，还要考虑到依赖库文件的升级情况，再次搜索收集。还有一个问题，对应用程序依赖文件的管理是个非常复杂工作，占用存储空间不说，还可能因为应用之间的版本问题导致依赖冲突。使用Maven的pom模型来构建应用程序，可以更加有效地的管理，而且配置内容非常清晰（有时多了，可能pom文件显得有点臃肿）。下面将常用的Maven配置，整理如下，以备参考。首先，整理一个简单的目录，作为快速查询之用：设置字符集拷贝src/main/resources/资源文件编译代码、编译打包成jar文件构建测试用例配置输出依赖jar文件到指定目录配置指定的repository 将应用及其依赖jar文件打成一个jar文件具体配置的详细内容，如下所示： 1、设置字符集 <properties> <project.build.sourceEncoding>UTF-8</project.b

Java, 开源技术 Maven 评论(1) 阅读(13,487)

HBase-0.90.4集群安装配置

2013-08-24 10:13:54 Yanjun

HBase是Hadoop数据库，能够实现随机、实时读写你的Big Data，它是Google的Bigtable的开源实现，可以参考Bigtable的论文Bigtable: A Distributed Storage System for Structured。HBase的存储模型可以如下三个词来概括：distributed, versioned, column-oriented。HBase并非只能在HDFS文件系统上使用，你可以应用在你的本地文件系统上部署HBase实例来存储数据。准备工作 hbase-0.90.4.tar.gz [http://labs.renren.com/apache-mirror//hbase/stable/hbase-0.90.4.tar.gz] zookeeper-3.3.4.tar.gz 下面介绍Standalone和Distributed安装过程。 Standalone模式这种安装模式，是在你的本地文件系统上安装配置一个HBase实例，安装配置比较简单。首先，要保证你的本地系统能够通过ssh无密码访问，配置如下： ssh-keygen -t dsa cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 检查一下权限：你的~/.ssh目录的权限是否为755，~/.ssh/authorized_keys的权限是否为644，如果不是，执行下面的命令行： chmod 755 ~/.ssh chmod 644 ~/.ssh/authorized_key

HBase, 开源技术 Hadoop/Hive/ZooKeeper, HBase, ZooKeeper 评论(0) 阅读(16,169)

HBase Thrift客户端Java API实践

2013-08-22 23:19:33 Yanjun

HBase的Thrift API定义，可以通过链接 http://svn.apache.org/viewvc/hbase/trunk/hbase-server/src/main/resources/org/apache/hadoop/hbase/thrift/Hbase.thrift?view=markup看到，我们需要安装Thrift编译器，才能生成HBase跨语言的API。首先下载上面链接的内容，保存为Hbase.thrift。然后，执行如下命令，生成不同编程语言的HBase API： [hadoop@master hbase]$ thrift --gen cpp Hbase.thrift [hadoop@master hbase]$ thrift --gen java Hbase.thrift [hadoop@master hbase]$ thrift --gen py Hbase.thrift [hadoop@master hbase]$ thrift --gen perl Hbase.thrift [hadoop@master hbase]$ thrift --gen csharp Hbase.thrift [hadoop@master hbase]$ thrift --gen php Hbase.thrift [hadoop@master hbase]$ thrift --gen js Hbase.thrift [hadoop@master hbase]$ thrift --gen go Hbase.thrift [hadoop@master hbase]$ thrift --gen erl Hbase.thrift [hadoop@master hbase]$ thrift --gen delphi Hbase.thrift [hadoop@master hbase]$ thrift --

HBase, 开源技术 HBase, Thrift 评论(3) 阅读(18,950)

CentOS安装和使用Thrift

2013-08-22 23:08:23 Yanjun

Thrift是Apache的一个开源的跨语言服务开发框架，它提供了一个代码生成引擎来构建服务，支持C++，Java，Python，PHP，Ruby，Erlang，Perl，Haskell，C#，Cocoa，JavaScript，Node.js，Smalltalk，OCaml，Delphi等多种编程语言。一般来说，使用Thrift来开发应用程序，主要建立在两种场景下：第一，在我们开发过程中，一个比较大的项目需要多个团队进行协作，而每个团队的成员在编程技术方面的技能可能不一定相同，为了实现这种跨语言的开发氛围，使用Thrift来构建服务第二，企业之间合作，在业务上不可避免出现跨语言的编程环境，使用Thrift可以达到类似Web Services的跨平台的特性安装配置Thrift Thrift的编译器使用C++编写的，在安装编译器之前，首先应该保证操作系统基本环境支持C++的编译，安装相关依赖的软件包，如下所示 sudo yum install automake libtool flex bison pkgconfig gcc-c++ boost-devel libevent-devel zlib-devel python-devel ruby-devel openssl-devel 下载Thrift的软件包，并解压缩： wget http://mirrors.cnnic.cn/apache/thri

Dubbo/Akka/Thrift, 开源技术 Thrift 评论(4) 阅读(41,218)

SolrCloud 4.3.1+Tomcat 7安装配置实践

2013-08-22 22:54:58 Yanjun

我们使用Solr Replication可以实现Solr服务器的可用性，即使某一个索引副本由于磁盘介质故障或者误操作删除等，其他的多个复制副本仍然可以提供服务。如果只是单纯的基于Solr Replication技术，只能对一个索引进行管理维护，当索引数据达到一定规模，搜索的性能成了瓶颈，除了重新规划设计索引，实现逻辑划分以外，没有更好地方法实现查询服务器的可扩展性。 SolrCloud就是为了解决这个问题而提出的。SolrCloud通过ZooKeeper集群来进行协调，使一个索引（SolrCloud中叫做一个Collection）进行分片，各个分片可以分布在不同的物理节点上，而且，对于同一个Collection的多个分片（Shard）之间没有交集，亦即，多个物理分片组成一个完成的索引Collection。为了保证分片数据的可用性，SolrCloud自动支持Solr Replication，可以同时对分片进行复制，冗余存储。下面，我们基于Solr最新的4.3.1版本进行安装配置SolrCloud集群，通过实践来实现索引数据的分布存储和检索。准备工作服务器信息三台服务器： 10.95.3.61 master 10.95.3.62 slave1 10

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch, SolrCloud, Tomcat 评论(1) 阅读(38,658)

Ubuntu系统安装配置Redis

2013-08-21 23:06:35 Yanjun

Redis是一个NoSQL数据库，在数据需要频繁更新，并且数据的访问热点范围比较广的应用场景下，Redis的效率很不错。下面介绍Redis的安装过程，如下面的步骤所示。 1、下载安装 wget http://redis.googlecode.com/files/redis-2.2.13.tar.gz tar -zxf redis-2.2.13.tar.gz cd redis-2.2.13 make sudo make install 这时Redis 的可执行文件被放到了/usr/local/bin。 2、下载配置文件和init启动脚本 wget https://github.com/ijonas/dotfiles/raw/master/etc/init.d/redis-server wget https://github.com/ijonas/dotfiles/raw/master/etc/redis.conf sudo mv redis-server /etc/init.d/redis-server sudo chmod +x /etc/init.d/redis-server sudo mv redis.conf /etc/redis.conf 3、初始化用户和日志路径第一次启动Redis前，建议为Redis单独建立一个用户，并新建data和日志文件夹。 sudo useradd redis sudo mkdir -p /var/lib/redis sudo mkdir -p /var/log/redis sudo chown redis.redis /var/lib/redis sudo chown redis.redis /var/log/redi

Redis, 数据库 Redis 评论(0) 阅读(15,510)

Solr实现SQL的查询与统计

2013-08-21 22:51:38 Yanjun

Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala，只要熟悉SQL，就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。下面，我们设计一个表，通过该表中的数据，来将SQL查询与统计的语句，使用Solr查询的方式来与SQL查询对应。这个翻译的过程，是非常有趣的，你可以看到Solr一些很不错的功能。用来示例的表结构设计，如图所示：下面，我们通过给出一些SQL查询统计语句，然后对应翻译成Solr查询语句，然后对比结果。查询对比条件组合查询 SQL查询语句： SELECT log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type FROM v_i_event WHERE prov_id = 1 AND net_type = 1 AND area_id = 10304 AND time_type = 1 AND time_id >= 20130801 AND time_id <= 20130815 ORDER BY log_id LIMIT 10; 查询结果，如图所示： Solr查询URL： http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,id

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch, SQL 评论(0) 阅读(19,596)

Ubuntu系统下Hadoop 2.0.4集群安装配置

2013-08-21 22:15:18 Yanjun

Hadoop 2已经将HDFS和YARN分开管理，这样分开管理，可以是HDFS更方便地进行HA或Federation，实现HDFS的线性扩展（Scale out），从而保证HDFS集群的高可用性。从另一个方面们来说，HDFS可以作为一个通用的分布式存储系统，而为第三方的分布式计算框架提供方便，就像类似YARN的计算框架，其他的如，Spark等等。YARN就是MapReduce V2，将原来Hadoop 1.x中的JobTracker拆分为两部分：一部分是负责资源的管理（Resource Manager），另一部分负责任务的调度（Scheduler）。安装配置 1、目录结构下载hadoop-2.0.4软件包，解压缩后，可以看到如下目录结构： shirdrn@master:~/cloud/hadoop2/hadoop-2.0.4-alpha$ ls bin etc include lib libexec LICENSE.txt logs NOTICE.txt README.txt sbin share etc目录 HDFS和YARN的配置文件，都存放在etc/hadoop目录下面，可以多各个文件进行配置： shirdrn@master:~/cloud/hadoop2/hadoop-2.0.4-alpha$ ls etc/hadoop/ capacity-scheduler.xml hadoop-metrics.properties httpfs-site.xml s

Hadoop/Hive/ZooKeeper, 开源技术 Hadoop/Hive/ZooKeeper, Hadoop2 评论(4) 阅读(19,457)

第 14 页, 共 15 页« 首页 ‹ 上页 10 11 12 131415 下页 ›

简单之美

简单之美，难得简单，享受简单的唯美。

按作者浏览文章: Yanjun