《使用libsvm进行分类预测》的评论

作者：Michelle

Michelle — Mon, 20 Feb 2017 07:38:48 +0000

本人在做毕业设计当中，做的是文本挖掘，主题是对某一商品的评论进行区分垃圾与真实评论，已经利用Python对文本数据进行了文本清洗，去重，压缩，分词，去停用词等操作，并利用Gensim对语料库进行了向量转换，现在有以下几个问题：
1、进行完向量转换后，是否要对原始文本数据进行人工标注（垃圾数据与否：0和1），这样的话，如果数据量很大，那么人工标注不是效率很慢吗？（当然我的数据量在完成数据清洗之后只有900多条了，这里只是产生了一个疑惑）
2、如果标注0和1,数据的格式是怎么样的，我要怎么进行分类器的构建，还有两种数据类型的特征构建？
3、有什么适合此情况的分类算法吗？
本人真的才学疏浅，找了很多资料还是没有弄懂接下来一步该如何进行，跪求楼主回答，谢谢~

作者：Yanjun

Yanjun — Wed, 30 Sep 2015 08:08:38 +0000

这个很正常啊，并不是说每个类别都需要具备全部特征。

作者：刘星宇

刘星宇 — Wed, 30 Sep 2015 02:57:47 +0000

你好，我想问一下，为什么归一化之后，特征会变少了呢？你的初始文本有三个类别，每个类别三个特征，但是归一化之后就变成了两个特征，这是为什么呢？

作者：Yanjun

Yanjun — Tue, 25 Nov 2014 16:16:51 +0000

我建议你看看我的这篇文章吧：http://shiyanjun.cn/archives/548.html

作者：理论

理论 — Tue, 25 Nov 2014 13:09:17 +0000

楼主我最近在用libsvm实现多分类，可是最后只输出一个精确率，我想对每个类别输出精确率如何算呢？