<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	
	>
<channel>
	<title>《使用libsvm进行分类预测》的评论</title>
	<atom:link href="http://shiyanjun.cn/archives/220.html/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn/archives/220.html</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 19 Feb 2025 08:08:30 +0000</lastBuildDate>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>作者：Michelle</title>
		<link>http://shiyanjun.cn/archives/220.html#comment-58249</link>
		<dc:creator><![CDATA[Michelle]]></dc:creator>
		<pubDate>Mon, 20 Feb 2017 07:38:48 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=220#comment-58249</guid>
		<description><![CDATA[本人在做毕业设计当中，做的是文本挖掘，主题是对某一商品的评论进行区分垃圾与真实评论，已经利用Python对文本数据进行了文本清洗，去重，压缩，分词，去停用词等操作，并利用Gensim对语料库进行了向量转换，现在有以下几个问题：
1、进行完向量转换后，是否要对原始文本数据进行人工标注（垃圾数据与否：0和1），这样的话，如果数据量很大，那么人工标注不是效率很慢吗？（当然我的数据量在完成数据清洗之后只有900多条了，这里只是产生了一个疑惑）
2、如果标注0和1,数据的格式是怎么样的，我要怎么进行分类器的构建，还有两种数据类型的特征构建？
3、有什么适合此情况的分类算法吗？
本人真的才学疏浅，找了很多资料还是没有弄懂接下来一步该如何进行，跪求楼主回答，谢谢~]]></description>
		<content:encoded><![CDATA[<p>本人在做毕业设计当中，做的是文本挖掘，主题是对某一商品的评论进行区分垃圾与真实评论，已经利用Python对文本数据进行了文本清洗，去重，压缩，分词，去停用词等操作，并利用Gensim对语料库进行了向量转换，现在有以下几个问题：<br />
1、进行完向量转换后，是否要对原始文本数据进行人工标注（垃圾数据与否：0和1），这样的话，如果数据量很大，那么人工标注不是效率很慢吗？（当然我的数据量在完成数据清洗之后只有900多条了，这里只是产生了一个疑惑）<br />
2、如果标注0和1,数据的格式是怎么样的，我要怎么进行分类器的构建，还有两种数据类型的特征构建？<br />
3、有什么适合此情况的分类算法吗？<br />
本人真的才学疏浅，找了很多资料还是没有弄懂接下来一步该如何进行，跪求楼主回答，谢谢~</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/220.html#comment-56174</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Wed, 30 Sep 2015 08:08:38 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=220#comment-56174</guid>
		<description><![CDATA[这个很正常啊，并不是说每个类别都需要具备全部特征。]]></description>
		<content:encoded><![CDATA[<p>这个很正常啊，并不是说每个类别都需要具备全部特征。</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：刘星宇</title>
		<link>http://shiyanjun.cn/archives/220.html#comment-56172</link>
		<dc:creator><![CDATA[刘星宇]]></dc:creator>
		<pubDate>Wed, 30 Sep 2015 02:57:47 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=220#comment-56172</guid>
		<description><![CDATA[你好，我想问一下，为什么归一化之后，特征会变少了呢？你的初始文本有三个类别，每个类别三个特征，但是归一化之后就变成了两个特征，这是为什么呢？]]></description>
		<content:encoded><![CDATA[<p>你好，我想问一下，为什么归一化之后，特征会变少了呢？你的初始文本有三个类别，每个类别三个特征，但是归一化之后就变成了两个特征，这是为什么呢？</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：Yanjun</title>
		<link>http://shiyanjun.cn/archives/220.html#comment-39985</link>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
		<pubDate>Tue, 25 Nov 2014 16:16:51 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=220#comment-39985</guid>
		<description><![CDATA[我建议你看看我的这篇文章吧：http://shiyanjun.cn/archives/548.html]]></description>
		<content:encoded><![CDATA[<p>我建议你看看我的这篇文章吧：http://shiyanjun.cn/archives/548.html</p>
]]></content:encoded>
	</item>
	<item>
		<title>作者：理论</title>
		<link>http://shiyanjun.cn/archives/220.html#comment-39920</link>
		<dc:creator><![CDATA[理论]]></dc:creator>
		<pubDate>Tue, 25 Nov 2014 13:09:17 +0000</pubDate>
		<guid isPermaLink="false">http://shiyanjun.cn/?p=220#comment-39920</guid>
		<description><![CDATA[楼主我最近在用libsvm实现多分类，可是最后只输出一个精确率，我想对每个类别输出精确率如何算呢？]]></description>
		<content:encoded><![CDATA[<p>楼主我最近在用libsvm实现多分类，可是最后只输出一个精确率，我想对每个类别输出精确率如何算呢？</p>
]]></content:encoded>
	</item>
</channel>
</rss>
