百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

中文文本分词:结巴分词的应用与实现

cac55 2025-01-14 11:04 8 浏览 0 评论

3.2 中文文本分割

本文采用jieba分词对正反两类语料进行分词。注意在执行代码前需要手动将txt源文件转为utf-8格式,否则会报中文编码错误。分词前需要去除文本中的数字、字母、特殊符号。这可以使用内置的和re模块来实现,其中模块用于处理字符串操作,re模块用于正则表达式处理。

具体实现代码如下:

--Jieba分词代码

处理完成后得到.txt、.txt两个txt文件,分别存储正反两部分语料切分的结果,切分结果截图如下:

分词结果截图

3.3 删除停用词

分词完成后,就可以读取停用词表中的停用词,并匹配分词后的正反面语料,去除停用词。去除停用词的步骤很简单,主要有两步:

具体实现代码如下:

--删除停用词代码

如代码所示,停用词表的获取采用了独特的广播形式,一行代码即可完成:

stopkey = [w.strip() for w in codecs.open('data\stopWord.txt', 'r', encoding='utf-8').readlines()]

读出的每个停用词都要进行剥离,即w.strip(),因为读出的停用词中还含有换行符和制表符,不处理的话会匹配不上。代码执行后会得到d.txt和d.txt两个txt文件。

由于去停用词这一步骤是在分句之后执行的,因此通常会与分句操作在同一个代码段中进行,即在分句操作完成后直接调用去停用词函数,得到去停用词后的结果再写入结果文件中。本文将两者分离为两个代码文件,以便于理解步骤,大家可以根据需要进行调整。

3.4 获取特征词向量

根据以上步骤,我们得到了正反两部分语料的特征词文本。模型的输入必须是数值数据,所以需要将每个由词组成的句子转换成数值向量。常见的转换算法有Bag of Words(BOW)、TF-IDF等。本文采用词向量模型将语料转换成词向量。

由于特征词向量的提取是基于训练好的词向量模型,而Wiki中文语料库是公认的大型中文语料库,因此本文打算从Wiki中文语料库生成的词向量中提取该语料库的特征词向量。Wiki中文语料库的模型训练在之前的一篇文章《利用Wiki中文语料库的模型构建》中有详细介绍,这里不再赘述。也就是说,本文从文章最后得到的wiki.zh.text中提取特征词向量作为模型的输入。

获取特征词向量的主要步骤如下:

主要代码如下图所示:

--获取词向量代码

代码执行后得到一个.csv文件,第一列为类别对应的值(1-pos,0-neg),第二列及以下为数值向量,每行代表一条评论,结果部分截图如下:

词向量截图

3.5 降维

该模型设置为维度400进行训练,得到的词向量也是400维,本文采用PCA算法对结果进行降维,具体实现代码如下:

--PCA降维代码

运行代码,从结果图中我们可以看到,前100维已经能够很好的包含大部分原始数据,因此我们选取前100维作为模型的输入。

PCA维度解释结果图

4 分类模型构建

本文采用支持向量机(SVM)作为本次实验的中文文本分类模型,其他分类模型采用相同的分析过程,这里不再赘述。

支持向量机(SVM)是一种有监督的机器学习模型。本文首先采用经典机器学习算法SVM作为分类器算法,通过计算测试集的预测准确率和ROC曲线来验证分类器的有效性。一般来说,ROC曲线面积(AUC)越大,模型性能越好。

首先采用SVM作为分类器算法,然后利用库构建ROC曲线,具体代码如下:

--SVM代码

运行代码,得到Test:0.88,即本次实验测试集的预测准确率为88%,ROC曲线如下图所示。

ROC曲线

至此,使用对酒店评论进行中文情感极性分析的流程和方法就完整介绍了,代码和数据已经上传到我的仓库,data文件夹里面有停用词列表.txt和2000个测试集,也可以使用其他分类模型进行分类,欢迎小伙伴们批评指正,共同学习!

相关推荐

QQ表情大图(QQ表情大图怎么发)

爷青回 | QQ经典老头像(爷青回这个梗出自哪里)

点个关注不迷路记得点击上方关注我呦点击表情包长按可保存至手机表情包素材来源于网络,仅供分享哦拿完图记得吱一声点击下方分享、在看让更多人看到...

史上最全QQ官方经典头像全面翻新,不光高清还会动

每当看到上面这些头像,总能想起那些年的"轻舞飞扬","缘分天空","追风少年",这些已经模糊的头像给我们留下了太深的印象。这次为了纪念QQ20周年,腾讯官方整合了早期的105个经典头像,进行了全面翻...

QQ最全表情含义图解意思(qq表情含义图解最新 新版 文字)

QQ都不陌生吧!对QQ的表情符号含义你了解多少呢?在本文中最全图解233个表情所表达的含义,供有需人享用。用过QQ的人都晓得它的创始人是马化腾。QQ于1999年2月10日正式推出。QQ是腾讯公司开发的...

海联真人版QQ经典表情(海联真人版qq经典表情在哪)

海联版傲娇的说声“耶”狂拽炫酷就是我淑女应该轻言细语萌萌哒的娇羞哎哟喂小丫头片子机智如我吓死宝宝了欧巴卡几嘛~今天天气好晴朗怎么样?是不是很有趣呢拿起手机给自己拍几张萌萌哒的美照吧...

QQ音乐·音乐灵感独家对话金曲奖「最佳单曲制作人奖」得主JADE

JADE-AllRightJADE-差-点JADE-Goodbye,GoodbyeJADE-IAmLovefeat.乔瑟夫Chillseph下面请听本期灵感电台节目:本期博客...

亿万富豪爱泼斯坦狱中“自杀”,他背后的神秘女人出现在洛杉矶快餐店

爱泼斯坦在狱中离奇“自杀”,但他身负同谋指控的前女友、英国社交名媛希莱恩·麦克斯维尔(GhislaineMaxwell),却意外地出现在了洛杉矶街头平民快餐店,边啃着汉堡,咽着薯条,嘬着奶昔,边埋头...

扛起星战大旗的你们 觉得星战女需要换一身衣裳吗?

马上进入2016年,除了各种总结盘点以外,2016年的新看点也是需要科普一下了。目前最令人期待的应该就是《星球大战》回归了!《StarWars:原力觉醒》1月10日上映,博主不是电影评论员,所以不会...

和人对话的时候,我,最怕的就是,看到了自己内心的惶恐和脆弱

IWannaBeYourSlave(LiveFromGlobalCitizenLive2021),Maneskin很多时候,哪怕最甘于寂寞的人,也需要和人发生关联,需要和这个世界沟...

2024年度串烧完整版(搞笑失败尴尬丢人版)来了

一首APT的时间带你回顾你的2024年年度歌单。·1.《免我蹉跎苦》黄龄。·2.《红昭愿》音阙诗听。·3.《苹果香》狼戈。·4.《免我蹉跎苦》黄龄。·5.《红昭愿》音阙诗听。·6.《苹果香》狼戈。·7...

一课译词:打工人(打工人的翻译)

下午好,各位打工人!近日,“打工人”爆红网络,受到各行各业年轻人的追捧,但这词到底说的是个啥?“打工人”是那些依靠体力或技术的劳动者的统称。除了赚钱这个最大的目标,别的啥也不想;他们意志坚定,也不会迟...

初级词汇题(一)柏拉图指出不是每个孩子都适合上学,你赞成吗?

初级词汇题(一)柏拉图在《理想国》中指出不是每个孩子都适合上学,你赞成吗?今天分享的题目是我基于英文原著改编的初级词汇题A开头的第81道题。背景知识拓展:什么是nativist(先天论者)?什么是哲学...

治愈系英文:每个说不想恋爱的人,心里都装着一个无法拥有的人

Therearesomanypeopleouttherewhowilltellyouthatyoucan't.Whatyou'vegottodoisturna...

首首经典!意大利流行乐队Maneskin作品I WANNA BE YOUR SLAVE

手机点击试听(上边)Maneskin是一支来自罗马的意大利流行摇滚乐队,由主唱DamianoDavid、贝斯手VictoriaDeAngelis、吉他手ThomasRaggi和鼓手...

国家电网新一代电子商务平台投标文件双层PDF制作最全教程

投标知识在招投标过程中,我们经常碰见有些文件要求制成双层PDF格式,那么双层PDF是什么呢?怎么制作呢?今天就给大家普及下。定义双层PDF双层PDF格式文件是一种具有多层结构的PDF格式文件,是PD...

取消回复欢迎 发表评论: