紫影基地

 找回密码
 立即注册
查看: 290|回复: 0

Python wordcloud生成词云图

[复制链接]
阅读字号:

598

主题

635

帖子

9069

积分

审核员

Rank: 7Rank: 7Rank: 7

积分
9069
发表于 2021-10-28 15:33:34 | 显示全部楼层 |阅读模式
      今天测试python库,词云(wordcloud)  。因为以前看到新闻里面的统计词语的图形,觉得对于掌握核心观点来说颇有意义。在以后遇到大量的文章,又不能一一研读时可以使用wordcloud来做个词云图,快速掌握核心思想 。
    题外话,今天笔者更新文章达到32万字了,算是一点点小成绩了。那么在这么漫长的码字中,其实笔者自己都不知道关注的点是怎么样的,那么就可以wordcloud来完成32万字分析,生成词云图,了解一下自己。这个得等到笔者空闲后来做个词云图(简书可以打包下载文章,到那时是html文件),也做个自我总结!
1、安装worldcloud库失败的问题
        在windows下使用pip install wordcloud安装wordcloud会提示错误:“ERROR: Failed building wheel for wordcloud” ,笔者以为是源的问题,更换到清华源后 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordcloud 情况依旧。搜索一番才知道只能使用源程序.whl文件安装 。   
    笔者在Python Extension Packages for Windows - Christoph Gohlke (uci.edu) 上面下载对应的whl文件后使用源程序安装成功。后来想起以前笔者在windows下安装mysql库时也遇到这个问题,也是使用源程序安装才成功。
153805kidcslbc6sswwsiw.png
2、命令行wordcloud_cli
    查看pypi网站关于worldcloud的说明,可以在命令行直接指定文本文件以及输出词云图片。在Linux环境中,可以直接使用pdftotext来指定pdf文件 。
153806ip9ipn7a59b44sba.png
    笔者下载了2021工作报告后,使用 wordcloud_cli --text 2021工作报告.txt --imagefile wordcloud.png 来生成词云图,但是发现不支持中文,全部是显示方框 。查看wordcloud_cli 的使用方法中,需要指定字体格式,在上面的命令后面添加--fontfile msyh.ttc 后就可以了 。最终生成的词云图如下 :
153806ezr9kg94o0z05r9p.png
3、脚本文件import wordcloud   
    在脚本中使用worldcloud那么就更加灵活了。笔者以前使用过jieba模块来分词-Anaconda实践与图像识别 ,那么在这里就可以结合jieba来更加精准的完成词语识别。
153807xyygdry2lu9525h2.png
        最终生成的词云图如下 ,比命令行wordcloud_cli 更加清晰好看 。
153808fsvedemd9zz4sedm.png
    结合matplotlib 可以生成不同形状更加意象的词云图,这个在wordcloud的官网上有很多示例,这里就不再阐述了。在实际运用中,文件大多是都是微软的word文件,那么就需要python-docx模块处理word文档。

来源:https://www.jianshu.com/p/b225d19d197e
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
天之所衡,道之所倚
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|紫影基地

GMT+8, 2025-1-12 11:57 , Processed in 0.090543 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表