所以你不要傻傻盯着女神的朋友圈发呆啦!本文教你如何用 Python 自动通知女神微博情绪变化,从今天开始做一个贴心小棉袄。
为了及时获取这些消息,三步可以实现:
1、定时自动爬取微博内容
2、微博内容的情绪分析
3、邮件自动提醒
一、微 博 内 容 获 取
首先是一些常规操作:你需要注册一个微博账户,找到你微博账户的 Cookie
然后找到你需要关注的微博用户的 id,下面以李荣浩为例:
或者直接去用户主页查看,进入指定用户主页,如李荣浩的主页 :https://m.weibo.cn/u/1739046981?uid=1739046981&luicode=10000011&lfid=231093_-_selffollowed其中 1739046981 就是 uid。先根据这些信息设置好自己的账号,由于最新的微博内容肯定在第一页,设置好首页微博内容的 url
# 改成自己的user_id和cookie user_id = YOUR_ID cookie = {"Cookie": "YOUR_COOKIE"} # url url = 'http://weibo.cn/%d/profile?page=1'%user_id # 获取初始url页面html内容,获取user_id和cookie(在返回的response header中) html = requests.get(url, cookies = cookie).content print ('user_id和cookie读入成功')
有了这些信息以后,我们就可以爬取微博内容啦,这里需要注意的是我们需要加一个第一条微博的判断。
#根据用户uid获取该用户第一页的微博消息 page_num = 1 nickname = None weibo = None try: json = r.get( ('https://m.weibo.cn/api/container/getIndex?' 'is_search[]=0&' 'visible[]=0&' 'is_all[]=1&' 'is_tag[]=0&' 'profile_ftype[]=1&' 'page={0}&' 'jumpfrom=weibocom&' 'sudaref=weibo.com&' 'type=uid&' 'value={1}&' 'containerid=107603{1}').format(page_num, uid), verify=False, ).json() except: return None, None if json['ok'] == 0: print('sth wrong') return None, None else: for card in json['cards']: if card['card_type'] == 9: weibo = [ card['mblog']['created_at'], BeautifulSoup( card['mblog']['text'], 'lxml' ).text.replace(' \u200b\u200b\u200b', ''), *get_comments_from_one_weibo( card['mblog']['id']), ]
这样的话我们就可以获取到女神的最新微博啦~下面要做的就是根据获取到的微博数据来分析情感内容。
二、微 博 内 容 情 感
这部分仅对文本内容有效,如果是图片内容就直接通知你内容不做情感分析。如果需要计算中文文本内容的情绪分,主要是三步:1、情感字典及对应的分数2、数据的分词处理3、构建情绪分计算逻辑这里主要介绍一下情绪分的计算逻辑,情感词典和完整的实现逻辑后台回复「微博通知」获取,下次再专门写一篇针对文本情绪评分的内容。
定义一个情感词语组:
两情感词之间的所有否定词和程度副词与这两情感词中的后一情感词构成一个情感词组,即 notWords + degreeWords + sentiWords,
例如不是很开心,其中不是为否定词,很为程度副词,开心为情感词,那么这个情感词语组的分数为:finalSentiScore = (-1) ^ 1 * 1.25 * 3.546其中1指的是一个否定词,1.25 是程度副词的数值,3.546 是开心的情感分数。伪代码如下:finalSentiScore = (-1) ^ (num of notWords) * degreeNum * sentiScorefinalScore = sum(finalSentiScore)具体实现逻辑如下:
def scoreSent(senWord, notWord, degreeWord, segResult): W = 1 score = 0 # 存所有情感词的位置的列表 senLoc = senWord.keys() notLoc = notWord.keys() degreeLoc = degreeWord.keys() senloc = -1 # notloc = -1 # degreeloc = -1 # 遍历句中所有单词segResult,i为单词绝对位置 for i in range(0, len(segResult)): # 如果该词为情感词 if i in senLoc: # loc为情感词位置列表的序号 senloc += 1 # 直接添加该情感词分数 score += W * float(senWord[i]) # print "score = %f" % score if senloc < len(senLoc) - 1: # 判断该情感词与下一情感词之间是否有否定词或程度副词 # j为绝对位置 for j in range(senLoc[senloc], senLoc[senloc + 1]): # 如果有否定词 if j in notLoc: W *= -1 # 如果有程度副词 elif j in degreeLoc: W *= float(degreeWord[j]) # i定位至下一个情感词 if senloc < len(senLoc) - 1: i = senLoc[senloc + 1] return score
通过这个计算逻辑最终输出整条微博的情绪评分,在做这个最重要的是要有好用的语料库,定义好正向情感词和负向情感词。
基础情感词典已经有整理好了的情感词典。使用的是大连理工大学的情感词汇本体库,停用词表使用哈工大的停用词表。
三、邮 件 自 动 提 醒
当我们获取到新的微博内容时,就需要将消息推送到我们的邮箱,这时候,我们需要添加判定条件,判断是否执行邮件提醒。这个判断条件与爬取最新微博的判断设置成一致。python 发邮件需要掌握两个模块的用法,smtplib 和 email,这俩模块是 python 自带的,只需 import 即可使用。smtplib 模块主要负责发送邮件,email 模块主要负责构造邮件。smtplib 模块主要负责发送邮件:是一个发送邮件的动作,连接邮箱服务器,登录邮箱,发送邮件(有发件人,收信人,邮件内容)。email 模块主要负责构造邮件:指的是邮箱页面显示的一些构造,如发件人,收件人,主题,正文,附件等。导入我们需要用到的包
from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.mime.image import MIMEImage import smtplib msg = MIMEMultipart()
在邮件中插入微博正文,同时将情绪分值添加到邮件正文里:
##在邮件中插入文本信息 df_text="Hi!\n你的女神新发了一条微博,情绪分值只有 %s \n快去看看吧!"% score msgtext = MIMEText(df_text, 'plain', 'utf-8') msg.attach(msgtext)
剩下的就是设置一些邮件参数来发送邮件:
#Python学习群592539176 #设置邮件信息常量 email_host= '' # 服务器地址 sender = '' # 发件人 password ='' # 密码,如果是授权码就填授权码 receiver = '' # 收件人
发送邮件:
try: smtp = smtplib.SMTP(host=email_host) smtp.connect(email_host,port) smtp.starttls() smtp.login(sender, password) smtp.sendmail(sender, receiver.split(',') , msg.as_string()) smtp.quit() print('发送成功') except Exception: print('发送失败')
具体邮件发送参数说明如下:
四、效 果 展 示
运行程序结果如下:
如果你觉得文章还不错,请大家点赞分享下。你的肯定是我最大的鼓励和支持。