使用码栈 爬取 QQ 群成员相关数据 配合 PQ 清洗数据

通过码栈爬取QQ群网站的群成员信息:
file
写入TXT:
file
经过PQ清洗,呈现结果:
file

  • 码栈

  • 第一步:

设置好要打开的QQ群详细信息页面:
file
file

  • 第二步:

获取群成员数量:
file

  • 第三步:

接着插入一个自定义脚本:
由于QQ群网页是下滑网页继续加载群成员信息,由于可视化版没有滑动网页的步骤,所以需要写代码:
file
将下面代码复制进入:

Local $QWQ=Ceiling($rotgcnu / 20)*2
For $Q = 1 To $QWQ Step 1
$value = J_IE_ScrollPage($ycxxuah)
Sleep(600)![file](https://pbihub.cn/uploads/images/201810/22/29/9xXqPKVmTR.gif)
Next

注意:$ycxxuah这个常量是随机生成的,需要同时点击ctrl+shift+p查看代码:
找到第一步打开网页步骤对应的常量,进行替换:
file

  • 第四步:

当全部内容加载完成,一次性获取所有信息:
file

  • 第五步:

写入文件:
file
在桌面新建一个txt文档,将文件路径填入:
匹配类型应该为写入文件,写入内容是上一步获取的群成员信息:
file
最后关闭网页:
file

  • 接着测试一下
    file

测试结果已经写入txt文件中,那么剩下的数据清洗就是PQ的活了:




  • PQ

  • 第一步,将txt文件导入PQ

  • 第二步,先前6行无用数据删除:

file

  • 第三步,进行分组/展开:

虽然可以判断是否为数字进行分组,但是可能会出现QQ名称或群名片为数字的情况
所以判断x序号加1是否等于y,如果等于就说明属于连续序号
file
之后对数据进行拆分,整理,然后展开即可:
file


分享SoulJa/YUKIE的单曲《そばにいるね SoulJa×YUKIE》: http://music.163.com/song/497335/?userid=98574334 (来自@网易云音乐)


Ntt.Docomo