文章目录
对scratch进行数据分析
策略
一边爬一边改 使用pharo,不要想清楚
拿到数据源再说
2个方向
人
先爬人
连接scratch社区都有哪些人
最多40条(动态)
http://scratch.mit.edu/messages/ajax/user-activity/?user=griffpatch&max=40
设计 单独一个表
看几个例子吧
知乎
github follower flollowing 单页面
https://github.com/chenjiandongx/Github-spider
怎么知道爬取了多少?
关掉重爬?增量爬取怎么办
https://docs.scrapy.org/en/latest/topics/jobs.html 中断继续
scrapy crawl somespider -s JOBDIR=crawls/somespider-1
d=date '+%Y-%m-%d_%H-%M-%S'
scrapy crawl toscrape-css -s JOBDIR=crawls/toscrape-css -o $d.json
t3=date '+%Y-%m-%d_%H-%M-%S'
echo $t3
1 2 |
项目 *工作室 |
参考
https://github.com/facert/awesome-spider 爬虫集合 https://github.com/chenjiandongx/Github-spider github爬虫
教程 中文文档 https://www.osgeo.cn/scrapy/intro/overview.html 英文 https://docs.scrapy.org/
概览
element of ai 数据分析 提供洞见和建议
考虑统一数据源 sqlite(便携)
数据源
https://scratch.mit.edu/statistics/
给出更细致的
规划
阅读对社区的分析文章 知乎 豆瓣 github(最像) 大数据报告。看官方的
对项目内进行分析,这些项目的复杂度。大多数情况不需要进入项目内
工具
Python 爬虫 使用什么工具 爬取json 多次爬取和更新 Md5去重 从 https://scratch.mit.edu/users/griffpatch/ 开始
Pharo 探索式分析 gt 写报告 从Python桥接过来
output 提供咨询 建议 如何运营好社区 洞见
问出有价值问题
对什么结论感兴趣?
一个数据分析程序,提供洞见 社区如何运行?
提供付费服务 有什么何时的入门项目? 为机构推荐项目
为孩子推荐项目 我的孩子如何在社区里玩?跟他相似的人是谁?有相同兴趣的是谁? 一开始能力差不多?之后能力迅速提升 可能感兴趣 复杂度
能帮我诊断下这个孩子的能力吗? 诊断,从社区推荐学习者
推荐一些peer,projects吧
passion-主题 play 项目
分析
Superset 机器学习 聚类
如何分析社区 github的分析 知乎的分析 一些维度
参考一些分析文章 看知乎 DK
如何构建一个健康的社区
以编程猫 网易 scratch为例
对Scratch画像
实体
数据模式
用户之间关系
情感积极 消极
探索式
保存数据库 版本
使用github,存在json
文章作者 种瓜
上次更新 0001-01-01