对scratch进行数据分析

策略

一边爬一边改 使用pharo,不要想清楚

拿到数据源再说

2个方向 人 先爬人 连接scratch社区都有哪些人 最多40条(动态) http://scratch.mit.edu/messages/ajax/user-activity/?user=griffpatch&max=40 设计 单独一个表 看几个例子吧 知乎 github follower flollowing 单页面 https://github.com/chenjiandongx/Github-spider 怎么知道爬取了多少? 关掉重爬?增量爬取怎么办 https://docs.scrapy.org/en/latest/topics/jobs.html 中断继续 scrapy crawl somespider -s JOBDIR=crawls/somespider-1 d=date '+%Y-%m-%d_%H-%M-%S' scrapy crawl toscrape-css -s JOBDIR=crawls/toscrape-css -o $d.json t3=date '+%Y-%m-%d_%H-%M-%S' echo $t3

1
2
项目
*工作室

参考

https://github.com/facert/awesome-spider 爬虫集合 https://github.com/chenjiandongx/Github-spider github爬虫

教程 中文文档 https://www.osgeo.cn/scrapy/intro/overview.html 英文 https://docs.scrapy.org/

概览

element of ai 数据分析 提供洞见和建议

考虑统一数据源 sqlite(便携)

数据源

https://scratch.mit.edu/statistics/

给出更细致的

规划

阅读对社区的分析文章 知乎 豆瓣 github(最像) 大数据报告。看官方的

对项目内进行分析,这些项目的复杂度。大多数情况不需要进入项目内

工具

Python 爬虫 使用什么工具 爬取json 多次爬取和更新 Md5去重 从 https://scratch.mit.edu/users/griffpatch/ 开始

Pharo 探索式分析 gt 写报告 从Python桥接过来

output 提供咨询 建议 如何运营好社区 洞见

问出有价值问题

对什么结论感兴趣?

一个数据分析程序,提供洞见 社区如何运行?

提供付费服务 有什么何时的入门项目? 为机构推荐项目

为孩子推荐项目 我的孩子如何在社区里玩?跟他相似的人是谁?有相同兴趣的是谁? 一开始能力差不多?之后能力迅速提升 可能感兴趣 复杂度

能帮我诊断下这个孩子的能力吗? 诊断,从社区推荐学习者

推荐一些peer,projects吧

passion-主题 play 项目

分析

Superset 机器学习 聚类

如何分析社区 github的分析 知乎的分析 一些维度

参考一些分析文章 看知乎 DK

如何构建一个健康的社区

以编程猫 网易 scratch为例


对Scratch画像

实体

数据模式

用户之间关系

情感积极 消极

探索式

保存数据库 版本

使用github,存在json