December | 2017

既然想到要写点什么东西的话，那么就来试试网易云音乐吧w

那么第一步，我们要有数据才行，网易也当然不会公开自己的数据库啦，于是我们得用爬虫才行～

Python 语言里可以选择的爬虫还是不少，比如 Scrapy，然后在一开始开开心心的选择了 scrapy，之后发现网易云音乐对于 IP 的访问频率有限制，一旦超过限制，就会触发网易云的保护机制，暂时进入网易云黑名单，此时再访问的话，服务器返回的就都是 HTTP 503 - Service Unavailable。

解决方法说简单也简单，说麻烦也麻烦。简单在于，我的网络是电信的，于是只要重新拨号就能拿到新的公网 IP，写重新拨号的脚本也很简单。而稍有麻烦的地方在于，scrapy 是多线程的，在自己处理网易云返回 503 的时候，要注意重新拨号的脚本只需要执行一次。

如下图所示，假设我们的爬虫是 4 个线程，线程 2 在 t₁ 时刻访问时，遇到了 HTTP 503 之后，它就会进入我们处理网易云音乐 HTTP 503 的 handler。而对于其他线程来说，如果在 t₁ 时刻之前就开始访问了的话，那么是没有问题的，比如线程 1；如果是在 t₁ 时刻之后的话，比如线程 3、4，那么它们也会遇到 HTTP 503，但是这个时候，线程 3、4 就不用再走一次 handler，而是等待然后重试就可以。

HTTP 503 Handler

但是也不用这么费劲，既然网易云音乐有频率限制，使用多线程的话，反而会更快的触发网易云的黑名单机制，因此，顺便作为重造轮子，我们来自己写个爬虫吧／

Continue reading →

Cocoa

Monthly Archives: December 2017

探索网易云音乐——用 Python 写个爬虫吧w

いまが最高！