为了拿「のぞえり ~Radio Garden~」的配图、也是蛮拼的（≧∇≦）

最近呢，一直在各种回顾ラブライブ的各种~~掉节操~~Nico生放和其他番组。另外嘛，我是绘希推（ユメの迷路~ユリの迷路），所以就特别喜欢她们的「のぞえり ~Radio Garden~」。这个节目每次放送之后，在公式的特设网页上会配上当天的图，似乎不是会员的话，是看不到以前的图的。然后呢，我也常常忘记自己去保存图片，所以……

一开始是打算用PHP来做这个的，不过后来觉得太麻烦，毕竟最近考了LPI，就用shell吧，也当是对其中一部分工具的复习吧（≧∇≦）

思路是这样的，先获取网页的HTML代码，然后找到图片对应的地址，最后下载之。

「のぞえり ~Radio Garden~」的公式的特设网页是http://music.animelo.jp/blog/nozoeli

先用Safari打开，看看源代码吧～愉快的复制了网址，按下了return，そして

((((；ﾟДﾟ)))))))
居然"このサイトはお使いの端末に対応しておりません。"

好吧，只能用手机等移动终端访问，没事，一般来说改一改User Agent就行。
于是把Safari的User Agent设置为了"Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53"
刷新！

OK了，可以看见网页了，赶紧看看源代码～
可以看到，每期节目的配图是放在

这样一个块里面的，正则提取一下
后面的"/blog/0media/16/20141226-dsc03284a.jpg"这部分就OK了。

于是开始写shell吧♪───Ｏ（≧∇≦）Ｏ────♪

按照上面的分析，我们需要设定User Agent来获取页面代码，这里用curl就可以达成目的。

curl -A 'Mozilla/5.0(iPhone;CPUiPhoneOS7_0likeMacOSX)AppleWebKit/537.51.1(KHTML,likeGecko)Version/7.0Mobile/11A465Safari/9537.53' http://music.animelo.jp/blog/nozoeli

接下来用grep把含有"background: url"的那一行过滤出来
grep 'background: url'

然后是把"/blog/0media/16/20141226-dsc03284a.jpg"拿出来，这里就用awk吧，以'作为分隔符，打印出完整的URL。
awk -F ' '{print "http://music.animelo.jp"$2}'

最后交给wget就行了
wget $(curl -A 'Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B410 Safari/600.1.4' http://music.animelo.jp/blog/nozoeli | grep 'background: url' | awk -F\' '{print "http://music.animelo.jp" $2}')

自动化下载图片什么的，就靠cron哒～～

Cocoa

为了拿「のぞえり ~Radio Garden~」的配图、也是蛮拼的（≧∇≦）

Leave a Reply Cancel reply

いまが最高！