为了拿「のぞえり ~Radio Garden~」的配图、也是蛮拼的(≧∇≦)

最近呢,一直在各种回顾ラブライブ的各种掉节操Nico生放和其他番组。另外嘛,我是绘希推(ユメの迷路~ユリの迷路),所以就特别喜欢她们的「のぞえり ~Radio Garden~」。这个节目每次放送之后,在公式的特设网页上会配上当天的图,似乎不是会员的话,是看不到以前的图的。然后呢,我也常常忘记自己去保存图片,所以……

一开始是打算用PHP来做这个的,不过后来觉得太麻烦,毕竟最近考了LPI,就用shell吧,也当是对其中一部分工具的复习吧(≧∇≦)

IMG_1047

 

思路是这样的,先获取网页的HTML代码,然后找到图片对应的地址,最后下载之。

「のぞえり ~Radio Garden~」的公式的特设网页是http://music.animelo.jp/blog/nozoeli

先用Safari打开,看看源代码吧~愉快的复制了网址,按下了return,そして

屏幕快照 2015-01-06 下午1.05.35

 

((((;゚Д゚)))))))
居然"このサイトはお使いの端末に対応しておりません。"

好吧,只能用手机等移动终端访问,没事,一般来说改一改User Agent就行。
于是把Safari的User Agent设置为了"Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53"
刷新!

屏幕快照 2015-01-06 下午1.24.10
OK了,可以看见网页了,赶紧看看源代码~
可以看到,每期节目的配图是放在

屏幕快照 2015-01-06 下午1.25.38

这样一个块里面的,正则提取一下
后面的"/blog/0media/16/20141226-dsc03284a.jpg"这部分就OK了。

于是开始写shell吧♪───O(≧∇≦)O────♪

按照上面的分析,我们需要设定User Agent来获取页面代码,这里用curl就可以达成目的。

curl -A 'Mozilla/5.0(iPhone;CPUiPhoneOS7_0likeMacOSX)AppleWebKit/537.51.1(KHTML,likeGecko)Version/7.0Mobile/11A465Safari/9537.53' http://music.animelo.jp/blog/nozoeli

接下来用grep把含有"background: url"的那一行过滤出来
grep 'background: url'

然后是把"/blog/0media/16/20141226-dsc03284a.jpg"拿出来,这里就用awk吧,以'作为分隔符,打印出完整的URL。
awk -F ' '{print "http://music.animelo.jp"$2}'

最后交给wget就行了
wget $(curl -A 'Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B410 Safari/600.1.4' http://music.animelo.jp/blog/nozoeli | grep 'background: url' | awk -F\' '{print "http://music.animelo.jp" $2}')

自动化下载图片什么的,就靠cron哒~~

Leave a Reply

Your email address will not be published. Required fields are marked *

thirteen + 20 =