抓下全唐诗!!
Wednesday, May 10, 2006 4:16:23 AM
昨天晚上在找一首唐诗,于是就跑到了这个地方
发现他简洁的不得了,干吗不把他拿下来呢,免得以后还得再找
成了自己的多方便啊,于是写了下面的东西,因为是自己用的也没太在意错误检查
如果有谁使用出错的话在第几张出错把那个 i 改一下继续运行……
谁让自己学艺不精,sed,awk都用不好,这是vi还行
不过还是挺麻烦的,先截个图!
发现他简洁的不得了,干吗不把他拿下来呢,免得以后还得再找
成了自己的多方便啊,于是写了下面的东西,因为是自己用的也没太在意错误检查
如果有谁使用出错的话在第几张出错把那个 i 改一下继续运行……
#!/usr/bin/env python因为下载下来后格式不是很好,我正在用vi整理
import re,urllib def write_in_file( filename, content ): file = open( filename, 'w' ) file.write( content ) file.close() def parse( i, url ): page = urllib.urlopen( url ) tmp = page.read() page.close() content = re.sub('<(.*?)>', '', tmp ) content = re.sub('\n{3}', '', content ) filename = 'tangshi%03d' % i write_in_file( filename, unicode(content, 'GB18030').encode('utf-8') ) print url + '\tSuccess'
def start_down(): c_url = http://www.lingshidao.com/gushi/tangshi/ i = 1
while i <= 900: args = 'qts_%04d.htm' % i f_url = c_url + args parse(i, f_url) i = i + 1
if __name__ == "__main__": start_down()
谁让自己学艺不精,sed,awk都用不好,这是vi还行
不过还是挺麻烦的,先截个图!






