如何处理404在Nokogiri中找不到错误

我正在使用Nokogiri来抓取网页。 很少有urls需要被猜测,并且当它们不存在时返回404没有发现错误。 有没有办法捕捉这个异常?

http://yoursite/page/38475 #=> page number 38475 doesn't exist

我尝试了以下不起作用的内容。

url = "http://yoursite/page/38475"
doc = Nokogiri::HTML(open(url)) do
  begin
    rescue Exception => e
      puts "Try again later"
  end
end

它不起作用,因为你没有拯救部分代码(它是open(url)调用),在发现404状态的情况下引发错误。 以下代码应该可以工作:

url = 'http://yoursite/page/38475'
begin
  file = open(url)
  doc = Nokogiri::HTML(file) do
    # handle doc
  end
rescue OpenURI::HTTPError => e
  if e.message == '404 Not Found'
    # handle 404 error
  else
    raise e
  end
end

顺便说一句,关于拯救Exception :为什么在Ruby中`拯救Exception => e`是一种糟糕的风格?

链接地址: http://www.djcxy.com/p/25859.html

上一篇: How to handle 404 not found errors in Nokogiri

下一篇: rescuing from Mysql2::Error