我正在使用BeautifulSoup进行网页抓取,并且在使用urlopen时遇到特定类型网站的问题.网站上的每个商品都有其独特的页面,并且商品具有不同的格式(例如:500 mL,1L,2L等).
当我使用Internet浏览器打开产品的URL(www.example.com/product1)时,会看到500 mL格式的图片,有关其的信息(价格,数量,风味等)以及以下内容的列表:此特定项目可用的所有其他格式.如果单击另一种格式(例如1L),则图片和有关该项目的信息将发生变化,但浏览器顶部的URL将保持不变(www.example.com/product1).但是,通过检查页面的HTML代码,我知道所有格式都有其自己的唯一URL(500 mL:www.example.com/product1/123; 1L:www.example.com/product1/456,… ).在Internet浏览器中使用1L格式的唯一URL时,我会自动重定向到www.example.com/product1页面,但是页面上显示的图片和信息与1L格式相对应. HTML代码还包含我需要的有关1L格式的信息.
当我使用urlopen打开这些唯一的URL时,出现了我的问题.
from bs4 import BeautifulSoup
from urllib import urlopen
webpage = urlopen('www.example.com/product1/456')
soup=BeautifulSoup(webpage)
print soup
汤中包含的信息与使用我的Internet浏览器显示的唯一URL的信息不符:www.example.com/product1/456.它为我提供了有关默认情况下在www.example.com/product1上显示的项目格式的信息,该格式始终为500 mL.
有什么方法可以阻止这种重定向,使我可以使用BeautifulSoup捕获唯一URL的HTML代码中包含的信息?