1 LangChain文档加载模块
1.1 加载本地PDF文件
(1)安装依赖
pip install pypdf -i https://pypi.tuna.tsinghua.edu.cn/simple
(2)代码实现
from langchain_community.document_loaders import PyPDFLoader
from dotenv import load_dotenvload_dotenv()loader = PyPDFLoader("P020230320547157228048.pdf")
pages = loader.load_and_split()print(len(pages))print(f"第0页:\n{pages[0]}") ## 也可通过 pages[0].page_content只获取本页内容
(3)结果如下
1.2 加载在线的PDF文件