Проблема с загрузкой нескольких PDF-файлов

После запуска следующего кода я не могу открыть загруженный PDF-файл. Несмотря на то, что код выполнился успешно, загруженные PDF-файлы повреждены.

Сообщение об ошибке моего компьютера

Невозможно открыть файл. он может быть поврежден или иметь формат, который Preview не распознает.

Почему они повреждены и как решить эту проблему?

import os
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

url = "https://github.com/sonhuytran/MIT8.01SC.2010F/tree/master/References/University%20Physics%20with%20Modern%20Physics%2C%2013th%20Edition%20Solutions%20Manual"

#If there is no such folder, the script will create one automatically
folder_location = r'/Users/rahelmizrahi/Desktop/ Physics_Solutions'
if not os.path.exists(folder_location):os.mkdir(folder_location)

response = requests.get(url)
soup= BeautifulSoup(response.text, "html.parser")     
for link in soup.select("a[href$='.pdf']"):

    filename = os.path.join(folder_location,link['href'].split('/')[-1])
    with open(filename, 'wb') as f:
        f.write(requests.get(urljoin(url,link['href'])).content)

Rahel Miz 24.10.2019 источник

Ответы (3)

arrow_upward
1
arrow_downward

Эта проблема заключается в том, что вы запрашиваете ссылку, которая находится в github 'blob', когда вам нужна ссылка 'raw':

'/sonhuytran/MIT8.01SC.2010F/blob/master/References/University%20Physics%20with%20Modern%20Physics%2C%2013th%20Edition%20Solutions%20Manual/A01_YOUN6656_09_ISM_FM.pdf'

но вы хотите:

'/sonhuytran/MIT8.01SC.2010F/raw/master/References/University%20Physics%20with%20Modern%20Physics%2C%2013th%20Edition%20Solutions%20Manual/A01_YOUN6656_09_ISM_FM.pdf'

Так что просто отрегулируйте это. Полный код ниже:

import os
import requests
from urllib.parse import urljoin
from bs4 import BeautifulSoup

url = "https://github.com/sonhuytran/MIT8.01SC.2010F/tree/master/References/University%20Physics%20with%20Modern%20Physics%2C%2013th%20Edition%20Solutions%20Manual"

#If there is no such folder, the script will create one automatically
folder_location = r'/Users/rahelmizrahi/Desktop/Physics_Solutions'
if not os.path.exists(folder_location):os.mkdir(folder_location)

response = requests.get(url)
soup= BeautifulSoup(response.text, "html.parser")     
for link in soup.select("a[href$='.pdf']"):
    pdf_link = link['href'].replace('blob','raw')
    pdf_file = requests.get('https://github.com' + pdf_link)
    filename = os.path.join(folder_location,link['href'].split('/')[-1])
    with open(filename, 'wb') as f:
        f.write(pdf_file.content)

chitown88 24.10.2019

arrow_upward
1
arrow_downward

Мне пришлось использовать soap.select("a[href$=.pdf]") (без внутренних кавычек), чтобы заставить его правильно выбирать ссылки.

После этого ваш скрипт работает, но: вы загружаете не PDF, а веб-страницу в формате HTML! Попробуйте посетить один из URL-адресов: https://github.com/sonhuytran/MIT8.01SC.2010F/blob/master/References/University%20Physics%20with%20Modern%20Physics%2C%2013th%20Edition%20Solutions%20Manual/A01_YOUN6656_09_ISM_FM.pdf

Вам будет представлена веб-страница GitHub, а не настоящий PDF-файл. Чтобы получить это, вам нужен «сырой» URL-адрес GitHub, который вы можете увидеть, наведя указатель мыши на кнопку «Загрузить»: https://github.com/sonhuytran/MIT8.01SC.2010F/raw/master/Ссылки/Университет%20Physics%20with%20Modern%20Physics%2C%2013th%20Edition%20Solutions%20Manual/A01_YOUN6656_09_ISM_FM.pdf

Итак, похоже, вам просто нужно заменить blob на raw в нужном месте, чтобы все заработало:

href = link['href']
href = href.replace('/blob/', '/raw/')
requests.get(urljoin(url,href).content)

Michiel 24.10.2019

arrow_upward
1
arrow_downward

Проблема в том, что файл не закрывается должным образом после открытия/записи.
Для этого просто добавьте f.close() в конец кода.

cap.py 24.10.2019

Проблема с загрузкой нескольких PDF-файлов

Ответы (3)

Похожие вопросы