Grattage



#  -*- coding: utf-8 -*-
from urllib.request import urlopen
from urllib.parse import urlparse
from bs4 import BeautifulSoup
import re
import datetime
import random
import os
import sys
from collections import defaultdict
import nltk
import pandas as pd
import json
def Cuisine(url):
    html = urlopen(url).read()
    bs = BeautifulSoup(html, 'lxml') #'html.parser')
    #for script in bs(["script", "style"]):  # détruiit tous les sctripts ... java ...
        #script.decompose()
    [script.decompose() for script in bs(["script", "style"])]
    return bs
def LesCrises() :
    
    bs = Cuisine(url= 'https://www.les-crises.fr/') #https://www.les-crises.fr')

    liste  = bs.findAll("a", {"class":"title"}) # page accueil Les Crises
    list1  = []
    list1= [(lien.attrs["href"]) for lien in liste if 'href' in lien.attrs]
                
    return(list1) 
    bs = Cuisine(url)
    titre = ""
    
    if dossier == 1 :
        titre = bs.find('title').text # Les Crises
        titre = re.sub(r'\W', ' ', titre).strip()
        w = re.compile(r'([Pp]ar (?!.*[Pp]ar )(.)*)$')
        titre = re.sub( w, r'', titre).strip()
        source = bs.findAll("div", {"class":"entry-content"}) # Les Crises


Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *