lib.itmens/catalog/sites/bandcamp.py

from catalog.common import *
from catalog.models import *
import logging
import urllib.parse
import dateparser
import re
import json


_logger = logging.getLogger(__name__)


@SiteManager.register
class Bandcamp(AbstractSite):
    SITE_NAME = SiteName.Bandcamp
    ID_TYPE = IdType.Bandcamp
    URL_PATTERNS = [r"https://([a-z0-9\-]+.bandcamp.com/album/[^?#/]+)"]
    URL_PATTERN_FALLBACK = r"https://([a-z0-9\-\.]+/album/[^?#/]+)"
    WIKI_PROPERTY_ID = ""
    DEFAULT_MODEL = Album

    @classmethod
    def id_to_url(self, id_value):
        return f"https://{id_value}"

    @classmethod
    def validate_url_fallback(self, url):
        if re.match(self.URL_PATTERN_FALLBACK, url) is None:
            return False
        parsed_url = urllib.parse.urlparse(url)
        hostname = parsed_url.netloc
        try:
            answers = dns.resolver.query(hostname, "CNAME")
            for rdata in answers:
                if str(rdata.target) == "dom.bandcamp.com.":
                    return True
        except Exception:
            pass
        try:
            answers = dns.resolver.query(hostname, "A")
            for rdata in answers:
                if str(rdata.address) == "35.241.62.186":
                    return True
        except Exception:
            pass

    def scrape(self):
        content = BasicDownloader(self.url).download().html()
        try:
            title = content.xpath("//h2[@class='trackTitle']/text()")[0].strip()
            artist = [
                content.xpath("//div[@id='name-section']/h3/span/a/text()")[0].strip()
            ]
        except IndexError:
            raise ValueError("given url contains no valid info")

        genre = []  # TODO: parse tags
        track_list = []
        release_nodes = content.xpath(
            "//div[@class='tralbumData tralbum-credits']/text()"
        )
        release_date = (
            dateparser.parse(
                re.sub(r"releas\w+ ", "", release_nodes[0].strip())
            ).strftime("%Y-%m-%d")
            if release_nodes
            else None
        )
        duration = None
        company = None
        brief_nodes = content.xpath("//div[@class='tralbumData tralbum-about']/text()")
        brief = "".join(brief_nodes) if brief_nodes else None
        cover_url = content.xpath("//div[@id='tralbumArt']/a/@href")[0].strip()
        bandcamp_page_data = json.loads(
            content.xpath("//meta[@name='bc-page-properties']/@content")[0].strip()
        )
        bandcamp_album_id = bandcamp_page_data["item_id"]

        data = {
            "title": title,
            "artist": artist,
            "genre": genre,
            "track_list": track_list,
            "release_date": release_date,
            "duration": duration,
            "company": company,
            "brief": brief,
            "bandcamp_album_id": bandcamp_album_id,
            "cover_image_url": cover_url,
        }
        pd = ResourceContent(metadata=data)
        if data["cover_image_url"]:
            imgdl = BasicImageDownloader(data["cover_image_url"], self.url)
            try:
                pd.cover_image = imgdl.download().content
                pd.cover_image_extention = imgdl.extention
            except Exception:
                _logger.debug(
                    f'failed to download cover for {self.url} from {data["cover_image_url"]}'
                )
        return pd
bandcamp 2022-12-16 08:34:33 -05:00			`from catalog.common import *`
			`from catalog.models import *`
			`import logging`
			`import urllib.parse`
			`import dateparser`
			`import re`
			`import json`


			`_logger = logging.getLogger(__name__)`


			`@SiteManager.register`
			`class Bandcamp(AbstractSite):`
			`SITE_NAME = SiteName.Bandcamp`
			`ID_TYPE = IdType.Bandcamp`
reformat new code with black 2022-12-29 23:57:02 -05:00			`URL_PATTERNS = [r"https://([a-z0-9\-]+.bandcamp.com/album/[^?#/]+)"]`
bandcamp 2022-12-16 08:34:33 -05:00			`URL_PATTERN_FALLBACK = r"https://([a-z0-9\-\.]+/album/[^?#/]+)"`
reformat new code with black 2022-12-29 23:57:02 -05:00			`WIKI_PROPERTY_ID = ""`
bandcamp 2022-12-16 08:34:33 -05:00			`DEFAULT_MODEL = Album`

			`@classmethod`
			`def id_to_url(self, id_value):`
			`return f"https://{id_value}"`

			`@classmethod`
			`def validate_url_fallback(self, url):`
			`if re.match(self.URL_PATTERN_FALLBACK, url) is None:`
			`return False`
			`parsed_url = urllib.parse.urlparse(url)`
			`hostname = parsed_url.netloc`
			`try:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`answers = dns.resolver.query(hostname, "CNAME")`
bandcamp 2022-12-16 08:34:33 -05:00			`for rdata in answers:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`if str(rdata.target) == "dom.bandcamp.com.":`
bandcamp 2022-12-16 08:34:33 -05:00			`return True`
			`except Exception:`
			`pass`
			`try:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`answers = dns.resolver.query(hostname, "A")`
bandcamp 2022-12-16 08:34:33 -05:00			`for rdata in answers:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`if str(rdata.address) == "35.241.62.186":`
bandcamp 2022-12-16 08:34:33 -05:00			`return True`
			`except Exception:`
			`pass`

			`def scrape(self):`
			`content = BasicDownloader(self.url).download().html()`
			`try:`
			`title = content.xpath("//h2[@class='trackTitle']/text()")[0].strip()`
reformat new code with black 2022-12-29 23:57:02 -05:00			`artist = [`
			`content.xpath("//div[@id='name-section']/h3/span/a/text()")[0].strip()`
			`]`
bandcamp 2022-12-16 08:34:33 -05:00			`except IndexError:`
			`raise ValueError("given url contains no valid info")`

			`genre = [] # TODO: parse tags`
			`track_list = []`
reformat new code with black 2022-12-29 23:57:02 -05:00			`release_nodes = content.xpath(`
			`"//div[@class='tralbumData tralbum-credits']/text()"`
			`)`
			`release_date = (`
			`dateparser.parse(`
			`re.sub(r"releas\w+ ", "", release_nodes[0].strip())`
			`).strftime("%Y-%m-%d")`
			`if release_nodes`
			`else None`
			`)`
bandcamp 2022-12-16 08:34:33 -05:00			`duration = None`
			`company = None`
			`brief_nodes = content.xpath("//div[@class='tralbumData tralbum-about']/text()")`
			`brief = "".join(brief_nodes) if brief_nodes else None`
			`cover_url = content.xpath("//div[@id='tralbumArt']/a/@href")[0].strip()`
reformat new code with black 2022-12-29 23:57:02 -05:00			`bandcamp_page_data = json.loads(`
			`content.xpath("//meta[@name='bc-page-properties']/@content")[0].strip()`
			`)`
			`bandcamp_album_id = bandcamp_page_data["item_id"]`
bandcamp 2022-12-16 08:34:33 -05:00
			`data = {`
reformat new code with black 2022-12-29 23:57:02 -05:00			`"title": title,`
			`"artist": artist,`
			`"genre": genre,`
			`"track_list": track_list,`
			`"release_date": release_date,`
			`"duration": duration,`
			`"company": company,`
			`"brief": brief,`
			`"bandcamp_album_id": bandcamp_album_id,`
			`"cover_image_url": cover_url,`
bandcamp 2022-12-16 08:34:33 -05:00			`}`
			`pd = ResourceContent(metadata=data)`
			`if data["cover_image_url"]:`
			`imgdl = BasicImageDownloader(data["cover_image_url"], self.url)`
			`try:`
			`pd.cover_image = imgdl.download().content`
			`pd.cover_image_extention = imgdl.extention`
			`except Exception:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`_logger.debug(`
			`f'failed to download cover for {self.url} from {data["cover_image_url"]}'`
			`)`
bandcamp 2022-12-16 08:34:33 -05:00			`return pd`