lib.itmens/catalog/sites/bandcamp.py

import json
import logging
import re
import urllib.parse

import dateparser
import dns.resolver

from catalog.common import *
from catalog.models import *
from common.models.lang import detect_language

_logger = logging.getLogger(__name__)


@SiteManager.register
class Bandcamp(AbstractSite):
    SITE_NAME = SiteName.Bandcamp
    ID_TYPE = IdType.Bandcamp
    URL_PATTERNS = [r"https://([a-z0-9\-]+.bandcamp.com/album/[^?#/]+).*"]
    URL_PATTERN_FALLBACK = r"https://([a-z0-9\-\.]+/album/[^?#/]+).*"
    WIKI_PROPERTY_ID = ""
    DEFAULT_MODEL = Album

    @classmethod
    def id_to_url(cls, id_value):
        return f"https://{id_value}"

    @classmethod
    def validate_url_fallback(cls, url):
        if re.match(cls.URL_PATTERN_FALLBACK, url) is None:
            return False
        parsed_url = urllib.parse.urlparse(url)
        hostname = parsed_url.netloc
        try:
            answers = dns.resolver.query(hostname, "CNAME")
            for rdata in answers:  # type:ignore
                if str(rdata.target) == "dom.bandcamp.com.":
                    return True
        except Exception:
            pass
        try:
            answers = dns.resolver.query(hostname, "A")
            for rdata in answers:  # type:ignore
                if str(rdata.address) == "35.241.62.186":
                    return True
        except Exception:
            pass
        return False

    def scrape(self):
        content = BasicDownloader2(self.url).download().html()
        try:
            title = self.query_str(content, "//h2[@class='trackTitle']/text()")
            artist = [
                self.query_str(content, "//div[@id='name-section']/h3/span/a/text()")
            ]
        except IndexError:
            raise ValueError("given url contains no valid info")

        genre = []  # TODO: parse tags
        track_list = ""
        try:
            release_str = re.sub(
                r"releas\w+ ",
                "",
                self.query_str(
                    content, "//div[@class='tralbumData tralbum-credits']/text()"
                ),
            )
            release_datetime = dateparser.parse(release_str) if release_str else None
            release_date = (
                release_datetime.strftime("%Y-%m-%d") if release_datetime else None
            )
        except Exception:
            release_date = None
        duration = None
        company = None
        brief_nodes = content.xpath("//div[@class='tralbumData tralbum-about']/text()")
        brief = "".join(brief_nodes) if brief_nodes else ""  # type:ignore
        cover_url = self.query_str(content, "//div[@id='tralbumArt']/a/@href")
        bandcamp_page_data = json.loads(
            self.query_str(content, "//meta[@name='bc-page-properties']/@content")
        )
        bandcamp_album_id = bandcamp_page_data["item_id"]
        localized_title = [{"lang": detect_language(title), "text": title}]
        localized_desc = (
            [{"lang": detect_language(brief), "text": brief}] if brief else []
        )
        data = {
            "localized_title": localized_title,
            "localized_description": localized_desc,
            "title": title,
            "artist": artist,
            "genre": genre,
            "track_list": track_list,
            "release_date": release_date,
            "duration": duration,
            "company": company,
            "brief": brief,
            "bandcamp_album_id": bandcamp_album_id,
            "cover_image_url": cover_url,
        }
        pd = ResourceContent(metadata=data)
        return pd
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`import json`
bandcamp 2022-12-16 08:34:33 -05:00			`import logging`
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`import re`
bandcamp 2022-12-16 08:34:33 -05:00			`import urllib.parse`
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00
bandcamp 2022-12-16 08:34:33 -05:00			`import dateparser`
lint fix site and import 2023-08-11 11:55:42 -04:00			`import dns.resolver`
bandcamp 2022-12-16 08:34:33 -05:00
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`from catalog.common import *`
			`from catalog.models import *`
supports localized title 2024-07-13 00:16:47 -04:00			`from common.models.lang import detect_language`
bandcamp 2022-12-16 08:34:33 -05:00
			`_logger = logging.getLogger(__name__)`


			`@SiteManager.register`
			`class Bandcamp(AbstractSite):`
			`SITE_NAME = SiteName.Bandcamp`
			`ID_TYPE = IdType.Bandcamp`
new style * new style with picocss * djlint * rate distribution * collection item drag to order * discover available for guest * search combine movie tv 2023-05-20 11:01:18 -04:00			`URL_PATTERNS = [r"https://([a-z0-9\-]+.bandcamp.com/album/[^?#/]+).*"]`
			`URL_PATTERN_FALLBACK = r"https://([a-z0-9\-\.]+/album/[^?#/]+).*"`
reformat new code with black 2022-12-29 23:57:02 -05:00			`WIKI_PROPERTY_ID = ""`
bandcamp 2022-12-16 08:34:33 -05:00			`DEFAULT_MODEL = Album`

			`@classmethod`
import, mark and search podcast 2023-01-29 20:05:30 -05:00			`def id_to_url(cls, id_value):`
bandcamp 2022-12-16 08:34:33 -05:00			`return f"https://{id_value}"`

			`@classmethod`
import, mark and search podcast 2023-01-29 20:05:30 -05:00			`def validate_url_fallback(cls, url):`
			`if re.match(cls.URL_PATTERN_FALLBACK, url) is None:`
bandcamp 2022-12-16 08:34:33 -05:00			`return False`
			`parsed_url = urllib.parse.urlparse(url)`
			`hostname = parsed_url.netloc`
			`try:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`answers = dns.resolver.query(hostname, "CNAME")`
lint fix site and import 2023-08-11 11:55:42 -04:00			`for rdata in answers: # type:ignore`
reformat new code with black 2022-12-29 23:57:02 -05:00			`if str(rdata.target) == "dom.bandcamp.com.":`
bandcamp 2022-12-16 08:34:33 -05:00			`return True`
			`except Exception:`
			`pass`
			`try:`
reformat new code with black 2022-12-29 23:57:02 -05:00			`answers = dns.resolver.query(hostname, "A")`
lint fix site and import 2023-08-11 11:55:42 -04:00			`for rdata in answers: # type:ignore`
reformat new code with black 2022-12-29 23:57:02 -05:00			`if str(rdata.address) == "35.241.62.186":`
bandcamp 2022-12-16 08:34:33 -05:00			`return True`
			`except Exception:`
			`pass`
lint 2023-12-31 08:32:19 -05:00			`return False`
bandcamp 2022-12-16 08:34:33 -05:00
			`def scrape(self):`
use httpx for bandcamp 2024-07-26 17:32:08 -04:00			`content = BasicDownloader2(self.url).download().html()`
bandcamp 2022-12-16 08:34:33 -05:00			`try:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`title = self.query_str(content, "//h2[@class='trackTitle']/text()")`
reformat new code with black 2022-12-29 23:57:02 -05:00			`artist = [`
lint fix site and import 2023-08-11 11:55:42 -04:00			`self.query_str(content, "//div[@id='name-section']/h3/span/a/text()")`
reformat new code with black 2022-12-29 23:57:02 -05:00			`]`
bandcamp 2022-12-16 08:34:33 -05:00			`except IndexError:`
			`raise ValueError("given url contains no valid info")`

			`genre = [] # TODO: parse tags`
fix a few display issues 2023-02-03 16:56:42 -05:00			`track_list = ""`
lint fix site and import 2023-08-11 11:55:42 -04:00			`try:`
			`release_str = re.sub(`
			`r"releas\w+ ",`
			`"",`
			`self.query_str(`
			`content, "//div[@class='tralbumData tralbum-credits']/text()"`
			`),`
			`)`
			`release_datetime = dateparser.parse(release_str) if release_str else None`
			`release_date = (`
			`release_datetime.strftime("%Y-%m-%d") if release_datetime else None`
			`)`
add lint by ruff 2024-04-06 00:13:50 -04:00			`except Exception:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`release_date = None`
bandcamp 2022-12-16 08:34:33 -05:00			`duration = None`
			`company = None`
			`brief_nodes = content.xpath("//div[@class='tralbumData tralbum-about']/text()")`
supports localized title 2024-07-13 00:16:47 -04:00			`brief = "".join(brief_nodes) if brief_nodes else "" # type:ignore`
lint fix site and import 2023-08-11 11:55:42 -04:00			`cover_url = self.query_str(content, "//div[@id='tralbumArt']/a/@href")`
reformat new code with black 2022-12-29 23:57:02 -05:00			`bandcamp_page_data = json.loads(`
lint fix site and import 2023-08-11 11:55:42 -04:00			`self.query_str(content, "//meta[@name='bc-page-properties']/@content")`
reformat new code with black 2022-12-29 23:57:02 -05:00			`)`
			`bandcamp_album_id = bandcamp_page_data["item_id"]`
supports localized title 2024-07-13 00:16:47 -04:00			`localized_title = [{"lang": detect_language(title), "text": title}]`
			`localized_desc = (`
			`[{"lang": detect_language(brief), "text": brief}] if brief else []`
			`)`
bandcamp 2022-12-16 08:34:33 -05:00			`data = {`
supports localized title 2024-07-13 00:16:47 -04:00			`"localized_title": localized_title,`
			`"localized_description": localized_desc,`
reformat new code with black 2022-12-29 23:57:02 -05:00			`"title": title,`
			`"artist": artist,`
			`"genre": genre,`
			`"track_list": track_list,`
			`"release_date": release_date,`
			`"duration": duration,`
			`"company": company,`
			`"brief": brief,`
			`"bandcamp_album_id": bandcamp_album_id,`
			`"cover_image_url": cover_url,`
bandcamp 2022-12-16 08:34:33 -05:00			`}`
			`pd = ResourceContent(metadata=data)`
			`return pd`