bandcamp

2022-12-16 08:34:33 -05:00 · 2022-12-16 08:34:33 -05:00 · 6113115fb6
commit 6113115fb6
parent c05aa65e3f
5 changed files with 124 additions and 0 deletions
--- a/catalog/common/sites.py
+++ b/catalog/common/sites.py
@ -39,6 +39,10 @@ class AbstractSite:
        u = next(iter([re.match(p, url) for p in self.URL_PATTERNS if re.match(p, url)]), None)
        return u is not None

+    @classmethod
+    def validate_url_fallback(self, url: str):
+        return False
+
    @classmethod
    def id_to_url(self, id_value):
        return 'https://undefined/' + id_value
@ -152,6 +156,8 @@ class SiteManager:
    @classmethod
    def get_site_by_url(cls, url: str):
        cls = next(filter(lambda p: p.validate_url(url), cls.registry.values()), None)
+        if cls is None:
+            cls = next(filter(lambda p: p.validate_url_fallback(url), cls.registry.values()), None)
        return cls(url) if cls else None

    @classmethod
--- a/catalog/music/models.py
+++ b/catalog/music/models.py
@ -23,6 +23,7 @@ class Album(Item):
        'company',
        'track_list',
        'brief',
+        'bandcamp_album_id',
    ]
    release_date = jsondata.DateField(_('发行日期'), auto_now=False, auto_now_add=False, null=True, blank=True)
    duration = jsondata.IntegerField(_("时长"), null=True, blank=True)
@ -33,4 +34,5 @@ class Album(Item):
    other_title = jsondata.CharField(blank=True, default='', max_length=500)
    album_type = jsondata.CharField(blank=True, default='', max_length=500)
    media = jsondata.CharField(blank=True, default='', max_length=500)
+    bandcamp_album_id = jsondata.CharField(blank=True, default='', max_length=500)
    disc_count = jsondata.IntegerField(blank=True, default='', max_length=500)
--- a/catalog/music/tests.py
+++ b/catalog/music/tests.py
@ -59,3 +59,28 @@ class MultiMusicSitesTestCase(TestCase):
        p1 = SiteManager.get_site_by_url(url1).get_resource_ready()
        p2 = SiteManager.get_site_by_url(url2).get_resource_ready()
        self.assertEqual(p1.item.id, p2.item.id)
+
+
+class BandcampTestCase(TestCase):
+    def test_parse(self):
+        t_id_type = IdType.Bandcamp
+        t_id_value = 'intlanthem.bandcamp.com/album/in-these-times'
+        t_url = 'https://intlanthem.bandcamp.com/album/in-these-times?from=hpbcw'
+        t_url2 = 'https://intlanthem.bandcamp.com/album/in-these-times'
+        site = SiteManager.get_site_by_id_type(t_id_type)
+        self.assertIsNotNone(site)
+        self.assertEqual(site.validate_url(t_url), True)
+        site = SiteManager.get_site_by_url(t_url)
+        self.assertEqual(site.url, t_url2)
+        self.assertEqual(site.id_value, t_id_value)
+
+    # @use_local_response
+    def test_scrape(self):
+        t_url = 'https://intlanthem.bandcamp.com/album/in-these-times?from=hpbcw'
+        site = SiteManager.get_site_by_url(t_url)
+        self.assertEqual(site.ready, False)
+        site.get_resource_ready()
+        self.assertEqual(site.ready, True)
+        self.assertEqual(site.resource.metadata['title'], 'In These Times')
+        self.assertEqual(site.resource.metadata['artist'], ['Makaya McCraven'])
+        self.assertIsInstance(site.resource.item, Album)
--- a/catalog/sites/init.py
+++ b/catalog/sites/init.py
@ -12,4 +12,5 @@ from .imdb import IMDB
 from .spotify import Spotify
 from .igdb import IGDB
 from .steam import Steam
+from .bandcamp import Bandcamp
 from .bangumi import Bangumi
--- a/catalog/sites/bandcamp.py
+++ b/catalog/sites/bandcamp.py
@ -0,0 +1,90 @@
+from catalog.common import *
+from catalog.models import *
+import logging
+import urllib.parse
+import dateparser
+import re
+import json
+
+
+_logger = logging.getLogger(__name__)
+
+
+@SiteManager.register
+class Bandcamp(AbstractSite):
+    SITE_NAME = SiteName.Bandcamp
+    ID_TYPE = IdType.Bandcamp
+    URL_PATTERNS = [
+        r"https://([a-z0-9\-]+.bandcamp.com/album/[^?#/]+)"
+    ]
+    URL_PATTERN_FALLBACK = r"https://([a-z0-9\-\.]+/album/[^?#/]+)"
+    WIKI_PROPERTY_ID = ''
+    DEFAULT_MODEL = Album
+
+    @classmethod
+    def id_to_url(self, id_value):
+        return f"https://{id_value}"
+
+    @classmethod
+    def validate_url_fallback(self, url):
+        if re.match(self.URL_PATTERN_FALLBACK, url) is None:
+            return False
+        parsed_url = urllib.parse.urlparse(url)
+        hostname = parsed_url.netloc
+        try:
+            answers = dns.resolver.query(hostname, 'CNAME')
+            for rdata in answers:
+                if str(rdata.target) == 'dom.bandcamp.com.':
+                    return True
+        except Exception:
+            pass
+        try:
+            answers = dns.resolver.query(hostname, 'A')
+            for rdata in answers:
+                if str(rdata.address) == '35.241.62.186':
+                    return True
+        except Exception:
+            pass
+
+    def scrape(self):
+        content = BasicDownloader(self.url).download().html()
+        try:
+            title = content.xpath("//h2[@class='trackTitle']/text()")[0].strip()
+            artist = [content.xpath("//div[@id='name-section']/h3/span/a/text()")[0].strip()]
+        except IndexError:
+            raise ValueError("given url contains no valid info")
+
+        genre = []  # TODO: parse tags
+        track_list = []
+        release_nodes = content.xpath("//div[@class='tralbumData tralbum-credits']/text()")
+        release_date = dateparser.parse(re.sub(r'releas\w+ ', '', release_nodes[0].strip())).strftime('%Y-%m-%d') if release_nodes else None
+        duration = None
+        company = None
+        brief_nodes = content.xpath("//div[@class='tralbumData tralbum-about']/text()")
+        brief = "".join(brief_nodes) if brief_nodes else None
+        cover_url = content.xpath("//div[@id='tralbumArt']/a/@href")[0].strip()
+        bandcamp_page_data = json.loads(content.xpath(
+            "//meta[@name='bc-page-properties']/@content")[0].strip())
+        bandcamp_album_id = bandcamp_page_data['item_id']
+
+        data = {
+            'title': title,
+            'artist': artist,
+            'genre': genre,
+            'track_list': track_list,
+            'release_date': release_date,
+            'duration': duration,
+            'company': company,
+            'brief': brief,
+            'bandcamp_album_id': bandcamp_album_id,
+            'cover_image_url': cover_url,
+        }
+        pd = ResourceContent(metadata=data)
+        if data["cover_image_url"]:
+            imgdl = BasicImageDownloader(data["cover_image_url"], self.url)
+            try:
+                pd.cover_image = imgdl.download().content
+                pd.cover_image_extention = imgdl.extention
+            except Exception:
+                _logger.debug(f'failed to download cover for {self.url} from {data["cover_image_url"]}')
+        return pd