improve downloader compatibility

2023-02-12 21:03:53 -05:00 · 2023-02-12 21:03:53 -05:00 · c6ecbd38c1
commit c6ecbd38c1
parent b4c69768b4
3 changed files with 50 additions and 9 deletions
--- a/.gitignore
+++ b/.gitignore
@ -31,9 +31,10 @@ log
 # conf folders
 /conf
 /neodb
+/playground

 # typesense folder
 /typesense-data

 # test coverage
-.coverage
+/.coverage
--- a/catalog/common/downloaders.py
+++ b/catalog/common/downloaders.py
@ -11,7 +11,7 @@ import re
 import time
 import logging
 from lxml import html
-
+from urllib.parse import quote

 _logger = logging.getLogger(__name__)

@ -138,24 +138,24 @@ class BasicDownloader:
 class ProxiedDownloader(BasicDownloader):
    def get_proxied_urls(self):
        urls = []
-        if settings.PROXYCRAWL_KEY is not None:
-            urls.append(
-                f"https://api.proxycrawl.com/?token={settings.PROXYCRAWL_KEY}&url={self.url}"
-            )
        if settings.SCRAPESTACK_KEY is not None:
            # urls.append(f'http://api.scrapestack.com/scrape?access_key={settings.SCRAPESTACK_KEY}&url={self.url}')
            urls.append(
-                f"http://api.scrapestack.com/scrape?keep_headers=1&access_key={settings.SCRAPESTACK_KEY}&url={self.url}"
+                f"http://api.scrapestack.com/scrape?keep_headers=1&access_key={settings.SCRAPESTACK_KEY}&url={quote(self.url)}"
+            )
+        if settings.PROXYCRAWL_KEY is not None:
+            urls.append(
+                f"https://api.proxycrawl.com/?token={settings.PROXYCRAWL_KEY}&url={quote(self.url)}"
            )
        if settings.SCRAPERAPI_KEY is not None:
            urls.append(
-                f"http://api.scraperapi.com/?api_key={settings.SCRAPERAPI_KEY}&url={self.url}"
+                f"http://api.scraperapi.com/?api_key={settings.SCRAPERAPI_KEY}&url={quote(self.url)}"
            )
        return urls

    def get_special_proxied_url(self):
        return (
-            f"{settings.LOCAL_PROXY}?url={self.url}"
+            f"{settings.LOCAL_PROXY}?url={quote(self.url)}"
            if settings.LOCAL_PROXY is not None
            else None
        )
--- a/catalog/management/commands/crawl.py
+++ b/catalog/management/commands/crawl.py
@ -0,0 +1,40 @@
+from django.core.management.base import BaseCommand
+from catalog.common import *
+import re
+from urllib.parse import urljoin
+
+
+class Command(BaseCommand):
+    help = "Crawl content"
+
+    def add_arguments(self, parser):
+        parser.add_argument("start", type=str, help="URL to start with")
+        parser.add_argument("--pattern", help="pattern to navigate", action="store")
+
+    def handle(self, *args, **options):
+        queue = [str(options["start"])]
+        pattern = options["pattern"] or ""
+        history = []
+        item_patterns = []
+        for site in SiteManager.registry.values():
+            if site.URL_PATTERNS:
+                item_patterns += site.URL_PATTERNS
+        while queue and len(history) < 1000:
+            url = queue.pop(0)
+            history.append(url)
+            self.stdout.write(f"Navigating {url}")
+            content = ProxiedDownloader(url).download().html()
+            urls = content.xpath("//a/@href")
+            for _u in urls:
+                u = urljoin(url, _u)
+                if u not in history and u not in queue:
+                    if len([p for p in item_patterns if re.match(p, u)]) > 0:
+                        site = SiteManager.get_site_by_url(u)
+                        u = site.url
+                        if u not in history:
+                            history.append(u)
+                            self.stdout.write(f"Fetching {u}")
+                            site.get_resource_ready()
+                    elif pattern and u.find(pattern) >= 0:
+                        queue.append(u)
+        self.stdout.write(self.style.SUCCESS(f"Done."))