lib.itmens/journal/importers/douban.py

import os
import re
from datetime import datetime

import openpyxl
import pytz
from django.conf import settings
from loguru import logger
from markdownify import markdownify as md

from catalog.common import *
from catalog.common.downloaders import *
from catalog.models import *
from catalog.sites import DoubanBook, DoubanDrama, DoubanGame, DoubanMovie, DoubanMusic
from catalog.sites.douban import DoubanDownloader
from common.utils import GenerateDateUUIDMediaFilePath
from journal.models import *
from users.models import Task

_tz_sh = pytz.timezone("Asia/Shanghai")


def _fetch_remote_image(url):
    try:
        logger.info(f"fetching remote image {url}")
        imgdl = ProxiedImageDownloader(url)
        raw_img = imgdl.download().content
        ext = imgdl.extention
        f = GenerateDateUUIDMediaFilePath(f"x.{ext}", settings.MARKDOWNX_MEDIA_PATH)
        file = settings.MEDIA_ROOT + "/" + f
        local_url = settings.MEDIA_URL + f
        os.makedirs(os.path.dirname(file), exist_ok=True)
        with open(file, "wb") as binary_file:
            binary_file.write(raw_img)
        # logger.info(f'remote image saved as {local_url}')
        return local_url
    except Exception as e:
        logger.error("unable to fetch image", extra={"url": url, "exception": e})
        return url


class DoubanImporter(Task):
    class Meta:
        app_label = "journal"  # workaround bug in TypedModel

    TaskQueue = "import"
    DefaultMetadata = {
        "total": 0,
        "processed": 0,
        "skipped": 0,
        "imported": 0,
        "failed": 0,
        "mode": 0,
        "visibility": 0,
        "failed_urls": [],
        "file": None,
    }

    mark_sheet_config = {
        "想读": [ShelfType.WISHLIST],
        "在读": [ShelfType.PROGRESS],
        "读过": [ShelfType.COMPLETE],
        "想看": [ShelfType.WISHLIST],
        "在看": [ShelfType.PROGRESS],
        "看过": [ShelfType.COMPLETE],
        "想听": [ShelfType.WISHLIST],
        "在听": [ShelfType.PROGRESS],
        "听过": [ShelfType.COMPLETE],
        "想玩": [ShelfType.WISHLIST],
        "在玩": [ShelfType.PROGRESS],
        "玩过": [ShelfType.COMPLETE],
        "想看的舞台剧": [ShelfType.WISHLIST],
        "看过的舞台剧": [ShelfType.COMPLETE],
    }
    review_sheet_config = {
        "书评": [Edition],
        "影评": [Movie],
        "乐评": [Album],
        "剧评": [Performance],
        "游戏评论&攻略": [Game],
    }

    @classmethod
    def validate_file(cls, uploaded_file):
        try:
            wb = openpyxl.open(
                uploaded_file, read_only=True, data_only=True, keep_links=False
            )
            sheets = cls.mark_sheet_config.keys() | cls.review_sheet_config.keys()
            for name in sheets:
                if name in wb:
                    return True
        except Exception as e:
            logger.error(
                f"unable to validate excel file {uploaded_file}", extra={"exception": e}
            )
        return False

    mark_data = {}
    review_data = {}
    entity_lookup = {}

    def load_sheets(self):
        """Load data into mark_data / review_data / entity_lookup"""
        f = open(self.metadata["file"], "rb")
        wb = openpyxl.load_workbook(f, read_only=True, data_only=True, keep_links=False)
        for data, config in [
            (self.mark_data, self.mark_sheet_config),
            (self.review_data, self.review_sheet_config),
        ]:
            for name in config:
                data[name] = []
                if name in wb:
                    logger.info(f"{self.user} parsing {name}")
                    for row in wb[name].iter_rows(min_row=2, values_only=True):
                        cells = [cell for cell in row]
                        if len(cells) > 6 and cells[0]:
                            data[name].append(cells)
        for sheet in self.mark_data.values():
            for cells in sheet:
                # entity_lookup["title|rating"] = [(url, time), ...]
                k = f"{cells[0]}|{cells[5]}"
                v = (cells[3], cells[4])
                if k in self.entity_lookup:
                    self.entity_lookup[k].append(v)
                else:
                    self.entity_lookup[k] = [v]
        self.metadata["total"] = sum(map(lambda a: len(a), self.mark_data.values()))
        self.metadata["total"] += sum(map(lambda a: len(a), self.review_data.values()))
        self.save()

    def guess_entity_url(self, title, rating, timestamp):
        k = f"{title}|{rating}"
        if k not in self.entity_lookup:
            return None
        v = self.entity_lookup[k]
        if len(v) > 1:
            v.sort(
                key=lambda c: abs(
                    timestamp
                    - (
                        datetime.strptime(c[1], "%Y-%m-%d %H:%M:%S")
                        if isinstance(c[1], str)
                        else c[1]
                    ).replace(tzinfo=_tz_sh)
                )
            )
        return v[0][0]
        # for sheet in self.mark_data.values():
        #     for cells in sheet:
        #         if cells[0] == title and cells[5] == rating:
        #             return cells[3]

    def run(self):
        logger.info(f"{self.user} import start")
        self.load_sheets()
        logger.info(f"{self.user} sheet loaded, {self.metadata['total']} lines total")
        for name, param in self.mark_sheet_config.items():
            self.import_mark_sheet(self.mark_data[name], param[0], name)
        for name, param in self.review_sheet_config.items():
            self.import_review_sheet(self.review_data[name], name)
        self.message = f"豆瓣标记和评论导入完成，共处理{self.metadata['total']}篇，已存在{self.metadata['skipped']}篇，新增{self.metadata['imported']}篇。"
        if len(self.metadata["failed_urls"]) > 0:
            self.message += f"导入时未能处理{len(self.metadata['failed_urls'])}个网址。"
        self.save()

    def import_mark_sheet(self, worksheet, shelf_type, sheet_name):
        prefix = f"{self.user} {sheet_name}|"
        if worksheet is None:  # or worksheet.max_row < 2:
            logger.warning(f"{prefix} empty sheet")
            return
        for cells in worksheet:
            if len(cells) < 6:
                continue
            # title = cells[0] or ""
            url = cells[3]
            time = cells[4]
            rating = cells[5]
            try:
                rating_grade = int(rating) * 2 if rating else None
            except Exception:
                rating_grade = None
            tags = cells[6] if len(cells) >= 7 else ""
            try:
                tags = tags.split(",") if tags else []
            except Exception:
                tags = []
            comment = cells[7] if len(cells) >= 8 else None
            self.metadata["processed"] += 1
            try:
                if isinstance(time, str):
                    time = datetime.strptime(time, "%Y-%m-%d %H:%M:%S")
                time = time.replace(tzinfo=_tz_sh)
            except Exception:
                time = None
            r = self.import_mark(url, shelf_type, comment, rating_grade, tags, time)
            if r == 1:
                self.metadata["imported"] += 1
            elif r == 2:
                self.metadata["skipped"] += 1
            self.save()

    def import_mark(self, url, shelf_type, comment, rating_grade, tags, time):
        """
        Import one mark: return 1: done / 2: skipped / None: failed
        """
        item = self.get_item_by_url(url)
        if not item:
            logger.warning(f"{self.user} | match/fetch {url} failed")
            return
        mark = Mark(self.user.identity, item)
        if self.metadata["mode"] == 0 and (
            mark.shelf_type == shelf_type
            or mark.shelf_type == ShelfType.COMPLETE
            or (
                mark.shelf_type in [ShelfType.PROGRESS, ShelfType.DROPPED]
                and shelf_type == ShelfType.WISHLIST
            )
        ):
            print("-", end="", flush=True)
            return 2
        mark.update(
            shelf_type,
            comment,
            rating_grade,
            tags,
            self.metadata["visibility"],
            created_time=time,
        )
        print("+", end="", flush=True)
        return 1

    def import_review_sheet(self, worksheet, sheet_name):
        prefix = f"{self.user} {sheet_name}|"
        if worksheet is None:  # or worksheet.max_row < 2:
            logger.warning(f"{prefix} empty sheet")
            return
        for cells in worksheet:
            if len(cells) < 6:
                continue
            title = cells[0]
            entity_title = (
                re.sub("^《", "", re.sub("》$", "", cells[1])) if cells[1] else ""
            )
            review_url = cells[2]
            time = cells[3]
            rating = cells[4]
            content = cells[6]
            self.metadata["processed"] += 1
            if time:
                if isinstance(time, str):
                    time = datetime.strptime(time, "%Y-%m-%d %H:%M:%S")
                time = time.replace(tzinfo=_tz_sh)
            else:
                time = None
            if not content:
                content = ""
            if not title:
                title = ""
            r = self.import_review(
                entity_title, rating, title, review_url, content, time
            )
            if r == 1:
                self.metadata["imported"] += 1
            elif r == 2:
                self.metadata["skipped"] += 1
            else:
                self.metadata["failed_urls"].append(review_url)
            self.save()

    def get_item_by_url(self, url):
        item = None
        if not url:
            logger.warning("URL empty")
            return None
        try:
            site = SiteManager.get_site_by_url(url)
            if not site:
                raise ValueError(f"URL unrecognized {url}")
            item = site.get_item()
            if not item:
                logger.info(f"fetching {url}")
                site.get_resource_ready()
                item = site.get_item()
            else:
                # logger.info(f"matched {url}")
                print(".", end="", flush=True)
        except DownloadError as e:
            if e.response_type == RESPONSE_CENSORSHIP:
                # avoid flood error log since there are too many
                logger.warning(f"fetching error: {url}", extra={"exception": e})
            else:
                logger.error(f"fetching error: {url}", extra={"exception": e})
        except Exception as e:
            logger.error(f"fetching error: {url}", extra={"exception": e})
        if item is None:
            self.metadata["failed_urls"].append(str(url))
        return item

    def is_douban_item_url(self, url):
        for cls in [
            DoubanBook,
            DoubanDrama,
            DoubanMovie,
            DoubanMusic,
            DoubanGame,
        ]:
            if cls.url_to_id(url):
                return True

    def import_review(self, entity_title, rating, title, review_url, content, time):
        """
        Import one review: return 1: done / 2: skipped / None: failed
        """
        prefix = f"{self.user} |"
        url = self.guess_entity_url(entity_title, rating, time)
        if url is None:
            logger.info(f"{prefix} fetching review {review_url}")
            try:
                h = DoubanDownloader(review_url).download().html()
                urls = h.xpath("//header[@class='main-hd']/a/@href")
                for u in urls:  # type:ignore
                    if self.is_douban_item_url(u):
                        url = u
                if not url:
                    logger.warning(
                        f"{prefix} fetching error {review_url} unable to locate entity url"
                    )
                    return
            except Exception:
                logger.error(f"{prefix} fetching review exception {review_url}")
                return
        item = self.get_item_by_url(url)
        if not item:
            logger.warning(f"{prefix} match/fetch {url} failed")
            return
        if (
            self.metadata["mode"] == 1
            and Review.objects.filter(owner=self.user.identity, item=item).exists()
        ):
            return 2
        content = re.sub(
            r'<span style="font-weight: bold;">([^<]+)</span>', r"<b>\1</b>", content
        )
        content = re.sub(r"(<img [^>]+>)", r"\1<br>", content)
        content = re.sub(
            r'<div class="image-caption">([^<]+)</div>', r"<br><i>\1</i><br>", content
        )
        content = md(content)
        content = re.sub(
            r"(?<=!\[\]\()([^)]+)(?=\))", lambda x: _fetch_remote_image(x[1]), content
        )
        params = {
            "created_time": time,
            "edited_time": time,
            "title": title,
            "body": content,
            "visibility": self.metadata["visibility"],
        }
        try:
            Review.objects.update_or_create(
                owner=self.user.identity, item=item, defaults=params
            )
        except Exception:
            logger.warning(f"{prefix} update multiple review {review_url}")
            r = (
                Review.objects.filter(owner=self.user.identity, item=item)
                .order_by("-created_time")
                .first()
            )
            if r:
                Review.objects.filter(pk=r.pk).update(**params)
        return 1
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`import os`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`import re`
			`from datetime import datetime`
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00
			`import openpyxl`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`import pytz`
			`from django.conf import settings`
lint fix site and import 2023-08-11 11:55:42 -04:00			`from loguru import logger`
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`from markdownify import markdownify as md`

new data model: rework douban import 2022-12-31 00:20:20 -05:00			`from catalog.common import *`
			`from catalog.common.downloaders import *`
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`from catalog.models import *`
fix import douban review for games and performances 2025-01-01 10:05:33 -05:00			`from catalog.sites import DoubanBook, DoubanDrama, DoubanGame, DoubanMovie, DoubanMusic`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`from catalog.sites.douban import DoubanDownloader`
fix unicode site name; add isort; split journal and users models 2023-08-10 11:27:31 -04:00			`from common.utils import GenerateDateUUIDMediaFilePath`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`from journal.models import *`
modernize importers 2024-12-26 10:54:25 -05:00			`from users.models import Task`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
			`_tz_sh = pytz.timezone("Asia/Shanghai")`


			`def _fetch_remote_image(url):`
			`try:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.info(f"fetching remote image {url}")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`imgdl = ProxiedImageDownloader(url)`
			`raw_img = imgdl.download().content`
			`ext = imgdl.extention`
letterboxd import ui 2024-01-10 22:20:57 -05:00			`f = GenerateDateUUIDMediaFilePath(f"x.{ext}", settings.MARKDOWNX_MEDIA_PATH)`
fix import/export 2023-11-28 17:13:47 -05:00			`file = settings.MEDIA_ROOT + "/" + f`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`local_url = settings.MEDIA_URL + f`
			`os.makedirs(os.path.dirname(file), exist_ok=True)`
			`with open(file, "wb") as binary_file:`
			`binary_file.write(raw_img)`
lint fix site and import 2023-08-11 11:55:42 -04:00			`# logger.info(f'remote image saved as {local_url}')`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return local_url`
improve logging 2024-05-25 23:38:11 -04:00			`except Exception as e:`
update lint: replace black and isort with ruff 2025-01-11 17:20:02 -05:00			`logger.error("unable to fetch image", extra={"url": url, "exception": e})`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return url`


modernize importers 2024-12-26 10:54:25 -05:00			`class DoubanImporter(Task):`
			`class Meta:`
			`app_label = "journal" # workaround bug in TypedModel`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
modernize importers 2024-12-26 10:54:25 -05:00			`TaskQueue = "import"`
			`DefaultMetadata = {`
			`"total": 0,`
			`"processed": 0,`
			`"skipped": 0,`
			`"imported": 0,`
			`"failed": 0,`
			`"mode": 0,`
			`"visibility": 0,`
			`"failed_urls": [],`
			`"file": None,`
			`}`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
			`mark_sheet_config = {`
			`"想读": [ShelfType.WISHLIST],`
			`"在读": [ShelfType.PROGRESS],`
			`"读过": [ShelfType.COMPLETE],`
			`"想看": [ShelfType.WISHLIST],`
			`"在看": [ShelfType.PROGRESS],`
fix typo 2023-01-09 15:59:21 -05:00			`"看过": [ShelfType.COMPLETE],`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`"想听": [ShelfType.WISHLIST],`
			`"在听": [ShelfType.PROGRESS],`
			`"听过": [ShelfType.COMPLETE],`
			`"想玩": [ShelfType.WISHLIST],`
			`"在玩": [ShelfType.PROGRESS],`
			`"玩过": [ShelfType.COMPLETE],`
import performance in doufen 2023-06-05 03:39:37 -04:00			`"想看的舞台剧": [ShelfType.WISHLIST],`
			`"看过的舞台剧": [ShelfType.COMPLETE],`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`}`
			`review_sheet_config = {`
			`"书评": [Edition],`
			`"影评": [Movie],`
			`"乐评": [Album],`
import performance in doufen 2023-06-05 03:39:37 -04:00			`"剧评": [Performance],`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`"游戏评论&攻略": [Game],`
			`}`
modernize importers 2024-12-26 10:54:25 -05:00
			`@classmethod`
			`def validate_file(cls, uploaded_file):`
			`try:`
			`wb = openpyxl.open(`
			`uploaded_file, read_only=True, data_only=True, keep_links=False`
			`)`
			`sheets = cls.mark_sheet_config.keys() \| cls.review_sheet_config.keys()`
			`for name in sheets:`
			`if name in wb:`
			`return True`
			`except Exception as e:`
			`logger.error(`
			`f"unable to validate excel file {uploaded_file}", extra={"exception": e}`
			`)`
			`return False`

new data model: rework douban import 2022-12-31 00:20:20 -05:00			`mark_data = {}`
			`review_data = {}`
			`entity_lookup = {}`

			`def load_sheets(self):`
			`"""Load data into mark_data / review_data / entity_lookup"""`
modernize importers 2024-12-26 10:54:25 -05:00			`f = open(self.metadata["file"], "rb")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`wb = openpyxl.load_workbook(f, read_only=True, data_only=True, keep_links=False)`
			`for data, config in [`
			`(self.mark_data, self.mark_sheet_config),`
			`(self.review_data, self.review_sheet_config),`
			`]:`
			`for name in config:`
			`data[name] = []`
			`if name in wb:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.info(f"{self.user} parsing {name}")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`for row in wb[name].iter_rows(min_row=2, values_only=True):`
			`cells = [cell for cell in row]`
			`if len(cells) > 6 and cells[0]:`
			`data[name].append(cells)`
			`for sheet in self.mark_data.values():`
			`for cells in sheet:`
			`# entity_lookup["title\|rating"] = [(url, time), ...]`
			`k = f"{cells[0]}\|{cells[5]}"`
			`v = (cells[3], cells[4])`
			`if k in self.entity_lookup:`
			`self.entity_lookup[k].append(v)`
			`else:`
			`self.entity_lookup[k] = [v]`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["total"] = sum(map(lambda a: len(a), self.mark_data.values()))`
			`self.metadata["total"] += sum(map(lambda a: len(a), self.review_data.values()))`
			`self.save()`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
			`def guess_entity_url(self, title, rating, timestamp):`
			`k = f"{title}\|{rating}"`
			`if k not in self.entity_lookup:`
			`return None`
			`v = self.entity_lookup[k]`
			`if len(v) > 1:`
			`v.sort(`
			`key=lambda c: abs(`
			`timestamp`
			`- (`
			`datetime.strptime(c[1], "%Y-%m-%d %H:%M:%S")`
update lint: replace black and isort with ruff 2025-01-11 17:20:02 -05:00			`if isinstance(c[1], str)`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`else c[1]`
			`).replace(tzinfo=_tz_sh)`
			`)`
			`)`
			`return v[0][0]`
			`# for sheet in self.mark_data.values():`
			`# for cells in sheet:`
			`# if cells[0] == title and cells[5] == rating:`
			`# return cells[3]`

modernize importers 2024-12-26 10:54:25 -05:00			`def run(self):`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.info(f"{self.user} import start")`
modernize importers 2024-12-26 10:54:25 -05:00			`self.load_sheets()`
			`logger.info(f"{self.user} sheet loaded, {self.metadata['total']} lines total")`
			`for name, param in self.mark_sheet_config.items():`
			`self.import_mark_sheet(self.mark_data[name], param[0], name)`
			`for name, param in self.review_sheet_config.items():`
			`self.import_review_sheet(self.review_data[name], name)`
			`self.message = f"豆瓣标记和评论导入完成，共处理{self.metadata['total']}篇，已存在{self.metadata['skipped']}篇，新增{self.metadata['imported']}篇。"`
			`if len(self.metadata["failed_urls"]) > 0:`
update lint: replace black and isort with ruff 2025-01-11 17:20:02 -05:00			`self.message += f"导入时未能处理{len(self.metadata['failed_urls'])}个网址。"`
modernize importers 2024-12-26 10:54:25 -05:00			`self.save()`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
			`def import_mark_sheet(self, worksheet, shelf_type, sheet_name):`
			`prefix = f"{self.user} {sheet_name}\|"`
			`if worksheet is None: # or worksheet.max_row < 2:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.warning(f"{prefix} empty sheet")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return`
			`for cells in worksheet:`
			`if len(cells) < 6:`
			`continue`
			`# title = cells[0] or ""`
			`url = cells[3]`
			`time = cells[4]`
			`rating = cells[5]`
douban import: handling more parsing errors 2023-11-20 15:04:11 +00:00			`try:`
			`rating_grade = int(rating) * 2 if rating else None`
add lint by ruff 2024-04-06 00:13:50 -04:00			`except Exception:`
douban import: handling more parsing errors 2023-11-20 15:04:11 +00:00			`rating_grade = None`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`tags = cells[6] if len(cells) >= 7 else ""`
fix parser errors 2024-01-06 00:12:43 -05:00			`try:`
			`tags = tags.split(",") if tags else []`
add lint by ruff 2024-04-06 00:13:50 -04:00			`except Exception:`
fix parser errors 2024-01-06 00:12:43 -05:00			`tags = []`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`comment = cells[7] if len(cells) >= 8 else None`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["processed"] += 1`
douban import: handling more parsing errors 2023-11-20 15:04:11 +00:00			`try:`
update lint: replace black and isort with ruff 2025-01-11 17:20:02 -05:00			`if isinstance(time, str):`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`time = datetime.strptime(time, "%Y-%m-%d %H:%M:%S")`
			`time = time.replace(tzinfo=_tz_sh)`
add lint by ruff 2024-04-06 00:13:50 -04:00			`except Exception:`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`time = None`
			`r = self.import_mark(url, shelf_type, comment, rating_grade, tags, time)`
			`if r == 1:`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["imported"] += 1`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`elif r == 2:`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["skipped"] += 1`
			`self.save()`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
			`def import_mark(self, url, shelf_type, comment, rating_grade, tags, time):`
			`"""`
			`Import one mark: return 1: done / 2: skipped / None: failed`
			`"""`
			`item = self.get_item_by_url(url)`
			`if not item:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.warning(f"{self.user} \| match/fetch {url} failed")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return`
fix import/export 2023-11-28 17:13:47 -05:00			`mark = Mark(self.user.identity, item)`
modernize importers 2024-12-26 10:54:25 -05:00			`if self.metadata["mode"] == 0 and (`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`mark.shelf_type == shelf_type`
			`or mark.shelf_type == ShelfType.COMPLETE`
			`or (`
new shelf type: dropped 2024-01-20 22:52:08 -05:00			`mark.shelf_type in [ShelfType.PROGRESS, ShelfType.DROPPED]`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`and shelf_type == ShelfType.WISHLIST`
			`)`
			`):`
fix import error; simplify output 2023-01-12 19:58:03 +00:00			`print("-", end="", flush=True)`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return 2`
			`mark.update(`
modernize importers 2024-12-26 10:54:25 -05:00			`shelf_type,`
			`comment,`
			`rating_grade,`
			`tags,`
			`self.metadata["visibility"],`
			`created_time=time,`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`)`
fix import error; simplify output 2023-01-12 19:58:03 +00:00			`print("+", end="", flush=True)`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return 1`

			`def import_review_sheet(self, worksheet, sheet_name):`
			`prefix = f"{self.user} {sheet_name}\|"`
			`if worksheet is None: # or worksheet.max_row < 2:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.warning(f"{prefix} empty sheet")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return`
			`for cells in worksheet:`
			`if len(cells) < 6:`
			`continue`
			`title = cells[0]`
			`entity_title = (`
			`re.sub("^《", "", re.sub("》$", "", cells[1])) if cells[1] else ""`
			`)`
			`review_url = cells[2]`
			`time = cells[3]`
			`rating = cells[4]`
			`content = cells[6]`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["processed"] += 1`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`if time:`
update lint: replace black and isort with ruff 2025-01-11 17:20:02 -05:00			`if isinstance(time, str):`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`time = datetime.strptime(time, "%Y-%m-%d %H:%M:%S")`
			`time = time.replace(tzinfo=_tz_sh)`
			`else:`
			`time = None`
			`if not content:`
			`content = ""`
			`if not title:`
			`title = ""`
			`r = self.import_review(`
			`entity_title, rating, title, review_url, content, time`
			`)`
			`if r == 1:`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["imported"] += 1`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`elif r == 2:`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["skipped"] += 1`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`else:`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["failed_urls"].append(review_url)`
			`self.save()`
new data model: rework douban import 2022-12-31 00:20:20 -05:00
			`def get_item_by_url(self, url):`
			`item = None`
fix 500 2023-12-12 21:17:52 -05:00			`if not url:`
update lint: replace black and isort with ruff 2025-01-11 17:20:02 -05:00			`logger.warning("URL empty")`
fix 500 2023-12-12 21:17:52 -05:00			`return None`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`try:`
			`site = SiteManager.get_site_by_url(url)`
lint fix site and import 2023-08-11 11:55:42 -04:00			`if not site:`
			`raise ValueError(f"URL unrecognized {url}")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`item = site.get_item()`
			`if not item:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.info(f"fetching {url}")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`site.get_resource_ready()`
			`item = site.get_item()`
			`else:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`# logger.info(f"matched {url}")`
fix import error; simplify output 2023-01-12 19:58:03 +00:00			`print(".", end="", flush=True)`
reduce error log by censored content from douban 2024-07-18 09:49:25 -04:00			`except DownloadError as e:`
			`if e.response_type == RESPONSE_CENSORSHIP:`
			`# avoid flood error log since there are too many`
			`logger.warning(f"fetching error: {url}", extra={"exception": e})`
			`else:`
			`logger.error(f"fetching error: {url}", extra={"exception": e})`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`except Exception as e:`
improve logging 2024-05-25 23:38:11 -04:00			`logger.error(f"fetching error: {url}", extra={"exception": e})`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`if item is None:`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["failed_urls"].append(str(url))`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return item`

fix import douban review for games and performances 2025-01-01 10:05:33 -05:00			`def is_douban_item_url(self, url):`
			`for cls in [`
			`DoubanBook,`
			`DoubanDrama,`
			`DoubanMovie,`
			`DoubanMusic,`
			`DoubanGame,`
			`]:`
			`if cls.url_to_id(url):`
			`return True`

new data model: rework douban import 2022-12-31 00:20:20 -05:00			`def import_review(self, entity_title, rating, title, review_url, content, time):`
			`"""`
			`Import one review: return 1: done / 2: skipped / None: failed`
			`"""`
			`prefix = f"{self.user} \|"`
			`url = self.guess_entity_url(entity_title, rating, time)`
			`if url is None:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.info(f"{prefix} fetching review {review_url}")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`try:`
			`h = DoubanDownloader(review_url).download().html()`
lint fix site and import 2023-08-11 11:55:42 -04:00			`urls = h.xpath("//header[@class='main-hd']/a/@href")`
			`for u in urls: # type:ignore`
fix import douban review for games and performances 2025-01-01 10:05:33 -05:00			`if self.is_douban_item_url(u):`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`url = u`
			`if not url:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.warning(`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`f"{prefix} fetching error {review_url} unable to locate entity url"`
			`)`
			`return`
			`except Exception:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.error(f"{prefix} fetching review exception {review_url}")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return`
			`item = self.get_item_by_url(url)`
			`if not item:`
lint fix site and import 2023-08-11 11:55:42 -04:00			`logger.warning(f"{prefix} match/fetch {url} failed")`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return`
add overwriting mode for import 2023-01-09 20:36:12 -05:00			`if (`
modernize importers 2024-12-26 10:54:25 -05:00			`self.metadata["mode"] == 1`
fix import/export 2023-11-28 17:13:47 -05:00			`and Review.objects.filter(owner=self.user.identity, item=item).exists()`
add overwriting mode for import 2023-01-09 20:36:12 -05:00			`):`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return 2`
			`content = re.sub(`
			`r'<span style="font-weight: bold;">([^<]+)</span>', r"<b>\1</b>", content`
			`)`
			`content = re.sub(r"(<img [^>]+>)", r"\1<br>", content)`
			`content = re.sub(`
			`r'<div class="image-caption">([^<]+)</div>', r"<br><i>\1</i><br>", content`
			`)`
			`content = md(content)`
			`content = re.sub(`
			`r"(?<=!\[\]\()([^)]+)(?=\))", lambda x: _fetch_remote_image(x[1]), content`
			`)`
			`params = {`
			`"created_time": time,`
			`"edited_time": time,`
			`"title": title,`
			`"body": content,`
modernize importers 2024-12-26 10:54:25 -05:00			`"visibility": self.metadata["visibility"],`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`}`
fix edge cases in import 2023-12-31 07:41:08 -05:00			`try:`
			`Review.objects.update_or_create(`
			`owner=self.user.identity, item=item, defaults=params`
			`)`
add lint by ruff 2024-04-06 00:13:50 -04:00			`except Exception:`
fix edge cases in import 2023-12-31 07:41:08 -05:00			`logger.warning(f"{prefix} update multiple review {review_url}")`
			`r = (`
			`Review.objects.filter(owner=self.user.identity, item=item)`
			`.order_by("-created_time")`
			`.first()`
			`)`
			`if r:`
			`Review.objects.filter(pk=r.pk).update(**params)`
new data model: rework douban import 2022-12-31 00:20:20 -05:00			`return 1`