refactor: pdf uses snapshot instead of link

2024-06-24 00:50:23 +12:00 · 2020-12-29 13:58:51 -05:00 · 2020-12-29 13:58:51 -05:00 · 756b7fc76d
parent 5cf9ca0e2c
commit 756b7fc76d
1 changed files with 8 additions and 6 deletions
--- a/archivebox/extractors/pdf.py
+++ b/archivebox/extractors/pdf.py
@ -3,6 +3,8 @@ __package__ = 'archivebox.extractors'
 from pathlib import Path
 from typing import Optional

+from django.db.models import Model
+
 from ..index.schema import Link, ArchiveResult, ArchiveOutput, ArchiveError
 from ..system import run, chmod_file
 from ..util import (
@ -19,9 +21,9 @@ from ..logging_util import TimedProgress


@enforce_types
-def should_save_pdf(link: Link, out_dir: Optional[Path]=None) -> bool:
-    out_dir = out_dir or Path(link.link_dir)
-    if is_static_file(link.url):
+def should_save_pdf(snapshot: Model, out_dir: Optional[Path]=None) -> bool:
+    out_dir = out_dir or Path(snapshot.snapshot_dir)
+    if is_static_file(snapshot.url):
        return False
    
    if (out_dir / "output.pdf").exists():
@ -31,15 +33,15 @@ def should_save_pdf(link: Link, out_dir: Optional[Path]=None) -> bool:


@enforce_types
-def save_pdf(link: Link, out_dir: Optional[Path]=None, timeout: int=TIMEOUT) -> ArchiveResult:
+def save_pdf(snapshot: Model, out_dir: Optional[Path]=None, timeout: int=TIMEOUT) -> ArchiveResult:
    """print PDF of site to file using chrome --headless"""

-    out_dir = out_dir or Path(link.link_dir)
+    out_dir = out_dir or Path(snapshot.snapshot_dir)
    output: ArchiveOutput = 'output.pdf'
    cmd = [
        *chrome_args(TIMEOUT=timeout),
        '--print-to-pdf',
-        link.url,
+        snapshot.url,
    ]
    status = 'succeeded'
    timer = TimedProgress(timeout, prefix='      ')