SW alat za skidanje Wiki sa RedMine-a

Problem je u tome što i wget i HTTRack prave džumbus na RedMine-u kada se koriste.
Ostavljaju repove i JAKO ga usporavaju.
Dakle tražim nešto treće.

Deo free alata sam već testirala u ovom postu, dakle bez tih.

UnMHT
Ovo je FireFox add-on, ne odvojeni program.
Paziti da se slaže sa lokalnom verzijom FireFox-a. Kod mene se ni verzije iz 2014 ne slažu, tako da ništa od toga.

Websitedownloader
Ovo je online site downloader.
Pošto je moj sajt u unutrašnjoj mreži, ovo nije za mene.

Sitesucker
Ovo je samo za MAC, tako da ništa od toga.

Grabzit
Online alatka, dakle ništa.

Webscrapbook
Još jedan FireFox i Chrome add-on.
Zahteva backend server, tako da nije upotrebljiv.

Telport Pro
Nije free, plaća se

Offline downloader

Free je samo trial verzija koja daje do 5000 fajlova, što nije dovoljno.

WinWSD
Prilično je mator, iz 2013, i zahteva WIN 7, tako da nije za mene.

Free Download Manager
Vrlo je aktuelan, poslenji put je ažuriran 19.02.2022.

Wget.exe za WIN 10

Postoji i wget.exe za WIN 10 i može se naći ovde.
Meni treba za backup internog sajta.

Komanda se pokreće iz direktorijuma u koji je EXE fajl spušten.

Ovo radi odlično za HTML strane (u mom slučaju RedMine issue). Povlači i povezana dokumenta i linkovane ostale probleme.
wwget.exe -d -m –save-cookies=”D:\Moja Dokumenta\kolacici.txt” –keep-session-cookies –recursive –level=0 -e robots=off –page-requisites –adjust-extension –convert-links –output-file=”D:\Moja Dokumenta\wget.txt” –show-progress -U firefox -e http_proxy=http://10.10.10.10:80 –no-parent –auth-no-challenge –trust-server-names –user=velda –ask-password –no-check-certificate –directory-prefix=”D:\Moja Dokumenta\30000″ https://moj sajt/issues/30000

Setting –mirror (mirror) to 1
Setting –save-cookies (savecookies) to D:\Moja Dokumenta\kolacici.txt
Setting –keep-session-cookies (keepsessioncookies) to 1
Setting –recursive (recursive) to 1
Setting –level (reclevel) to 2
Setting robots (robots) to off
Setting –page-requisites (pagerequisites) to 1
Setting –adjust-extension (adjustextension) to 1
Setting –convert-links (convertlinks) to 1
Setting –output-file (logfile) to D:\Moja Dokumenta\wget.txt
Setting –show-progress (showprogress) to 1
Setting –user-agent (useragent) to firefox
Setting http_proxy (httpproxy) to http://10.10.10.10:80
Setting –no-parent (noparent) to 1
Setting –auth-no-challenge (authnochallenge) to 1
Setting –trust-server-names (trustservernames) to 1
Setting –user (user) to velda
Setting –ask-password (askpassword) to 1
Setting –check-certificate (checkcertificate) to 0
Setting –html-extension (adjustextension) to 1
Setting –span-hosts (spanhosts) to 1
Setting –directory-prefix (dirprefix) to D:\Moja Dokumenta\30000
Password for user ‘velda’:
moj sajt/bla bla [ <=> ] 177.46K –.-KB/s in 0.001s
moj sajt/favico 100%[=================================================>] 7.70K –.-KB/s in 0s
moj sajt/styles 100%[=================================================>] 26.89K –.-KB/s in 0s
moj sajt/themes 100%[=================================================>] 11.47K –.-KB/s in 0s
moj sajt/javasc 100%[=================================================>] 329.88K –.-KB/s in 0.005s
moj sajt/javasc 100%[=================================================>] 16.24K –.-KB/s in 0s
…..

Svičevi :
-P – definiše gde se spušta fajl/backup
-d – debug mode
-m – mirror
–recursive – za skidanje celog sajta (l=2 do II nivoa)
–page-requisites – Get all assets (CSS/JS/images)
–adjust-extension – Save files with .html at the end
–convert-links – Convert the links in the HTML so they still work in your local version
–no-parent – Do not ever ascend to the parent directory when retrieving recursively
–output-file – gde da se stavi log fajl
–show-progress – prikazuje progres
–user – definisanje naloga za rad i za HTTP i za FTP
–ask-password – da lozinka nije u komandnoj liniji
-no-check-certificate – pošto je sertifikat lokalan i pored ostalog i istekao…..
–save-cookies cookies.txt –keep-session-cookies / ove dve komande su zato da ne bi dobili samo login stranu!

Ali je problem ako treba spustiti DMSF fajlove.

Dobar link1

Excel i nalaženje linkova ka drugim (Excel) dokumentima

Kada se u nekom Excel dokumentu nađu linkovi ka drugim lokalnim dokumentima, to može da bude problem, jer kada se takav dokument pošalje sa matične radne stanice, rezultati u ćelijama će se promeniti, zato što linkovani dokument više nije raspoloživ.

*Načini nalaženja linkova (PAZITI, iskoristiti SVE načine, jer ni jedan ne nalazi sve linkove!!!!!)*

1)
Press Ctrl+F to launch the Find and Replace dialog.
Click Options.
In the Find what box, enter .xl.
In the Within box, click Workbook.
In the Look in box, click Formulas.
Click Find All.

2)
On the Data tab, in the Connections group, click Edit Links.

In the Source list, click the link that you want to break.
Click Break Link.

Dobri linkovi : link1, link2

Pandan tail -f komande za WIN10

Ima mali pogramčić koj to radi : “Snake tail“, ali može i drugačije :

PowerShell
Otići na lokaciju gde je logfajl.log i dati komandu :
Get-Content logfajl.log –Wait
Ovo će izlistati ceo log odjednom, i onda izbacivati liniju po liniju kako se upisuju.
Dobar link.

Kako videti SAMO poslednje 3 linije upisane u log fajl :
Get-Content D:\log.txt -Tail 3

Kako sačuvati off-line ceo sajt

Moj kompjuter na koji hoću da sačuvam sajt : WIN10/64
Sajt je interni u unutrašnjoj mreži, ali sa njim ima dva problema :
1. Redirektuje, jer traži user+pass za logovanje
2. Ima sertifikat koji nije root

Evo koje sam free alate probala :

1) Cyotek Web Copy
Na prvi pogled deluje super, ali javlja silne greške, i ne uspevam da mu “poturim” user i pass za sajt.
Postavila sam pitanje na njihovo forumu, pa ćemo videti.

Kako se isključuje provera sertifikata :
If the SSL certificate associated with a website is invalid or untrusted, WebCopy will refuse to copy the site. You can force such sites to be copied by ignoring certificate errors.
From the Project Properties dialogue, expand the Advanced category and select Security
Check the “Ignore certificate errors” option
Napomena : zbunjuje me pošto i dalje javlja da je nesiguran sertifikat kada probam da uradim “Capture form”?

Using a web browser to log in
Select Forms and Passwords from the Project menu and select the Passwords category
Check the Log in using a web browser option

Napomena : radi kada sajt nije zaštićen sa user+pass kombinacijom. Uzdah.

2) HTTrack
Malo mator (iz 2017)
Pamti projekat kao *.whtt
Koristi to da sebe treba privremeno staviti kao proxy u IE, ali kao svoju IP adresu daje SAMO IPv6!!!!!
Pošto je u pitanju interna mreža IPv6 nije uopšte omogućen. Jedino rešenje koje sam našla je da se uradi ovo : [IPv6]
, tj da se IPv6 adresa stavi u uglaste zagrade.
Ovde je dobro objašnjenje kako bi to trebalo da radi (ali ne radi).

Napomena : WinHttrack does not have a stop and resume. It only has a Pause/resume and a Cancel/continue. If you Pause you then Resume right where it left off. You can not close httrack.

Dobar link sa nekim osnovnim uputstvom za rad.

Don’t shutdown. Pause httrack and hibernate.

Rešenje :
a) Koristiti Google Chrome
b) Ići na More tools/Developer Tools

c) U Chrome-u otvoriti željeni sajt i ulogovati se
d) U Developer Tools delu Chrome prozora, ići na stavku “Cookies”, “Ime vašeg sajta”

e) Kopirati vrednost pod stavkom “_vaš sajt_session_” (to je jedna OGROMNA kobasica alfanumerika)

f) U HTTRack, kada se dodaje URL, prvo dodati URL sajta koji želite da sačuvate, onda URL za login stranu i onda na kraju dodati “kobasicu” iz predhodne tačke
Dobar link
OBAVEZNO uz URL sajta i login strane dodati i user i pass, u obliku : http://user:pass@www.someweb.com/private/mybox.html
Ovo uraditi za sve delove sajta koje HTTRack inače neće da skine!!!!!
Nema veze što su u pitanju delovi ISTOG sajta, imaju različite kolačiće!
g) Na kraju treba da se dobije :

Kako je gore opisano, HTTRack spušta sajt, i spusti oko 70%, i ne spusti sve. Pošto se sajt MNOGO grana, pokušala sam da stavim neka ograničenja :


Ako se ova podešavanja koriste količina podataka je MNOGO manja (bez je 8,45G sa je 333MB), ali se čini da su isti fajlovi pokupljeni.

Greške koje se mogu javiti u logu HTTrack-a :
a) Warning: File seems complete (same size), but there was a cache read error
b) Error: “Not Found” (404) at link https://…..
Pokušaj rešenja sa (tj slika dole) :
options -> Links -> Attempt to detect all links
options -> Links -> Get non-HTML

Na žalost ovo ne uklanja sve ovakve greške…..
Ali pošto je uzrok : Not found = bad links on the site i ne može 🙂
c) Warning: HTML file (9876 bytes) retransferred due to lack of cache
Ovo se izgubi ako se “otčekuje” opcija “Get HTML files first”
d) Error: Unexpected robots.txt error – ovo se izbegne tako što se isključi poštovanje robot.txt fajla (taj fajl se nalazi na sajtu i služi za određivanje načina pretrage sajta, i HTTrack ga po default-u poštuje) :

e) Error : “Error when decompressing”
f) Error : Unable to get server’s address
Ubaciti podatke o proxy serveru i njegovom portu, iako je (bar u mom slučaju) sajt potpuno lokalan (u unutrašnjoj mreži), čime se broj ovih grešaka dosta smanjuje.
g) Error “Forbidden” (403)
Ovo se može ukloniti ako se izmeni browser u “Set options”/Browser ID” (link) :

Ako se browser stavi na “None” “403” grešaka maltene više nema!!!!!
Druga mogućnost : changing “Browser ‘Identity'” from the default of “Mozilla/4.5 (compatible: HTTrack 3.0x; Windows 98)” to “Java1.1.4”. I chose the Java identity because it didn’t contain the substring “HTTrack”, which may have been the reason I was being blocked.
h) Error “Service unavailable (503)”
You are probably crashing the site.
Set it to one connection, one connections/sec, 5kb/s (smanjuje zagušenje pri download-u)
i) Warning: Unexpected 412/416 error (Requested Range Not Satisfiable)
Ovo je prouzrokovano izmenom/pomeranjem sajta.

Problem
Problem je to da i pored raznih podešavanja ostaje isti : HTTrack NE skida ceo sajt (proveravala sam i bez obzira na postavku isti delovi sajta su spušteni odnosno nisu spušteni).

3) Getleft
Vrlo malo opcija, javlja grešku “Unsupported protocol”
Odustajem od njega.

4) BimeSoft Surf Offline
Trebalo bi da radi sa sajtovima koji imaju user+pass.
Plaća se, pa sam odustala.

5) wget
Download wget for WIN10/64
Koristi se iz komandne linije (otvoriti cmd “As Administrator”).
Spušta se fajl sa imenom wgetforwin10.exe, i pod tim imenom se i poziva (bez ekstenzije, naravno).
Dobijanje help-a : wgetforwin10 -h
Ovo će izlistati sve opcije.
Ako se spušta spoljašnji sajt, prosleđuju se i podaci o proxy serveru (ako on postoji) :
wget -e http_proxy=http://proxy:port –recursive ime.sajta

Ovo je odlično skinulo sajt van lokalne mreže :
wgetforwin10.exe –recursive –mirror -e http_proxy=http://10.10.10.10:80 linuxkitchen.com

Za sajt u unutrašnjoj mreži, koji ima ne-root sertifikat i traži username+pass :
wgetforwin10.exe –no-parent –save-cookies=”folder.za.download/kolacici.txt” –keep-session-cookies –auth-no-challenge –user=velda –ask-password –convert-links -e robots=off –level=2 –output-file=”folder.za.download/wget.txt” -e http_proxy=http://10.10.10.10:80 –trust-server-names -p -U mozilla –no-check-certificate –recursive –mirror https://sajt.koji.skidam/projects/blabla/wiki
Ne prosleđujem direktno lozinku zbog bezbednosti, a i zato što je komanda ne prihvata zbog verzije HTTP-a.
Kolačići : zato što mi inače ne pravi index.html stranu nego login stranu, iako sam dala user+pass
Namerno sam usmerila stdout na log fajl, da mogu posle sve na miru da pogledam, a log fajl pratim iz PowerShell-a sa komadom :
Get-Content logfajl.log –Wait

Recursive Download – This means that Wget first downloads the requested document, then the documents linked from that document, then the documents linked by them, and so on. In other words, Wget first downloads the documents at depth 1, then those at depth 2, and so on until the specified maximum depth.

Šta znače svičevi :
–no-parent means don’t search parent directories
–random-wait to make sure you don’t get blacklisted from a site
-r recursively downloads
-e robots=off ignores robot.txt files
-U Mozilla makes the user look like its Mozilla I think
-E ili –adjust-extension
If a file of type application/xhtml+xml or text/html is downloaded
and the URL does not end with the regexp \.[Hh][Tt][Mm][Ll]?, this option
will cause the suffix .html to be appended to the local filename.
-k ili –convert-links
After the download is complete, convert the links in the document to
make them suitable for local viewing. This affects not only the visible
hyperlinks, but any part of the document that links to external content,
such as embedded images, links to style sheets, hyperlinks to non-
HTML content, etc.

*****

Dve zanimljive definicije :
Mirroring refers to downloading the entire contents of a website, or some prominent section(s) of it (including HTML, images, scripts, CSS stylesheets, etc). This is often done to preserve and expand access to a valuable (and often limited) internet resource, or to add additional fail-over redundancy.
Scraping refers to copying and extracting some interesting data from a website. Unlike mirroring, scraping targets a particular dataset rather than the entire contents of the site.

WIN 10 automatsko kopiranje fajla

Potrebno mi je da postavim automatsko kopiranje fajla koji se nalazi na NAS-u na moju lokalnu mašinu (kao vrsta backup-a).

Skripta
Prvo je potrebno napisati skriptu koja radi posao kopiranja, a onda koristimo WIN 10 scheduler da tu skriptu pozivamo kad nam zatreba.
Treba mi skripta za kopiranje fajla sa source lokacije A na destination lokaciju B, uz prepisivanje stare verzije fajla na lokaciji B.
Skript se može pisati u Power Shell-u (*.ps1) ili kao batch fajl (*.bat).
Ja ću ga napisati kao batch fajl.

Koristiti notapad ili notepad++ i sačuvati fajl sa nastavkom *.bat
Testirati fajl iz komandne linije : C:\PATH\TO\FOLDER\BATCH-NAME.bat

Evo moje skripte :
@echo off
robocopy “\\nas\folder1\folder2\folder3” “D:\Moja Dokumenta\folder1\folder2” “Test fajl A.txt”
exit /b

Evo kako izgleda kad se skripta pokreće testno iz komandne linije :

Paziti :
a) Ako u nazivima foldera ili fajla postiji blanko/razmak OBAVEZNO staviti dvostruke navodnike pre i posle (kako je i kod mene urađeno).
b) Takođe ovaj primer PREPISUJE destinacioni fajl sa source fajlom.
c) Posle poslednjeg foldera u source ili destination NE stavljati backslash

Postavljanje Task Sheduler-a
Using the “Windows Key“ + “R” to open run and type “taskschd.msc“. This will open Task Scheduler.

Napomena : OBAVEZNO kreirajte neki svoj folder u kom ćete držati svoje skripte!!!!!!
Under the actions panel, you can choose to create a back task or create a task. Click “Create Task“.

The “Create Task” screen will appear. Select the “General” tab
In the “Name” field, give the task a name. Example: “Outlook Task“.
In the “Description” field, here you can describe what the task is for and what it will do.
The last section is the “Security options“, here you can set who can run this task and if the task has admin right.

Select the “Actions” tab, then select “New“.
The “New Action” window will open.
In the “Action” drop down, “Start a program” is set by default. Change it if desired.
Select “Browse…” next to the “Program/script” field
Browse to the program you are wanting to schedule a task for.

Select “OK“.
Go to the “Conditions” tab.
You can change these if you’d like, but I recommend leaving these settings default.
Select the “Settings” tab. You can change these if you’d like, but I recommend leaving these alone.
Select “OK“.

Provera rada
Provera se vrši kroz logove (što je kod WIN 10 malo hmmmmm).
History za task postoji u samom Task Sheduler-u :

Dobar link1 za WIN 10 task sheduler.
Dobar link2 za batch fajl copy/paste.
Dobar link3 za robocopy opcije i primere