Результаты деятельности нетсталкинг-группы https://t.me/google_docks
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
 
 
Corban Dallas 771cbcb083 hash table 2 years ago
gdocs_stat_tools update 2 years ago
hashes hash table 2 years ago
usl links base & programs for analysis 2 years ago
README.md update 2 years ago
dblinks.zip links base & programs for analysis 2 years ago
search_in_google.py init 2 years ago

README.md

Разработки группы

Сбор ссылок через бота

Скрипт для сбора ссылок на документы из поиска

Полная база собранных ссылок на разные документы (104710 штук) - SQLite

Бот для сбора и агрегации ссылок - сейчас не работает, исходники отсутствуют

Анализ ссылок с помощью USL

Все файлы (скрипты + БД)

Обсуждение

Пример базы со ссылками

Анализ гуглодоков через lua

Все файлы (скрипты + БД)

Обсуждение

gdocs_stat_tools_v1.zip - софт, который делает базовый анализ (раскладывает ссылки гугло-доков по файлам согласно типу). результаты в директории rwdata/links_by_doctype/ . там текстовые файлы с ссылками, по одной на строку. имена файлов - это типы гугло-ссылок. в notepad в винде может открыться не очень красиво, лучше открывать в более продвинутых блокнотах (кажется, Notepad++ откроет нормально)

gdocs_stat_tools_v2.zip - инструменты для сбора статистики / категоризации гугло-док ссылок, версия 2. содержит только софт, без баз и результатов

stats.txt.zip - статистика по типам документов гугло-док ссылок. теперь ссылки типа "а" разбираются дополнительными способами, что позволяет лучше выяснить настоящий тип документа

rwdata.7z - директория "rwdata": полные результирующие данные (для тех, кто не хочет запускать софт, но посмотреть результаты)

Пароль от архивов: ApkaOkkoCmyc51Z51MoooMooo

Реализация сканера документов как модуля PyNesca

Исходный код

Визуализация распределения символов в хэшах документов

Картинки

Сторонние полезные инструменты

https://github.com/aviaryan/python-gsearch - неофициальный API для поиска в Google

https://github.com/uid/gdoc-downloader - скрипт для выкачивания Google-документа

https://github.com/dergachev/gdocs-export - выкачивание документа и преобразование в LaTeX

https://github.com/opsdisk/pagodo - автоматизация поиска по Google-доркам

https://github.com/googleinurl/SCANNER-INURLBR - поиск по доркам в различных движках