RuLib

Новости Главная Каталог книг Статьи Загрузка Карта сайта
 

[Новости RuLib]

 

06.06.12 Обновился индекс сервера поиска магнет-ссылок  http://dc-poisk.no-ip.org, на сегодня проиндексировано  835 749 106 имен файлов, у более чем 40000 юзеров Direct Connect сетей. Появилось немного свободного времени :). Теперь с http://dc-poisk.no-ip.org, можно через http ссылки вида http://dc-poisk.no-ip.org/cgi-bin/TestCGI?Download_tth=JDS7OMWBHPSHYS2VBVEUZ6XU3Q4OLBAOH4RVN6Q скачивать файлы, как и у лучшей в рунете библиотеки http://gen.lib.rus.ec/ . Скачивать файлы можно только те, которые есть в моей шаре, а это более 450 000 файлов формата pdf и djvu, объемом около 5Тбайт. У http://gen.lib.rus.ec/ вы можете найти свыше 800 000 книг и журналов, правда в отличие от меня Либген коллекционирует англо и русскоязычную литературу, я же стараюсь ограничивать себя только русскоязычной (исключительно  из-за ограничений по объему хранения).  Возможность прямой закачки сделал потому, что теперь благодаря развитию широкополосного интернта в России (спасибо Путину за web-камеры на выборах:) "средний" тариф за 550 руб. в мес предполагает скорость отдачи файлов в 40 Мбит/с и мой пиринговый клиент перестал занимать всю полосу пропускания исходящего канала. С входящим каналом все еще лучше, ночью около 95Мбит/сек, днем около 40 Мбит/с.
23.01.11 Обновилась FindISBN  (доступна со страницы загрузки). Добавлена оптимизация извлечеия изображений из pdf файлов и несколько мелочей.
06.09.10 Обновился индекс сервера поиска магнет-ссылок  http://dc-poisk.no-ip.org, на сегодня проиндексировано  350 938 164 имен файлов, у более чем 29000 юзеров Direct Connect сетей.
24.07.10 Временно до 16.08.10 будут не доступны сервисы на  http://dc-poisk.no-ip.org к сожалению, они работают дома, а значит иногда отдолжны отдыхать вместе с хозяином.
30.09.09 Выложил новую прогу Sinxro, быстро ищет любые файлы в вашей "шаре" и открывает их, а так же позволяет синхронизировать "шару" с большой бибилотекой Library Genesis. Файлы из библиотеки могут храниться в любом месте вашей шары, с любым именем.
12.09.09 Выложил новую версию FindISBN. Появился новый файл-сателлит *.Error. создается при ошибках извлечения текстового слоя. Нужен, что бы повторно не пытаться извлекать текстовый слой.
11.09.09 Выкладываю новую программу: AddTextAnn - добавляет текстовые аннотаций книг в файлы-описатели (*.SpaceLib.html). AddTextAnn предназначена для создание распределенных поисковых сервисов, способных искать книги как в пиринговых сетях, так и на www. http://dc-poisk.no-ip.org:17000/ ищет книги по файлам-описателям созданным с помощью AddTextAnnЕсли вы не готовы скачивать терабайты файлов, а потом месяцами их индексировать, есть простой способ, сделать поиск книг прямо со своего сайта. Надо на страничку добавить маленькую HTML-форму:
<form name="search" method="get" action="http://dc-poisk.no-ip.org:17000/">
  <b>Поиск:</b><br>
  <input size="15" name="text" value="" maxlength="200">
  <input type="submit" value=" Найти ">
  </form>

Поиск книг, пробуйте:

Послесловие: "Обзор школьных и студенческих ресурсов обошелся без электронных библиотек? И это в 2009г.!"
30.08.09 Как всегда новостей много :)
А. На главной странице дана ссыла на Очень большую web-библиотеку научно-технической литературы Library Genesis.
Б. Две, а иногда и три рабочих станции дома уже больше месяца трудятся в поте лица, что бы извлечь текстовые аннотации из моих 135679 файлов-книг формата djvu & pdf. Т.к. существующим текстовым слоям доверия нет, то из файлов извлекается не текст, а изображение текста, далее идет процесс оптического распознавания символов. По окончанию этого процесса, поисковик, заточенный исключительно под книги (http://dc-poisk.no-ip.org:17000/) наполнится необходимым содержанием и сможет искать файлы-книги расшаренные пользователями в пиринговых сетях не только по названию файлов, но и по их содержанию. Фундаментальное отличие http://dc-poisk.no-ip.org:17000/ от http://books.google.ru/ состоит в том, что мой поисковик не только поможет понять, какая книга вам нужна, но и даст ссылки на файлы-книги, которые можно будет свободно скачать на свой ПК и читать без всяких ограничений. Уже сейчас это можно продемонстрировать на реальном примере. Предположим вы студент и вам необходимо найти литературу по курсу "Микропроцессорные системы". Используем ключевые слова, характерные для данной области знаний, например: +микропроцессор +память +регистр +команда . Наш пиринговый поисковик на 16000 уже существующих аннотациях к книгам выдаст вам 147 ссылок на файлы-книги, а http://books.google.ru/  всего 320 ссылок. Что же будет, когда все мои 135000 файлов будут индексированы? 147 и 320 это цифры одного порядка! Я уж не говорю о том, что все найденные моим тестовым поисковиком книги есть у меня, и свободно доступны из пиринговой сети, а у гугл-букс только 0 книг доступно полностью, и 21 для ограниченного просмотра :). Теперь оценим релевантность поиска. Первые пять документов от books.google.ru

1. Referativny? zhurnal, выпуски 10&ndash;12 Institut nauchno? informat?sii (Akademii?a nauk SSSR), VINITI, 1976
2. Путеводитель по компьютеру для школьника Olma Media Group, 2002
3. Radio Ministerstvo svi?a zi SSSR i DOSAAF SSSR, 1984
4. Referativny? zhurnal, выпуск 2  Vses. in-t nauchn. i tekhn. informasii, 1977
5. Новое в жизни, науке, технике Знание., 1970

 Я намеренно сохранил название документов в латинице, именно так выдает гугл-букс результаты поиска в домене .RU! А теперь от http://dc-poisk.no-ip.org:17000/, и как говориться "почувствуйте разницу":

1. Григорьев В.Л. Программирование однокристальных  микропроцессоров . 1987г.
2. Управление программным обеспечением Cisco IOS
3. АППАРАТУРА ЦИФРОВЫХ СИГНАЛЬНЫХ ПРОЦЕССОРОВ Дан Кинг,и др.
4. Могнонов П.Б. Организация микропроцессорных систем: Учебное пособие. 2003. 355с.
5. Современные  микропроцессоры . 2003. - 448 с: ил.

 Комментарии как говорится излишни (но важно помнить, что с появлением новых аннотаций порядок выдачи документов может меняться!). И дело не в том, что поисковое ядро от Яндекса выигрывает у поискового ядра Гугла. Просто мой поисковик использует "актуальный" контент, сформированный не мифическим дяденькой из USA, а сообществом активных людей. Такие Русскоговорящие Сканировщики книг работают не для галочки, а в первую очередь для себя, и щедро делятся результатами своего труда с нами. Пиринговые сети потому и называют народными, что они отражают суть процесса формирования и распространения контента. "Знания будут свободны!" - вот что пишем мы на наших знаменах.

 В новостях от 02.03.09 я очень не лестно отозвался о Яndex.Server Free Edition. Похоже, в компании Яндекс оценили свое детище так же и с апреля 2009г. начали распространять "ентерпрайз" версию своего сервера, ту что раньше продавали за немыслимые деньги. Yandex_Server-3.10.9-ENT-Windows-i386 сейчас называется Яндекс.Сервер и имеет внушительный список возможностей. Для меня главным являются:
  "Неограниченный размер и количество индексируемых документов";
   "Язык запросов идентичен используемому на www.yandex.ru, включая полную поддержку логических операторов, поиск с расстоянием, поиск в зонах и атрибутах документа".
    Как всегда, не поверив на слово рекламным буклетам, решил проверить в деле новый продукт. Первая попытка, оказалась неудачна. Яндекс-сервер при индексации огромного количества файлов (более 9000000) начал безбожно тормозить, проявился так называемый "эффект замедления индексации".   Но судьба свела меня с интересной страничкой руководителя данного проекта. После не долгих консультаций, решение было найдено. В конфигурации сервера нужно было исправить всего один параметр:  PortionDocCount 250 заменяем на  PortionDocCount 100000 и Яндекс-сервер успешно справляется с задачей индексации 9498246 документов. Почему Яндекс, а не открытый и свободный Сфинкс? Если образно, то Яндекс-сервер это готовый дом, а Сфинкс это груда кирпичей из которых домик  еще надо построить. Кроме того, если вы серьезно занимались поиском документов в сети, вы наверно уже знакомы с языками  запросов популярных поисковиков и вас ничему учить не надо. Просто берем и используем ваши знания языка запросов и уникальные возможности поиска Яндекс-сервера, например:
  /N, в котором N заменяется на число, обозначающее количество слов, которое может разделять в документе слова запроса;
  ! осуществляет поиск без учета морфологии запроса.;
  & и && осуществляют поиск слов, встречающихся в одном предложении и на одной странице соответственно.

31.07.09  Новостей много, просто писать было некогда :).
  А.
Самая важная новость, состоит в том, что найден коллектив "старателей" делающих с rulib.narod.ru одно и тоже важное дело - распространение знаний в цифровом виде. Результат их работы, это библиотека-интегратор, постоянно поглощающая в своих недрах "маленькие" он-лайн библиотеки. Живет эта "корневая" библиотека  здесь: http://gen.lib.rus.ec/  и имя ей "Library Genesis". По содержанию контента позиционирует себя, как научно-техническая, и профиль в ближайшее время менять не собирается, в чем её я всецело поддерживаю. http://gen.lib.rus.ec/ корнями своими уходит в один из самых больших библиотечных проектов Рунета "Либрусек" http://lib.rus.ec/ , его статистика впечатляет: (на сегодня = Всего книг в библиотеке - 112832 томов, 104 гигабайт, Всего представлено авторов - 44384, Зарегистрированных пользователей - 155742, Посетителей в день - 100K, Обновлений за последние 30 дней - 3379). В начале лета необходимо было найти в электронном виде ребенку литературу, заданную для домашнего чтения на лето. Все нашел на Либрусек-е за 15 минут. Тексты в "Цифре" дали новое качество, если читать становится лень, горе-ученик быстро переключается на синтезированную речь и совмещает физическую релаксацию с поглощением школьной программы. Прогресс однако.
  Б. Проект http://dc-poisk.no-ip.org жив и на сегодня проиндексировано  287 981 181 имен файлов, у более чем 16000 юзеров Direct Connect сетей. Можно было бы и существенно больше, но мой микроскопический канал занят процессом синхронизации с  http://gen.lib.rus.ec/. Программа для этого уже написана и всесторонне тестируется (скриншоты: "синхронизация через www интерфейс библиотеки", "поиск и тестирование прокси серверов, интеграция прокси в очередь загрузки") из планов добавить "синхронизация с Library Genesis через пиринговые сети DC".
  В. Решил, немного описать работу FindISBN. Программа постоянно дописывается, появляются новые возможности. Их много и о них лучше читать на странице программы. Сейчас FindISBN совместно с (FineReaderToTxt + ABBYY FineReader 8.0 Professional Edition) одновременно на 3-ех моих домашних ПК делают файлы аннотации для примерно 100000 книг и журналов моей пиринговой библиотеки. Все файлы djvu & pdf  пройдут через эту процедуру, текстовый слой будет создан принудительно не взирая на его существование. А поисковик  http://dc-poisk.no-ip.org предстоит научить искать не только в названиях файлов, но и в их аннотациях. Все это позволит найти книгу в пиринговой сети, даже если, у её файла не было осмысленного имени пригодного для поиска.
12.03.09 В тестовом тежиме запущен новый сервер поска магнет-ссылок на файлы.  Пробуйте здесь http://dc-poisk.no-ip.org . В БД свыше 179 000 000 магнет-ссылок на файлы доступные в DC сети.
08.03.09 Пока остановился на связке Sphinx+MySQL, скриншоты здесь (всего записей в таблице более 179 000 000, поиск  Sphinx-ом и извлечение полных данных о конкретном файле из БД). Интересно время поиска, оно подозрительно мало, наверно использованы результаты предыдущего поиска, сохраненные в кеше.Пределов масштабируемости на «утилитарном железе» пока не заметно, посмотрим, что будет дальше.
02.03.09  После долгих мучений с Яndex.Server Free Edition ему вынесен приговор: «В топку его!». Максимальное  количество проиндексированных документов со всеми ухищрениями по инъекции папок не превысило 6.2 мил. на одну коллекцию. Пробовал я и Yandex.Server.Pro версию. Он тоже имеет свои ограничения (на число коллекций), но главное, это не бесплатный продукт и его теперь не скачать официально. http://dc-poisk.no-ip.org:17000  на Яndex.Server Free Edition пока оставлю, пусть живет, однако в будущем на http://dc-poisk.no-ip.org будет Апач и sphinx в качестве поисковика, а  MySQL или NTFS в качестве источника данных. К сожалению MySQL пока под вопросом, таблицы (MyISAM) конечно могут быть большие, но вот эффективно в них индекс строить не реально. Это похоже связано с тем, что все ключи пытаются запихнуть в один файл. Показатели производительности на  InnoDB таблицах еще хуже. Сейчас в тестовой MyISAM таблице около 175 000 000 записей с информацией о файлах расшаренных пользователями DC сетей и занимает она около 32 Гбайт на диске. Sphinx-у требуется несколько часов для построения полнотекстового индекса над полем с названием файла. Сам поиск занимает около 0.5 секунды, но все зависит от подсистемы I/O. Индекс  около19 Гбайт и  при таких объемах в память уже не помещается. На худой конец, поступлю как Google, и откажусь от СУБД вообще, под нашу задачу NTFS подойдет вполне, правда накладные расходы на хранение данных увеличатся в разы даже с учетом использования сжатых томов и оптимизации по размеру кластера.

9.01.09 В рамках проекта RuLib запущен сервер поиска магнет ссылок http://dc-poisk.no-ip.org:17000. Его задача показать: как легко организовать поиск книг и журналов в хабах. Теперь любой энтузиаст без написания строчки кода может создать базу данных  из миллионов  ссылок на документы. В качестве поисковика пока выбран бесплатный Яндекс Яndex.Server Free Edition  , SSearch используется для создания файлов с магнет-ссылками на файлы. (Обсуждение).

10.11.08 Написана и активно тестируется новая программа FineReaderToTxt (скриншот прототипа здесь). Она реализует пакетное распознавание (Hot Folder for ABBYY® FineReader 8.0 Professional Edition :). Её основная задача помочь FindISBN надежнее искать ISBN и ISSN в электронных документах (подробнее).
  Написана и активно тестируется новая программа - "Поиск авторского названия книги путем сравнения текстового слоя документа с библиографическим каталогом" - FindAName,
(скриншот прототипа здесь).  Проще говоря, если в тексте есть название книги, оно с помощью FindAName находится и записывается в файл сателит документа с расширением *.NameBook. (подробнее). Обе программы после всесторонней доработки и тестирования будут выложены для скачивания вместе с исходными кодами.
22.10.08  На сайте http://ewrika-ru.narod.ru/ были выложены книги практически не встречающиеся в сети
27.09.08 Выложил набросок статьи Оцифровка бумажных документов.
29.07.08 RuLib
начал свою работу!

 

 

 

 

 

 

 

 

 

 

 

 

Новости Главная

Каталог книг

Статьи

Загрузка Карта сайта
Сайт управляется системой uCoz