Мирский Христо : другие произведения.

06. Идеи о поиске браузеров в Интернете

"Самиздат": [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:


 Ваша оценка:
  • Аннотация:
    Здесь изложены некоторые личные идеи об улучшении поиска браузеров в Интернете.
    Keywords: программирование, поиск браузеров, улучшение, только личные идеи.




ИДЕИ О ПОИСКЕ БРАУЗЕРОВ В ИНТЕРНЕТЕ


     На этот раз это только идеи, может быть и голые идеи (но в наше время голые вещи разрешены, ведь так?), так что я ничего не требую ни с кого. Я просто делюсь моим мнением. Потому что это большие и сложные программы, они и экспертные системы, и обучаются, и грамматический анализ проводят в разных языках, и поиск по всему web-у всё время проводят и актуализируют свои таблицы доступа, и так далее. Кроме того я вообще не специалист по Интернету, я был лишь программистом лет 25 тому назад, но наше время динамичное, так что я порядочно отстал. Тем не менее имеются очевидные вещи, которые прямо бросаются в глаза если человек не предубеждён в чём-то, если не защищает чью-то частную позицию, хотя здесь трудно сказать, что люди работают неправильно. Нет, они работают, да вроде бы не в нужную сторону идут, делают то, что легче и эффектнее сделать, а не то что нужно. Так что, госпожи и господа, "браузерчики" -- а то и клиенты, ибо если потребители затребуют чего-то, то оно скоро появится --, хотите слушать меня, то пожалуйста, а не хотите -- я свой долг выполнил.
     Так. Тогда начну.

1. Общее впечатление

     Общее впечатление при использовании любого браузера сводится к тому, что это частные компании и они стремятся чем-то выскочить перед другими -- как вот разные магазины --, но это обычно несущественные вещи, это просто бросание пыли в глаза, и не будь у них концепции показа сперва что в пару (ну ладно, в пару сотен, наверное) сайтов сказано по данному вопросу, то люди вообще отказались бы их использовать! Вот так-то. Я думаю что не преувеличиваю, у них завидные достижения, но не в самой стороне поиска, в одном Word-е гораздо лучшие возможности поиска, по частям слов, по шаблону, даже для английского языка давно существует странный поиск похоже звучащих слов.
     Ну, этому свои причины. В интернете нельзя искать когда люди запросят, нет, ищут всё время и поддерживают таблицы для каждого слова (думаю, предполагаю, но как же иначе?), и потом, при надобности, эти таблицы объединяются или секутся. И искать по частям слов это, в принципе глупо. Но, с другой стороны, ищут же по однобуквенным словам (скажем "и", или английское "a", и т.п.), так что, почему бы не искать, скажем, "много-", или "-брев-", или "англ-"и так далее, но без чёрточки, я её ставлю для того чтобы было ясно что это не целое слово? Но самое большое затруднение для браузеров получается не при поиске, а при показе, найденных встречаний слов. И знаете ли почему? Я лично только теперь задумался, и для меня ясно, что это потому что в вебе не дефинировано отношение порядка (order relation) и нельзя сказать какой сайт перед кем показывать, в принципе! Поэтому выходит, что то, что любой браузер вам показывает, упорядочено далеко не в нужном порядке, а тем более в том порядка, в котором вам бы хотелось (хотя вы и не сказали в каком, но и не имеете такой возможности).
     Что делать в таких случаях? Как будто имеются только два варианта: один это кластеризировать как-то встречания (по датам, по языкам, по странам, и т.д.), и выбирать показывать только часть этих групп, и другой это вводить какой-то счётчик для приоритета показа данного сайта (сайтов, мне кажется, не так уж и много, уж в любом случае меньше всех слов в данном языке, а их куча языков, да и бывают много вариантов слов). Я считаю, что браузерчики используют и то и другое, где приоритет начисляется по числу запросов к данному сайту, или даже страницы сайта, да и вводя список наиболее важных сайтов. Это всё они делают, я не говорю что нет, да недостаточно хорошо для конечного потребителя. Рассмотрим это чуть более подробно.
     Вот, когда вы пишете только одно слово в окошке, всё происходит более или менее хорошо, где "более" означает, что в начале появляется Википедия, и ещё пара других, вроде бы важных сайтов, а что дальше вас не интересует, а "менее" означает, что -- так зачем показываются эти сайты, раз они вас не интересуют? Единственный смысл в показе всех встречания данного слова в том, чтобы проверить что правильно, ибо может быть ошибочное исписывание слова, и это в силе и для комбинаций слов (как: "в этом годе", или "в этом году", или ещё ищете как правильнее по английски "depends from", или "depends on", но лучше всего не забывать кавычек). Это очень хорошая возможность (как побочный продукт) но совершенно ни к чему показывать эти встречания, достаточно посмотреть только на статистику использования и выбрать что более используемое. Но ладно, что больше, это не страшно, в конце концов, хотя дело в том, что вовсе не мало сайтов забивают себе место при таких запросах, и когда посмотрите там, то показывают вам всякие рекламы, так что оказывается, что показ ненужных вещей служит рекламе и мешает потребителям, вас ловят на "мякине", как говорится.
     Но самая плохая работа браузеров наступает когда ищете несколько слов, ибо тогда, не смотря на всякие ухищрения при выделении корней слов и пропуске (как правило) союзов, т.е. не смотря на проведённого грамматического анализа вашего запроса, и на формировании разных вариантов поиска, применяется, как правило объединение, ИЛИ, а не сечение (И) слов. Таким образом, добавляя больше слов вы не суживаете поиск, а наоборот, расширяете его, что противоречит здравому смыслу. А если вы решите записать слова в кавычках, для дословного поиска, то тогда можете пропустить много сродных слов. А то что потребителю хочется, это какая-то возможность проведя сначала поиск добавить ещё что-что, и сузить его, да почти нечего добавить, ибо даже язык и страна не соответствуют точно названию, это то что расположено на вебе в данной стране, но оно может быть хоть на суахили. Вся аттрактивность браузеров базируется прежде всего на поддерживании множества больших упорядоченных списков наиболее часто встречаемых заявок и на частоту использования данных сайтов; системы кажутся довольно-таки интеллигентными, но их интеллект почти такой как интеллект попугая.
     Так что имеется смысл поделиться несколькими моими предложениями, а как их можно будет имплементировать, что убрать с существующих вещей если оно противоречит сказанному здесь, остаётся, разумеется, на усмотрение специалистов делающих это программное обеспечение. Но нужны довольно-таки драстические изменения, ибо состояние веба примерно на том уровне как в начале его появления (как, скажем, в 1990-м году), а информация с тех пор увеличилась положительно больше 1,000 раз, и что будет через ещё пару десятков лет уму непостижимо. Вот, а свои предложения я не буду чётко упорядочивать, просто выскажу несколько разных идей.

2. Достоверность источника, и другие типы страниц

     Для меня очевидно, что должно быть какое-то мнение о достоверности источника, потому что нельзя ставить на одном уровне то что говорят официальные инстанции, как государственные агентства, и прочее, или научные организации, с тем что говорят медии (это в основном обман, я думаю что не храните других впечатлений о них, просто красивый обман, который нравится большинству читателей), или также разные (конкурирующие, и потому противоречащие друг другу) фирмы (медии тоже противоречат одна другой), и особенно с тем что говорит каждый кто может говорить (собственно писать на клавиатуре), как школьники, молодёжь, пенсионеры, клиенты, и прочее. Я не говорю, что нельзя слушать и тех и других и третьих, но нужно их различать.
     Что я имею в виду точнее следующее: нужно ввести тип или достоверность сайта как одно из трёх (хотя бы): a) авторизованные, которые должны выдвинуть свою кандидатуру на такие, должны быть соответствующие показатели, которые должны удовлетворяться ими, но прежде всего некоторое единство и централизация мнения, официальный взгляд на вещи, хотя бы в рамках государства, это официальные учреждения, и даже не все их сайты, могут быть и неавторизированные сайты даже министерств, также официальные академические или учебные заведения, и прочее, но тоже единое и официальное мнение, а не, один думает так, а другой иначе, и здесь, разумеется, и национальный вариант Википедии; b) фирменные, или всякие организации, медии, общества, литературные сайты, и прочее, которые доказывают свою принадлежность к этой категории тем, что они регистрированы как юридические лица; и c) физические лица, т.е. каждый кто хочет (Сулю и Пулю, как говорим в Болгарии), которые ничего не доказывают, и если данный источник ничего не может доказать, то он включается в эту категорию (скажем, блоги, где можно добавлять свои мнения, разговорчики, вопросы и ответы открытые для всех, и прочее). Тогда поиск нужно проводить по умолчанию только для авторизованных инстанций (а таких должно быть не больше одного процента, я полагаю), и показывать только статистику встречаний для второй и третьей категории.
     Только в таком случае можно считать что Интернетом можно пользоваться как альтернативой прежних энциклопедий, для образования, а не для заблуждения легковерных. Но такие меры принимать только в одной стране просто не имеет смысла, здесь нужно самое трудное, единое решение всего Интернета, а у него, как я думаю, просто нет мирового административного органа. Значит придётся создать, к ООН, может быть.
     Далее нужно более строгое слежение за языками и странами на каждом сайте, т.е. нужно будет требовать введение таких параметров в начале каждой страницы. Скажем, эту вещь я пишу на русском, и размещаю в России, но может быть размещу и в другой стране и опять на русском, а может быть (как оно и бывает у меня) и то, что я размещу что-то на болгарском, или на английском, или на немецком, и так далее, на русском сайте; это справедливо и для реклам, ибо несмотря на все усилия компьютерных переводчиках, язык всё ещё самый главный параметр каждого текстового материала. По сути дела Интернету можно верить только насчёт даты появления вещей, здесь всё точно, а иначе, всё условно.

3. Поиск по соседству

     Как сказал, я не специалист в области Интернета (лишь около этого), но не слышал чтобы говорилось о vicinity search, а без него проводить более или менее хороший поиск больше одного слова получается довольно неудачным из за отсутствия отношения порядка, а такой поиск вводит какой-то порядок. Что я имею в виду следующее: введение, скажем путём квадратных скобок, последовательностей слов, которые если без кавычек будут размножаться во всевозможные падежные и прочие формы, но иначе не будут, которые будут искаться на расстоянии одно от другого, или на максимальном расстоянии если их больше двух слов, где сама величина этого расстояния (в словах) будет задаваться последним параметром (а может быть и ещё один параметр для всей группы). По умолчанию нужно понимать 3 слова, или через два налево или направо, но не больше пяти для всей группы. К примеру
     [Мирский "Христо" 2]
или ещё
     [население численность мир 3 7]
или ещё
     [ ["Христо" Мирски 1] [религия коммунизм 2] болгарский 100 ]
и прочее варианты которые положительно не так уж и трудны, чтобы и домохозяйки, как говорится, могли писать похожие заявки к браузеру; если нет кавычек, подразумевается что можно варьировать слово, получая "Мирский", "Комунизмът като религия" и где нибудь слово болгарский (коли нужно можно написать и 10,000). Базисная работа браузеров при поиске при этом не измениться, но изменится способ упорядочивания при показе, и результаты могут свестись буквально к одному (т.е. к возможным копиям на разных сайтах). Кроме того так можно задавать и более широкие заявки, которые потом можно будет суживать меняя некоторые числа, или добавляя новые слова, а это очень существенно, потому что я сказал, что человек должен суживать количество полученных результатов, а не увеличивать их.

4. Поиск по важным параметрам страницы

     Значит, как посмотришь на возможности современных браузеров, можно подумать, что люди всегда делали так как делают и браузеры, да оно вовсе не так. Библиотеки существуют уже тысячи лет, но нигде и никогда нельзя было искать книги по встречанию в них определённых слов (скажем: коммунизм, партия, правительство, гражданский долг, и прочее)! То что можно было делать, а и теперь можно делать в любой библиотеке, это проводить поиск по автору, по заглавию, на кириллице или латинице, по индексу на какой полке они расположены, и ещё по тематическому каталогу (когда не знаешь точно автор или заглавие, или тебя интересуют несколько схожих книг). Вот так то. А не по тому встречается ли в них слово, да простят меня читатели, "жопа" (или только "попа"). Я согласен что новое не всегда должно смотреть на старое, но оно должно как-то согласовываться, нельзя отречь всю историю до нас и начать жить сначала (как многие из молодых, наверное, думают). Раз так работалось до сих пор, то такие возможности должны быть налицо и теперь, а то что может и ещё что-то быть возможным -- ну, тем лучше, но вертикальная надстройка с сохранением старых возможностей. Это не я придумал, это правильный метод работы в любой области.
     Ну, насчёт автора и заголовка материалов, то они, разумеется, будут найдены если ищутся все возможные слова (хотя будут найдены и много упоминаний о них, что не совсем то), но где остаются ключевые слова, по которым, собственно, нужно проводить поиск (а не по союзам и случайным словам), и тематика? Здесь я тоже не корифей, но существует же библиотечное образование и там люди знают эти вещи, это азбучные истины для них, иначе нельзя. Насчёт ключевых слов то уже все знают слово keyword и используют (как и я на некоторых сайтах), но и это не правильно, это самодеятельность, каждый ставит какие хочет ключевые слова, так не делается, хотя можно допустить (за неимением лучшего). И потом не забывайте, что если эти ключевые слова на языке повествования в документе то тогда не отличить их встречание как слова в тексте от их появления как keywords. Поэтому их нужно предшествовать чем-то, что не должно отделяться от них, скажем слово Index, или Theme (как ThemeDemocracy что моя излюбленная тема). Это уже лучше, но недостаточно.
     Да ладно, а как правильно, может воскликнуть кто-то, и тогда я скажу опять: спрашивайте специалистов по библиотечному делу. Они должны вам сказать, что нужно иметь установленные индексы или тематики для всей библиотеки (а Интернет это и есть одна огромная библиотека), которые даже нужно записывать в начале книги, на второй странице (как я, если не ошибаюсь, видел на некоторых американских книгах, что они каталогизированы в ихнем каталоге). Так что здесь, повторяю, должен быть какой-то административный орган для всего мира, который представляет Интернет, скажем, Комиссия по Интернету к ООН, и они просто должны выработать нужные требования и на одном языке, пусть это будет английский на пока (хотя он оставляет желать много лучшего). В общих чертах должны быть утверждены специальные таблицы с тематиками во всех возможных областях, для которых должны быть переводы на все возможные языки и способ вызова их в любом браузере, чтобы копировать точные слова, также и какие-то стандарты для задания автора, заголовка, короткого резюме, вот такие вещи. Но если сейчас я начну объяснять подробно что нужно сделать я могу ... лишить ценных специалистов их заслуженного заработка, не так ли? Ну, шутки в сторону, но это не область для энтузиастов.
     И всё таки я рискну предложить одну гениальную идею в следующем пункте, ибо иначе я не буду Мирским, ведь так?

5. Введение хоть одного специального знака в качестве буквы во всех алфавитах

     Здесь нечего долго искать, это известный знак для подчёркивания "_" (underscore). Он удобен тем что он как бы чёрточка, но не знак переноса, а используется для слияния нескольких слов. В таком случае если начать какое-то слово даже только ими, то это уже будет отличать его во всех языках, но куда лучше если будет записываться, скажем Ind_word, или I_word, где слово "word", очевидно, означает любое слово любого языка. Я лично использую второй вариант в моей уникальной книге Urrh, чтобы можно было проводить поиск только таким образом маркированных слов. Аналогично можно ввести ещё пару других специальных обозначений, как: Au_name, или Tit_title, или The_theme. А можно будет вставлять и несколько таких знаков, если имеются подтемы к данной теме. Вот видите как элементарно всё.
     Но чтобы все могли хоть сразу воспользоваться этим предложением нужно небольшое усилие разработчиков (и поддерживающих этих софтверных продуктов), нужно лишь чтобы они обрабатывали этот символ со всеми алфавитами (хоть в арабском или суахили), а не выбрасывали его и не считали как разделительный знак оканчивающий прежнее слово. Тогда можно сделать и то, о чём я упомянул в начале, что Word может, а в Интернете нельзя, а именно: проводить поиск до каждого знака (скажем, написать только "The_math*" и искать все возможные варианты как mathematics, mathematical, только math, и прочее). Такой люкс можно будет себе позволить для всего веба, потому что это будет не слово какого-нибудь языка, оно будет встречаться десятков тысяч (а то и миллионов) раз реже, чем все эти перечисленные варианты слов; нужно просто для всех слов в которых встречается знак "_" поддерживать индексы до любого символа из этого комбинированного слова.
     Ну, этим я думаю закончить, но, как видите, имеется что желать от всех браузеров, и не только в цветовом оформлении, или во всяких сложных функциях, а в самом механизме поиска по вебе, иначе нет никакого реального смысла в показе всех возможных миллионов и миллиардов встречаний какого-то затребованного низа слов.

     12.2014





 Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
Э.Бланк "Пленница чужого мира" О.Копылова "Невеста звездного принца" А.Позин "Меч Тамерлана.Крестьянский сын,дворянская дочь"

Как попасть в этoт список
Сайт - "Художники" .. || .. Доска об'явлений "Книги"